Режими транскрипције, објашњени

Данас ћемо се удубити у TurboScribe-ов систем за транскрипцију, фокусирајући се на његова три режима транскрипције – Гепард, Делфин и Кит.

Која је разлика између ова 3 режима? Ево укратко:

Гепард је најбржи режим. Транскрибује 1 сат аудио или видео садржаја за 30 секунди. Подешен је да испоручи транскрипт што је брже могуће.
Делфин пружа веома високу прецизност, а истовремено је веома брз. Потребно му је око 3 минута да транскрибује 1 сат аудио или видео садржаја.
Кит је подешен за максималну прецизност. Транскрибује 1 сат аудио или видео садржаја за мање од 10 минута.

При отпремању фајла, можете изабрати између било којег од ова 3 режима ( Кит је подразумевани).

Дакле, који би требало да изаберете? Препоручујемо да почнете са подразумеваним (Кит) за максималну прецизност и пређете на Делфин или Гепард када су вам потребни транскрипти још брже.

За оне који желе бољи увид у то шта се дешава испод хаубе, слободно наставите са читањем.

Whisper: Више од оног што се чује

Хајде да боље погледамо Whisper, AI технологију која стоји иза TurboScribe транскрипције.

Whisper није само један AI модел; заправо је то породица од пет модела, од којих сваки има различите компромисе између прецизности и брзине.

На доњем крају, Whisper почиње са "tiny" моделом (са "само" 39 милиона параметара) и иде све до "large" (са 1,55 милијарди параметара).

"tiny" је најбржи, али прави највише грешака. "base" и "small" су бољи од већине људи. "large" је најпрецизнији (упоредив са професионалним транскрипторима и преводиоцима), али захтева много меморије и скуп хардвер.

Whisper-ових 5 модела

Whisper породица садржи 5 различитих AI модела:

tiny — 39 милиона параметара
base — 74 милиона параметара (покреће TurboScribe-ов Гепард режим)
small — 244 милиона параметара (покреће TurboScribe-ов Делфин режим)
medium — 769 милиона параметара
large — 1,55 милијарди параметара (покреће TurboScribe-ов Кит режим)

Нажалост, осим ако немате посебно снажан рачунар или приступ моћном GPU-у (графичкој процесорској јединици), већина људи ће имати потешкоћа да ефикасно покрене већину модела већих од "base".

GPU-ови су тајна брзог транскрибовања аудио садржаја. Нажалост, такође су прилично скупи. У време писања, један Nvidia A100 — чип који "покреће трку за AI" — кошта $6.715,00 на Amazon-у.

TurboScribe користи GPU-ове за значајно убрзање транскрипције и већу продуктивност.

Поређење времена транскрипције

Хајде да упоредимо сваки од TurboScribe режима на нашем GPU-покренутом систему за транскрипцију транскрибовањем аудио фајла од 1 сат о Другом светском рату.

Гепард

Гепард даје приоритет испоруци прецизних транскрипата максималном брзином, покренут "base" моделом од 74 милиона параметара. Ево како изгледа транскрибовање нашег једносатног аудио фајла:

То је трајало само 20 секунди. Другим речима, брз је.

Делфин

Делфину, са 244 милиона параметара, потребно је нешто више од двоструко дужег времена (што је и даље прилично брзо):

Кит

Коначно, Киту је потребно око 3 минута да транскрибује исти једносатни аудио фајл (са масивним Whisper "large-v2" моделом од 1,55 милијарди параметара):

Имајте на уму да времена транскрипције могу благо варирати.

На пример, транскрибовање великог видео фајла од 4GB (са 2 сата аудио садржаја) трајаће нешто дуже него мањи MP3 фајл од 100MB са истих 2 сата аудио садржаја — ово је углавном зато што морамо провести више времена на пренос, анализу, претпроцесирање и конвертовање вашег медијског фајла пре него што заправо почнемо транскрипцију.

Аудио фајлови са мало детектованог људског говора (замислите аудио снимак са много периода тишине) обично се могу транскрибовати брже. Штавише, транскрибовање више фајлова је такође обично брже него транскрибовање једног фајла.

Поређење прецизности

За многе уобичајене аудио и видео фајлове, нема разлике између Гепарда, Делфина и Кита.

Где Делфин и Кит заиста блистају је у случајевима где су контекстуални трагови потребни за разјашњавање слично звучећих речи.

На пример, у испрекиданом, брзом правном снимку са високим нивоом позадинске буке, термин "Habeas Corpus" је погрешно преведен као "happy is porpoise" са Гепардом. Међутим, на основу контекста околног разговора (који је укључивао друге правне термине), и Делфин и Кит су исправно утврдили да је "Habeas Corpus" највероватнија транскрипција.

Ево још једног примера: у аудио снимку, жена по имену Кристина Хернандез се представља и спелује своје име.

Гепард нетачно транскрибује њено име као "Christina" (уместо "Kristina"):

(Говорник 1) Моје име је Christina Hernandez. То се спелује K R I S T I N A H E R N A N D E Z. (Говорник 2) Хвала, Christina.

Делфин нетачно транскрибује прву употребу њеног имена, али исправља другу употребу термина (након што она спелује своје име):

(Говорник 1) Моје име је Christina Hernandez. То се спелује K R I S T I N A H E R N A N D E Z. (Говорник 2) Хвала, Kristina.

Кит тачно преноси обе употребе:

(Говорник 1) Моје име је Kristina Hernandez. То се спелује K R I S T I N A H E R N A N D E Z. (Говорник 2) Хвала, Kristina.

Побољшање прецизности помоћу метаподатака

Постоје случајеви где чак ни људски преводилац не може недвосмислено одредити тачну транскрипцију. На пример, да Кристина никада није спеловала своје име, било би немогуће (само на основу аудио садржаја) утврдити тачно спеловање њеног имена.

Да би додатно побољшао прецизност, TurboScribe користи метаподатке прикачене уз аудио и видео фајлове које отпремате (као што су име фајла, наслов и опис) да би аутоматски побољшао транскрипције термина који се не могу недвосмислено утврдити само на основу аудио садржаја.

На пример, ако MP3 метаподаци о наслову, извођачу или коментару спомињу "Kristina Hernandez", сва 3 режима ће много вероватније тачно транскрибовати њено име.

Закључак

Укратко, TurboScribe нуди три режима транскрипције:

Гепард пружа прецизне транскрипције што је брже могуће.
Делфин тежи савршеном балансу између прецизности и брзине.
Кит максимизира прецизност, али траје мало дуже. То је подразумевани режим TurboScribe-а.

Најбољи начин да заиста схватите њихове могућности је да их сами испробате. Почните бесплатно и транскрибујте до 4 аудио или видео фајла бесплатно сваког дана.

TurboScribe