Dnes sa pozrieme hlbšie do transkripčného systému TurboScribe, so zameraním na jeho tri režimy prepisu – Gepard, Delfín a Veľryba.
Aký je rozdiel medzi týmito 3 režimami? Tu je stručné zhrnutie:
Gepard je najrýchlejší režim. Prepíše 1 hodinu audia alebo videa za 30 sekúnd. Je nastavený tak, aby poskytol prepis čo najrýchlejšie.
Delfín poskytuje veľmi vysokú presnosť a pritom je stále veľmi rýchly. Prepis 1 hodiny audia alebo videa trvá približne 3 minúty.
Veľryba je nastavená na maximálnu presnosť. Prepíše 1 hodinu audia alebo videa za menej ako 10 minút.
Pri nahrávaní súboru si môžete vybrať medzi ktorýmkoľvek z týchto 3 režimov ( Veľryba je predvolená).
Ktorý by ste si teda mali vybrať? Odporúčame začať s predvoleným nastavením (Veľryba) pre maximálnu presnosť a prepnúť na Delfína alebo Geparda, keď potrebujete prepisy ešte rýchlejšie.
Pre tých z vás, ktorí chcú lepšie pochopiť, čo sa deje na pozadí, pokračujte v čítaní.
Whisper: Viac než sa zdá
Pozrime sa bližšie na Whisper, AI technológiu, na ktorej je založený prepis TurboScribe.
Whisper nie je len jeden AI model; v skutočnosti je to rodina piatich modelov, z ktorých každý má rôzne kompromisy medzi presnosťou a rýchlosťou.
Na spodnom konci Whisper začína s modelom "tiny" (s "len" 39 miliónmi parametrov) a ide až po "large" (s 1,55 miliardami parametrov).
"tiny" je najrýchlejší, ale robí najviac chýb. "base" a "small" sú lepšie než väčšina ľudí. "large" je najpresnejší (porovnateľný s profesionálnymi prepisovateľmi a prekladateľmi), ale vyžaduje veľa pamäte a drahý hardvér.
5 modelov Whisper
Rodina Whisper obsahuje 5 rôznych AI modelov:
- tiny — 39 miliónov parametrov
- base — 74 miliónov parametrov (poháňa
režim Gepard v TurboScribe)
- small — 244 miliónov parametrov (poháňa
režim Delfín v TurboScribe)
- medium — 769 miliónov parametrov
- large — 1,55 miliardy parametrov (poháňa
režim Veľryba v TurboScribe)
Žiaľ, pokiaľ nemáte mimoriadne výkonný počítač alebo prístup k výkonnému GPU (grafickej procesorovej jednotke), väčšina ľudí bude mať problém efektívne spustiť väčšinu modelov väčších ako "base".
GPU sú tajomstvom rýchleho prepisu zvuku. Žiaľ, sú aj pomerne drahé. V čase písania stojí jedna Nvidia A100 — čip "poháňajúci preteky v AI" — $6,715.00 na Amazone.
TurboScribe používa GPU na výrazné zrýchlenie prepisu a zvládnutie väčšieho objemu práce rýchlejšie.
Porovnanie časov prepisu
Porovnajme každý z režimov TurboScribe na našom prepisovom systéme poháňanom GPU prepisom 1-hodinového zvukového súboru o druhej svetovej vojne.
Gepard
Gepard uprednostňuje poskytovanie presných prepisov maximálnou rýchlosťou, poháňaný 74-miliónovým modelom "base". Takto vyzerá prepis nášho 1-hodinového zvukového súboru:
Trvalo to len 20 sekúnd. Inými slovami, je rýchly.
Delfín
Delfín s 244 miliónmi parametrov trvá o niečo viac ako dvakrát dlhšie (čo je stále pomerne rýchle):
Veľryba
Nakoniec, Veľryba trvá približne 3 minúty na prepis toho istého 1-hodinového zvukového súboru (s masívnym 1,55-miliardovým modelom Whisper "large-v2"):
Majte na pamäti, že časy prepisu sa môžu mierne líšiť.
Napríklad, prepis veľkého 4GB video súboru (s 2 hodinami zvuku) bude trvať o niečo dlhšie ako menší 100MB MP3 súbor s rovnakými 2 hodinami zvuku — je to hlavne preto, že musíme stráviť viac času prenosom, analýzou, predspracovaním a konverziou vášho mediálneho súboru pred samotným začiatkom prepisu.
Zvukové súbory s malým množstvom detekovateľnej ľudskej reči (predstavte si zvukový záznam s množstvom tichých období) sa zvyčajne dajú prepísať rýchlejšie. Navyše, prepis viacerých súborov je tiež zvyčajne rýchlejší ako prepis jedného súboru.
Porovnanie presnosti
Pri mnohých bežných zvukových a video súboroch nie je žiadny rozdiel medzi režimami Gepard,
Delfín a
Veľryba.
Kde Delfín a
Veľryba skutočne vynikajú, sú prípady, kde sú potrebné kontextové indície na rozlíšenie podobne znejúcich slov.
Napríklad, v prerušovanom, rýchlom právnickom zázname s vysokou mierou hluku v pozadí bol termín "Habeas Corpus" nesprávne preložený ako "happy is porpoise" v režime Gepard. Avšak na základe kontextu okolitej konverzácie (ktorá zahŕňala iné právne termíny),
Delfín aj
Veľryba správne určili, že "Habeas Corpus" je najpravdepodobnejší prepis.
Tu je ďalší príklad: v zvukovom zázname sa žena menom Kristina Hernandez predstaví a vyhláskovuje svoje meno.
Gepard nesprávne prepíše jej meno ako "Christina" (namiesto "Kristina"):
(Hovorca 1) Volám sa Christina Hernandez. To sa píše K R I S T I N A H E R N A N D E Z. (Hovorca 2) Ďakujem, Christina.
Delfín nesprávne prepíše prvé použitie jej mena, ale opraví druhé použitie termínu (po tom, čo vyhláskovala svoje meno):
(Hovorca 1) Volám sa Christina Hernandez. To sa píše K R I S T I N A H E R N A N D E Z. (Hovorca 2) Ďakujem, Kristina.
Veľryba dostane obe použitia správne:
(Hovorca 1) Volám sa Kristina Hernandez. To sa píše K R I S T I N A H E R N A N D E Z. (Hovorca 2) Ďakujem, Kristina.
Zlepšenie presnosti pomocou metadát
Existujú prípady, kde ani ľudský prekladateľ nemôže jednoznačne určiť správny prepis. Napríklad, ak by Kristina nikdy nevyhláskovovala svoje meno, bolo by nemožné (len na základe zvuku) určiť správny pravopis jej mena.
Na ďalšie zlepšenie presnosti TurboScribe používa metadáta pripojené k zvukovým a video súborom, ktoré nahráte (ako názov súboru, titul a popis) na automatické zlepšenie prepisov termínov, ktoré nemožno jednoznačne určiť len na základe zvuku.
Napríklad, ak metadáta MP3 v titule, interpretovi alebo komentári odkazujú na "Kristina Hernandez", všetky 3 režimy majú oveľa väčšiu pravdepodobnosť správneho prepisu jej mena.
Zhrnutie
V súhrne, TurboScribe ponúka tri režimy prepisu:
Gepard poskytuje presné prepisy čo najrýchlejšie.
Delfín sa zameriava na dokonalú rovnováhu medzi presnosťou a rýchlosťou.
Veľryba maximalizuje presnosť, ale trvá o niečo dlhšie. Je to predvolený režim TurboScribe.
Najlepší spôsob, ako skutočne pochopiť ich schopnosti, je vyskúšať si ich sami. Začnite zadarmo a prepisujte až 4 zvukové alebo video súbory zadarmo každý deň.

