Prihlásiť saRegistrovať sa
TurboScribe modes banner

Režimy prepisu, vysvetlené

23. augusta 2023
Leif Foged
Leif Foged

Dnes sa pozrieme hlbšie do transkripčného systému TurboScribe, so zameraním na jeho tri režimy prepisu – Gepard, Delfín a Veľryba.

Aký je rozdiel medzi týmito 3 režimami? Tu je stručné zhrnutie:

  • 🐆 Gepard je najrýchlejší režim. Prepíše 1 hodinu audia alebo videa za 30 sekúnd. Je nastavený tak, aby poskytol prepis čo najrýchlejšie.
  • 🐬 Delfín poskytuje veľmi vysokú presnosť a pritom je stále veľmi rýchly. Prepis 1 hodiny audia alebo videa trvá približne 3 minúty.
  • 🐳 Veľryba je nastavená na maximálnu presnosť. Prepíše 1 hodinu audia alebo videa za menej ako 10 minút.

Pri nahrávaní súboru si môžete vybrať medzi ktorýmkoľvek z týchto 3 režimov (🐳 Veľryba je predvolená).

Ktorý by ste si teda mali vybrať? Odporúčame začať s predvoleným nastavením (Veľryba) pre maximálnu presnosť a prepnúť na Delfína alebo Geparda, keď potrebujete prepisy ešte rýchlejšie.

Pre tých z vás, ktorí chcú lepšie pochopiť, čo sa deje na pozadí, pokračujte v čítaní.

Whisper: Viac než sa zdá

Audio waves

Pozrime sa bližšie na Whisper, AI technológiu, na ktorej je založený prepis TurboScribe.

Whisper nie je len jeden AI model; v skutočnosti je to rodina piatich modelov, z ktorých každý má rôzne kompromisy medzi presnosťou a rýchlosťou.

Na spodnom konci Whisper začína s modelom "tiny" (s "len" 39 miliónmi parametrov) a ide až po "large" (s 1,55 miliardami parametrov).

"tiny" je najrýchlejší, ale robí najviac chýb. "base" a "small" sú lepšie než väčšina ľudí. "large" je najpresnejší (porovnateľný s profesionálnymi prepisovateľmi a prekladateľmi), ale vyžaduje veľa pamäte a drahý hardvér.

5 modelov Whisper

Rodina Whisper obsahuje 5 rôznych AI modelov:

  • tiny — 39 miliónov parametrov
  • base — 74 miliónov parametrov (poháňa 🐆 režim Gepard v TurboScribe)
  • small — 244 miliónov parametrov (poháňa 🐬 režim Delfín v TurboScribe)
  • medium — 769 miliónov parametrov
  • large — 1,55 miliardy parametrov (poháňa 🐳 režim Veľryba v TurboScribe)

Žiaľ, pokiaľ nemáte mimoriadne výkonný počítač alebo prístup k výkonnému GPU (grafickej procesorovej jednotke), väčšina ľudí bude mať problém efektívne spustiť väčšinu modelov väčších ako "base".

GPU sú tajomstvom rýchleho prepisu zvuku. Žiaľ, sú aj pomerne drahé. V čase písania stojí jedna Nvidia A100 — čip "poháňajúci preteky v AI"$6,715.00 na Amazone.

TurboScribe používa GPU na výrazné zrýchlenie prepisu a zvládnutie väčšieho objemu práce rýchlejšie.

Porovnanie časov prepisu

Porovnajme každý z režimov TurboScribe na našom prepisovom systéme poháňanom GPU prepisom 1-hodinového zvukového súboru o druhej svetovej vojne.

🐆 Gepard

Gepard uprednostňuje poskytovanie presných prepisov maximálnou rýchlosťou, poháňaný 74-miliónovým modelom "base". Takto vyzerá prepis nášho 1-hodinového zvukového súboru:

Trvalo to len 20 sekúnd. Inými slovami, je rýchly.

🐬 Delfín

Delfín s 244 miliónmi parametrov trvá o niečo viac ako dvakrát dlhšie (čo je stále pomerne rýchle):

🐳 Veľryba

Nakoniec, Veľryba trvá približne 3 minúty na prepis toho istého 1-hodinového zvukového súboru (s masívnym 1,55-miliardovým modelom Whisper "large-v2"):

Majte na pamäti, že časy prepisu sa môžu mierne líšiť.

Napríklad, prepis veľkého 4GB video súboru (s 2 hodinami zvuku) bude trvať o niečo dlhšie ako menší 100MB MP3 súbor s rovnakými 2 hodinami zvuku — je to hlavne preto, že musíme stráviť viac času prenosom, analýzou, predspracovaním a konverziou vášho mediálneho súboru pred samotným začiatkom prepisu.

Zvukové súbory s malým množstvom detekovateľnej ľudskej reči (predstavte si zvukový záznam s množstvom tichých období) sa zvyčajne dajú prepísať rýchlejšie. Navyše, prepis viacerých súborov je tiež zvyčajne rýchlejší ako prepis jedného súboru.

Porovnanie presnosti

Pri mnohých bežných zvukových a video súboroch nie je žiadny rozdiel medzi režimami 🐆 Gepard, 🐬 Delfín a 🐳 Veľryba.

Kde 🐬 Delfín a 🐳 Veľryba skutočne vynikajú, sú prípady, kde sú potrebné kontextové indície na rozlíšenie podobne znejúcich slov.

Napríklad, v prerušovanom, rýchlom právnickom zázname s vysokou mierou hluku v pozadí bol termín "Habeas Corpus" nesprávne preložený ako "happy is porpoise" v režime 🐆 Gepard. Avšak na základe kontextu okolitej konverzácie (ktorá zahŕňala iné právne termíny), 🐬 Delfín aj 🐳 Veľryba správne určili, že "Habeas Corpus" je najpravdepodobnejší prepis.

Tu je ďalší príklad: v zvukovom zázname sa žena menom Kristina Hernandez predstaví a vyhláskovuje svoje meno.

🐆 Gepard nesprávne prepíše jej meno ako "Christina" (namiesto "Kristina"):

(Hovorca 1) Volám sa Christina Hernandez. To sa píše K R I S T I N A H E R N A N D E Z. (Hovorca 2) Ďakujem, Christina.

🐬 Delfín nesprávne prepíše prvé použitie jej mena, ale opraví druhé použitie termínu (po tom, čo vyhláskovala svoje meno):

(Hovorca 1) Volám sa Christina Hernandez. To sa píše K R I S T I N A H E R N A N D E Z. (Hovorca 2) Ďakujem, Kristina.

🐳 Veľryba dostane obe použitia správne:

(Hovorca 1) Volám sa Kristina Hernandez. To sa píše K R I S T I N A H E R N A N D E Z. (Hovorca 2) Ďakujem, Kristina.

Zlepšenie presnosti pomocou metadát

Existujú prípady, kde ani ľudský prekladateľ nemôže jednoznačne určiť správny prepis. Napríklad, ak by Kristina nikdy nevyhláskovovala svoje meno, bolo by nemožné (len na základe zvuku) určiť správny pravopis jej mena.

Na ďalšie zlepšenie presnosti TurboScribe používa metadáta pripojené k zvukovým a video súborom, ktoré nahráte (ako názov súboru, titul a popis) na automatické zlepšenie prepisov termínov, ktoré nemožno jednoznačne určiť len na základe zvuku.

Napríklad, ak metadáta MP3 v titule, interpretovi alebo komentári odkazujú na "Kristina Hernandez", všetky 3 režimy majú oveľa väčšiu pravdepodobnosť správneho prepisu jej mena.

Zhrnutie

V súhrne, TurboScribe ponúka tri režimy prepisu:

  • 🐆 Gepard poskytuje presné prepisy čo najrýchlejšie.
  • 🐬 Delfín sa zameriava na dokonalú rovnováhu medzi presnosťou a rýchlosťou.
  • 🐳 Veľryba maximalizuje presnosť, ale trvá o niečo dlhšie. Je to predvolený režim TurboScribe.

Najlepší spôsob, ako skutočne pochopiť ich schopnosti, je vyskúšať si ich sami. Začnite zadarmo a prepisujte až 4 zvukové alebo video súbory zadarmo každý deň.

O službe TurboScribe

TurboScribe premieňa audio a video na presný text v priebehu sekúnd pomocou AI.

Dozvedieť sa viac o TurboScribe

Ste pripravení začať s prepisom?

Získajte plný prístup k...

Neobmedzené prepisy
Neobmedzené prepisy pre jednu osobu.
🎯
99,8 % presnosť
Poháňané technológiou Whisper, najpresnejšou a najvýkonnejšou AI technológiou na svete pre prepis reči na text.
🌍
98+ jazykov
TurboScribe podporuje hovorené jazyky sveta.
🚀
Súbory do 10 hodín
Každý súbor môže mať až 10 hodín / 5 GB. Nahrajte 50 súborov naraz.
👥
Rozpoznávanie hovorcov
Skvelé pre stretnutia, rozhovory a podcasty.