Ma a TurboScribe átírómotorjának részleteibe mélyedünk, különös tekintettel a három átírási módra – a Gepárdra, a Delfinre és a Bálnára.
Mi a különbség a 3 mód között? Íme a rövid összefoglaló:
- A Gepárd a leggyorsabb mód. 1 órányi hang- vagy videóanyagot 30 másodperc alatt ír át. Arra optimalizált, hogy a lehető leggyorsabban készítsen átiratot.
- A Delfin nagyon pontos átiratot készít, miközben még mindig nagyon gyors. Körülbelül 3 perc alatt ír át 1 órányi hang- vagy videóanyagot.
- A Bálna maximális pontosságra van optimalizálva. 1 órányi hang- vagy videóanyagot kevesebb mint 10 perc alatt ír át.
Fájl feltöltésekor választhatsz e 3 mód közül ( a Bálna az alapértelmezett).
Melyiket válaszd? Azt javasoljuk, kezdj az alapértelmezett (Bálna) móddal a maximális pontosság érdekében, és válts Delfinre vagy Gepárdra, ha még gyorsabban van szükséged az átiratra.
Ha szeretnéd jobban megérteni, mi történik a háttérben, olvasd tovább.
Whisper: Több mint amit elsőre gondolnál
Nézzük meg közelebbről a Whispert, a TurboScribe átírási technológiája mögött álló AI-t.
A Whisper nem csupán egyetlen AI modell; valójában öt modell családja, mindegyik más kompromisszumot köt a pontosság és a sebesség között.
A skála alján a Whisper a "tiny" modellel kezdődik ("mindössze" 39 millió paraméterrel), és egészen a "large" modellig terjed (1,55 milliárd paraméterrel).
A "tiny" a leggyorsabb, de a legtöbb hibát is ejti. A "base" és a "small" jobb, mint a legtöbb ember. A "large" a legpontosabb (összehasonlítható a professzionális átírókkal és fordítókkal), de sok memóriát és drága hardvert igényel.
A Whisper 5 modellje
A Whisper család 5 különböző AI modellt tartalmaz:
- tiny — 39 millió paraméter
- base — 74 millió paraméter (ez hajtja a TurboScribe Gepárd módját)
- small — 244 millió paraméter (ez hajtja a TurboScribe Delfin módját)
- medium — 769 millió paraméter
- large — 1,55 milliárd paraméter (ez hajtja a TurboScribe Bálna módját)
Sajnos, hacsak nincs különösen erős számítógéped vagy hozzáférésed egy nagy teljesítményű GPU-hoz (grafikus processzorhoz), a legtöbb ember számára nehézséget jelent a "base"-nél nagyobb modellek hatékony futtatása.
A GPU-k jelentik a gyors hangátírás titkát. Sajnos elég drágák is. E sorok írásakor egy Nvidia A100 – a chip, "amely az AI versenyt hajtja" – $6,715.00-ba kerül az Amazonon.
A TurboScribe GPU-kat használ az átírás jelentős felgyorsítására és több munka gyorsabb elvégzésére.
Az átírási idők összehasonlítása
Hasonlítsuk össze a TurboScribe mindhárom módját a GPU-alapú átírómotorunkon egy 1 órás, második világháborúról szóló hangfájl átírásával.
Gepárd
A Gepárd a pontos átiratok maximális sebességű elkészítésére összpontosít, a 74 millió paraméteres "base" modell segítségével. Így néz ki az 1 órás hangfájlunk átírása:
Ez mindössze 20 másodpercig tartott. Más szóval, gyors.
Delfin
A Delfin 244 millió paraméterével valamivel több mint kétszer annyi időt vesz igénybe (ami még mindig elég gyors):
Bálna
Végül a Bálna körülbelül 3 percet vesz igénybe ugyanannak az 1 órás hangfájlnak az átírásához (a hatalmas, 1,55 milliárd paraméteres Whisper "large-v2" modellel):
Ne feledd, hogy az átírási idők kissé változhatnak.
Például egy nagy, 4 GB-os videófájl (2 órányi hanggal) átírása valamivel több időt vesz igénybe, mint egy kisebb, 100 MB-os MP3 fájl ugyanazzal a 2 órányi hanggal – ez főleg azért van, mert több időt kell töltenünk a médiafájl átvitelével, elemzésével, előfeldolgozásával és konvertálásával, mielőtt ténylegesen elkezdenénk az átírást.
A kevés felismerhető emberi beszédet tartalmazó hangfájlokat (gondolj egy sok csendes időszakot tartalmazó hangfelvételre) általában gyorsabban lehet átírni. Továbbá, több fájl átírása általában gyorsabb, mint egyetlen fájl átírása.
A pontosság összehasonlítása
Sok gyakori hang- és videófájl esetében nincs különbség a Gepárd, Delfin és Bálna között.
Ahol a Delfin és Bálna igazán kitűnik, azok azok az esetek, ahol környezeti információk szükségesek a hasonlóan hangzó szavak megkülönböztetéséhez.
Például egy szaggatott, gyors tempójú jogi felvételben, magas háttérzajjal, a "Habeas Corpus" kifejezést a Gepárd tévesen "happy is porpoise"-ként írta át. Azonban a környező beszélgetés kontextusa alapján (amely más jogi kifejezéseket is tartalmazott), mind a Delfin, mind a Bálna helyesen határozta meg, hogy a "Habeas Corpus" a legvalószínűbb átírás.
Íme egy másik példa: egy hangfelvételen egy Kristina Hernandez nevű nő bemutatkozik és lebetűzi a nevét.
A Gepárd tévesen "Christina"-ként írja át a nevét (a "Kristina" helyett):
(1. beszélő) A nevem Christina Hernandez. Betűzve K R I S T I N A H E R N A N D E Z. (2. beszélő) Köszönöm, Christina.
A Delfin tévesen írja át a név első használatát, de kijavítja a második használatot (miután lebetűzte a nevét):
(1. beszélő) A nevem Christina Hernandez. Betűzve K R I S T I N A H E R N A N D E Z. (2. beszélő) Köszönöm, Kristina.
A Bálna mindkét használatot helyesen írja át:
(1. beszélő) A nevem Kristina Hernandez. Betűzve K R I S T I N A H E R N A N D E Z. (2. beszélő) Köszönöm, Kristina.
A pontosság javítása metaadatokkal
Vannak esetek, amikor még egy emberi fordító sem tudja egyértelműen meghatározni a helyes átírást. Például, ha Kristina soha nem betűzte volna le a nevét, lehetetlen lett volna (csak a hang alapján) meghatározni a neve helyes írásmódját.
A pontosság további javítása érdekében a TurboScribe a feltöltött hang- és videófájlokhoz csatolt metaadatokat használja (például a fájlnevet, címet és leírást) a csak hang alapján egyértelműen nem meghatározható kifejezések átírásának automatikus javítására.
Például, ha az MP3 metaadat címe, előadója vagy megjegyzése tartalmazza a "Kristina Hernandez" nevet, mindhárom mód sokkal nagyobb valószínűséggel írja át helyesen a nevét.
Összefoglalás
Összefoglalva, a TurboScribe három átírási módot kínál:
- A Gepárd a lehető leggyorsabban készít pontos átiratokat.
- A Delfin a tökéletes egyensúlyra törekszik a pontosság és a sebesség között.
- A Bálna maximalizálja a pontosságot, de valamivel több időt vesz igénybe. Ez a TurboScribe alapértelmezett módja.
A képességeik legjobb megismerésének módja, ha kipróbálod őket. Kezdd ingyenesen és írj át naponta akár 4 hang- vagy videófájlt ingyen.