BejelentkezésRegisztráció
TurboScribe modes banner

Átírási módok magyarázata

2023. augusztus 23.
Leif Foged
Leif Foged

Ma a TurboScribe átírómotorjának részleteibe mélyedünk, különös tekintettel a három átírási módra – a Gepárdra, a Delfinre és a Bálnára.

Mi a különbség a 3 mód között? Íme a rövid összefoglaló:

  • 🐆 A Gepárd a leggyorsabb mód. 1 órányi hang- vagy videóanyagot 30 másodperc alatt ír át. Arra optimalizált, hogy a lehető leggyorsabban készítsen átiratot.
  • 🐬 A Delfin nagyon pontos átiratot készít, miközben még mindig nagyon gyors. Körülbelül 3 perc alatt ír át 1 órányi hang- vagy videóanyagot.
  • 🐳 A Bálna maximális pontosságra van optimalizálva. 1 órányi hang- vagy videóanyagot kevesebb mint 10 perc alatt ír át.

Fájl feltöltésekor választhatsz e 3 mód közül (🐳 a Bálna az alapértelmezett).

Melyiket válaszd? Azt javasoljuk, kezdj az alapértelmezett (Bálna) móddal a maximális pontosság érdekében, és válts Delfinre vagy Gepárdra, ha még gyorsabban van szükséged az átiratra.

Ha szeretnéd jobban megérteni, mi történik a háttérben, olvasd tovább.

Whisper: Több mint amit elsőre gondolnál

Audio waves

Nézzük meg közelebbről a Whispert, a TurboScribe átírási technológiája mögött álló AI-t.

A Whisper nem csupán egyetlen AI modell; valójában öt modell családja, mindegyik más kompromisszumot köt a pontosság és a sebesség között.

A skála alján a Whisper a "tiny" modellel kezdődik ("mindössze" 39 millió paraméterrel), és egészen a "large" modellig terjed (1,55 milliárd paraméterrel).

A "tiny" a leggyorsabb, de a legtöbb hibát is ejti. A "base" és a "small" jobb, mint a legtöbb ember. A "large" a legpontosabb (összehasonlítható a professzionális átírókkal és fordítókkal), de sok memóriát és drága hardvert igényel.

A Whisper 5 modellje

A Whisper család 5 különböző AI modellt tartalmaz:

  • tiny — 39 millió paraméter
  • base — 74 millió paraméter (ez hajtja a TurboScribe 🐆 Gepárd módját)
  • small — 244 millió paraméter (ez hajtja a TurboScribe 🐬 Delfin módját)
  • medium — 769 millió paraméter
  • large — 1,55 milliárd paraméter (ez hajtja a TurboScribe 🐳 Bálna módját)

Sajnos, hacsak nincs különösen erős számítógéped vagy hozzáférésed egy nagy teljesítményű GPU-hoz (grafikus processzorhoz), a legtöbb ember számára nehézséget jelent a "base"-nél nagyobb modellek hatékony futtatása.

A GPU-k jelentik a gyors hangátírás titkát. Sajnos elég drágák is. E sorok írásakor egy Nvidia A100 – a chip, "amely az AI versenyt hajtja"$6,715.00-ba kerül az Amazonon.

A TurboScribe GPU-kat használ az átírás jelentős felgyorsítására és több munka gyorsabb elvégzésére.

Az átírási idők összehasonlítása

Hasonlítsuk össze a TurboScribe mindhárom módját a GPU-alapú átírómotorunkon egy 1 órás, második világháborúról szóló hangfájl átírásával.

🐆 Gepárd

A Gepárd a pontos átiratok maximális sebességű elkészítésére összpontosít, a 74 millió paraméteres "base" modell segítségével. Így néz ki az 1 órás hangfájlunk átírása:

Ez mindössze 20 másodpercig tartott. Más szóval, gyors.

🐬 Delfin

A Delfin 244 millió paraméterével valamivel több mint kétszer annyi időt vesz igénybe (ami még mindig elég gyors):

🐳 Bálna

Végül a Bálna körülbelül 3 percet vesz igénybe ugyanannak az 1 órás hangfájlnak az átírásához (a hatalmas, 1,55 milliárd paraméteres Whisper "large-v2" modellel):

Ne feledd, hogy az átírási idők kissé változhatnak.

Például egy nagy, 4 GB-os videófájl (2 órányi hanggal) átírása valamivel több időt vesz igénybe, mint egy kisebb, 100 MB-os MP3 fájl ugyanazzal a 2 órányi hanggal – ez főleg azért van, mert több időt kell töltenünk a médiafájl átvitelével, elemzésével, előfeldolgozásával és konvertálásával, mielőtt ténylegesen elkezdenénk az átírást.

A kevés felismerhető emberi beszédet tartalmazó hangfájlokat (gondolj egy sok csendes időszakot tartalmazó hangfelvételre) általában gyorsabban lehet átírni. Továbbá, több fájl átírása általában gyorsabb, mint egyetlen fájl átírása.

A pontosság összehasonlítása

Sok gyakori hang- és videófájl esetében nincs különbség a 🐆 Gepárd, 🐬 Delfin és 🐳 Bálna között.

Ahol a 🐬 Delfin és 🐳 Bálna igazán kitűnik, azok azok az esetek, ahol környezeti információk szükségesek a hasonlóan hangzó szavak megkülönböztetéséhez.

Például egy szaggatott, gyors tempójú jogi felvételben, magas háttérzajjal, a "Habeas Corpus" kifejezést a 🐆 Gepárd tévesen "happy is porpoise"-ként írta át. Azonban a környező beszélgetés kontextusa alapján (amely más jogi kifejezéseket is tartalmazott), mind a 🐬 Delfin, mind a 🐳 Bálna helyesen határozta meg, hogy a "Habeas Corpus" a legvalószínűbb átírás.

Íme egy másik példa: egy hangfelvételen egy Kristina Hernandez nevű nő bemutatkozik és lebetűzi a nevét.

A 🐆 Gepárd tévesen "Christina"-ként írja át a nevét (a "Kristina" helyett):

(1. beszélő) A nevem Christina Hernandez. Betűzve K R I S T I N A H E R N A N D E Z. (2. beszélő) Köszönöm, Christina.

A 🐬 Delfin tévesen írja át a név első használatát, de kijavítja a második használatot (miután lebetűzte a nevét):

(1. beszélő) A nevem Christina Hernandez. Betűzve K R I S T I N A H E R N A N D E Z. (2. beszélő) Köszönöm, Kristina.

A 🐳 Bálna mindkét használatot helyesen írja át:

(1. beszélő) A nevem Kristina Hernandez. Betűzve K R I S T I N A H E R N A N D E Z. (2. beszélő) Köszönöm, Kristina.

A pontosság javítása metaadatokkal

Vannak esetek, amikor még egy emberi fordító sem tudja egyértelműen meghatározni a helyes átírást. Például, ha Kristina soha nem betűzte volna le a nevét, lehetetlen lett volna (csak a hang alapján) meghatározni a neve helyes írásmódját.

A pontosság további javítása érdekében a TurboScribe a feltöltött hang- és videófájlokhoz csatolt metaadatokat használja (például a fájlnevet, címet és leírást) a csak hang alapján egyértelműen nem meghatározható kifejezések átírásának automatikus javítására.

Például, ha az MP3 metaadat címe, előadója vagy megjegyzése tartalmazza a "Kristina Hernandez" nevet, mindhárom mód sokkal nagyobb valószínűséggel írja át helyesen a nevét.

Összefoglalás

Összefoglalva, a TurboScribe három átírási módot kínál:

  • 🐆 A Gepárd a lehető leggyorsabban készít pontos átiratokat.
  • 🐬 A Delfin a tökéletes egyensúlyra törekszik a pontosság és a sebesség között.
  • 🐳 A Bálna maximalizálja a pontosságot, de valamivel több időt vesz igénybe. Ez a TurboScribe alapértelmezett módja.

A képességeik legjobb megismerésének módja, ha kipróbálod őket. Kezdd ingyenesen és írj át naponta akár 4 hang- vagy videófájlt ingyen.

A TurboScribe-ról

A TurboScribe mesterséges intelligencia segítségével másodpercek alatt alakítja át a hang- és videófájlokat pontos szöveggé.

Tudj meg többet a TurboScribe-ról

Készen állsz az átírás megkezdésére?

Szerezz teljes hozzáférést...

Korlátlan átiratok
Korlátlan átiratok egy személy számára.
🎯
99,8% pontosság
A világ legpontosabb és legerősebb mesterséges intelligencia alapú beszédfelismerő és átíró technológiája, a Whisper által működtetve - a legpontosabb és legerőteljesebb beszédszöveg átírás.
🌍
98+ nyelv
A TurboScribe támogatja a világ beszélt nyelveit.
🚀
10 órás feltöltések
Minden fájl akár 10 óra hosszú / 5 GB lehet. 50 fájl tölthető fel egyszerre.
👥
Beszélőfelismerés
Kiváló értekezletekhez, interjúkhoz és podcastokhoz.