Přihlásit seRegistrovat se
TurboScribe modes banner

Režimy přepisu, vysvětleno

23. srpna 2023
Leif Foged
Leif Foged

Dnes se ponoříme do přepisovacího enginu TurboScribe a zaměříme se na jeho tři režimy přepisu – Gepard, Delfín a Velryba.

Jaký je rozdíl mezi těmito 3 režimy? Zde je shrnutí:

  • 🐆 Gepard je nejrychlejší režim. Přepíše 1 hodinu audia nebo videa za 30 sekund. Je nastaven tak, aby vám doručil přepis co nejrychleji.
  • 🐬 Delfín poskytuje velmi vysokou přesnost a je stále velmi rychlý. Přepis 1 hodiny audia nebo videa trvá přibližně 3 minuty.
  • 🐳 Velryba je nastavena na maximální přesnost. Přepíše 1 hodinu audia nebo videa za méně než 10 minut.

Při nahrávání souboru si můžete vybrat mezi těmito 3 režimy (🐳 Velryba je výchozí).

Který byste tedy měli zvolit? Doporučujeme začít s výchozím (Velryba) pro maximální přesnost a přepnout na Delfína nebo Geparda, když potřebujete přepisy ještě rychleji.

Pro ty z vás, kteří chtějí lépe porozumět tomu, co se děje pod kapotou, můžete pokračovat ve čtení.

Whisper: Více než se na první pohled zdá

Audio waves

Podívejme se blíže na Whisper, AI technologii, která stojí za přepisem TurboScribe.

Whisper není jen jeden AI model; ve skutečnosti jde o rodinu pěti modelů, každý s různými kompromisy mezi přesností a rychlostí.

Na nejnižší úrovni Whisper začíná s modelem "tiny" (s "pouhými" 39 miliony parametrů) a jde až k "large" (s 1,55 miliardami parametrů).

"tiny" je nejrychlejší, ale dělá nejvíce chyb. "base" a "small" jsou lepší než většina lidí. "large" je nejpřesnější (srovnatelný s profesionálními přepisovateli a překladateli), ale vyžaduje hodně paměti a drahý hardware.

5 modelů Whisper

Rodina Whisper obsahuje 5 různých AI modelů:

  • tiny — 39 milionů parametrů
  • base — 74 milionů parametrů (pohání režim 🐆 Gepard v TurboScribe)
  • small — 244 milionů parametrů (pohání režim 🐬 Delfín v TurboScribe)
  • medium — 769 milionů parametrů
  • large — 1,55 miliardy parametrů (pohání režim 🐳 Velryba v TurboScribe)

Bohužel, pokud nemáte obzvláště výkonný počítač nebo nemáte přístup k výkonnému GPU (grafické procesorové jednotce), většina lidí bude mít potíže s efektivním spuštěním modelů větších než "base".

GPU jsou tajemstvím rychlého přepisu audia. Bohužel jsou také poměrně drahé. V době psaní stojí jeden Nvidia A100 — čip "pohánějící závod o AI"$6,715.00 na Amazonu.

TurboScribe využívá GPU k výraznému zrychlení přepisu a k dosažení větší efektivity.

Porovnání časů přepisu

Pojďme porovnat každý z režimů TurboScribe na našem přepisovacím enginu poháněném GPU přepisem hodinového audio souboru o druhé světové válce.

🐆 Gepard

Gepard upřednostňuje dodání přesných přepisů maximální rychlostí, poháněný 74milionovým modelem "base". Takhle vypadá přepis našeho hodinového audio souboru:

To trvalo pouhých 20 sekund. Jinými slovy, je to rychlé.

🐬 Delfín

Delfín se svými 244 miliony parametrů trvá o něco více než dvakrát déle (což je stále docela rychlé):

🐳 Velryba

Nakonec Velryba trvá přibližně 3 minuty k přepisu stejného hodinového audio souboru (s masivním 1,55miliardovým parametrickým modelem Whisper "large-v2"):

Mějte na paměti, že časy přepisu se mohou mírně lišit.

Například přepis velkého 4GB video souboru (s 2 hodinami audia) bude trvat o něco déle než menší 100MB MP3 soubor se stejnými 2 hodinami audia – to je především proto, že musíme strávit více času přenosem, analýzou, předzpracováním a konverzí vašeho mediálního souboru, než skutečně začneme s přepisem.

Audio soubory s malým množstvím detekovatelné lidské řeči (představte si zvukový záznam s mnoha tichými úseky) lze obvykle přepsat rychleji. Kromě toho je přepis více souborů obvykle rychlejší než přepis jednoho souboru.

Porovnání přesnosti

U mnoha běžných audio a video souborů není žádný rozdíl mezi 🐆 Gepardem, 🐬 Delfínem a 🐳 Velrybou.

Kde 🐬 Delfín a 🐳 Velryba skutečně vynikají, jsou případy, kdy jsou vyžadovány kontextové náznaky k rozlišení podobně znějících slov.

Například v trhaném, rychlém právním záznamu s vysokým množstvím šumu v pozadí byl termín "Habeas Corpus" chybně přeložen jako "happy is porpoise" s 🐆 Gepardem. Nicméně na základě kontextu okolní konverzace (která zahrnovala další právní termíny), jak 🐬 Delfín, tak 🐳 Velryba správně určili, že "Habeas Corpus" je nejpravděpodobnější přepis.

Zde je další příklad: v audio záznamu se žena jménem Kristina Hernandez představuje a hláskuje své jméno.

🐆 Gepard nesprávně přepisuje její jméno jako "Christina" (místo "Kristina"):

(Mluvčí 1) Jmenuji se Christina Hernandez. To se hláskuje K R I S T I N A H E R N A N D E Z. (Mluvčí 2) Děkuji, Christina.

🐬 Delfín nesprávně přepisuje první použití jejího jména, ale opravuje druhé použití termínu (poté, co vyhláskovala své jméno):

(Mluvčí 1) Jmenuji se Christina Hernandez. To se hláskuje K R I S T I N A H E R N A N D E Z. (Mluvčí 2) Děkuji, Kristina.

🐳 Velryba zvládne obě použití správně:

(Mluvčí 1) Jmenuji se Kristina Hernandez. To se hláskuje K R I S T I N A H E R N A N D E Z. (Mluvčí 2) Děkuji, Kristina.

Zlepšení přesnosti pomocí metadat

Existují případy, kdy ani lidský překladatel nemůže jednoznačně určit správný přepis. Například kdyby Kristina nikdy nevyhláskovala své jméno, bylo by nemožné (pouze na základě audia) určit správný pravopis jejího jména.

Pro další zlepšení přesnosti používá TurboScribe metadata připojená k audio a video souborům, které nahrajete (jako je název souboru, titul a popis) k automatickému zlepšení přepisů termínů, které nelze jednoznačně určit pouze na základě audia.

Například pokud metadata MP3 v titulu, umělci nebo komentáři odkazují na "Kristina Hernandez", všechny 3 režimy s větší pravděpodobností přepíší její jméno správně.

Shrnutí

Souhrnně řečeno, TurboScribe nabízí tři režimy přepisu:

  • 🐆 Gepard poskytuje přesné přepisy co nejrychleji.
  • 🐬 Delfín cílí na perfektní rovnováhu mezi přesností a rychlostí.
  • 🐳 Velryba maximalizuje přesnost, ale trvá o něco déle. Je to výchozí režim TurboScribe.

Nejlepší způsob, jak skutečně pochopit jejich schopnosti, je vyzkoušet si je sami. Začněte zdarma a přepisujte až 4 audio nebo video soubory zdarma každý den.

O TurboScribe

TurboScribe převádí audio a video na přesný text během několika sekund pomocí AI.

Zjistěte více o TurboScribe

Jste připraveni začít přepisovat?

Získejte plný přístup k...

Neomezené přepisy
Neomezené přepisy pro jednu osobu.
🎯
99,8 % přesnost
Využívá Whisper, nejpřesnější a nejvýkonnější technologii AI pro přepis řeči na text na světě.
🌍
98+ jazyků
TurboScribe podporuje mluvené jazyky z celého světa.
🚀
Nahrávky do 10 hodin
Každý soubor může být až 10 hodin dlouhý / 5 GB. Nahrajte 50 souborů najednou.
👥
Rozpoznávání mluvčích
Skvělé pro schůzky, rozhovory a podcasty.