Transcriptiemodi uitgelegd

Vandaag duiken we in de transcriptiemotor van TurboScribe, met een focus op de drie transcriptiemodi – Cheetah, Dolphin en Whale.

Wat is het verschil tussen deze 3 modi? Hier is de TLDR:

Cheetah is de snelste modus. Het transcribeert 1 uur aan audio of video in 30 seconden. Het is afgestemd om je zo snel mogelijk een transcript te leveren.
Dolphin levert zeer hoge nauwkeurigheid en is tegelijkertijd nog steeds erg snel. Het doet er ongeveer 3 minuten over om 1 uur aan audio of video te transcriberen.
Whale is afgestemd op maximale nauwkeurigheid. Het transcribeert 1 uur aan audio of video in minder dan 10 minuten.

Bij het uploaden van een bestand kun je kiezen tussen elk van deze 3 modi ( Whale is de standaard).

Dus welke moet je kiezen? We raden aan om te beginnen met de standaard (Whale) voor maximale nauwkeurigheid en over te schakelen naar Dolphin of Cheetah wanneer je nog snellere transcripties nodig hebt.

Voor degenen die een beter idee willen krijgen van wat er onder de motorkap gebeurt, lees gerust verder.

Whisper: meer dan wat het oor hoort

Laten we eens nader kijken naar Whisper, de AI-technologie achter de transcriptie van TurboScribe.

Whisper is niet slechts één enkel AI-model; het is eigenlijk een familie van vijf modellen, elk met verschillende afwegingen tussen nauwkeurigheid en snelheid.

Aan de onderkant begint Whisper met het 'tiny'-model (met 'slechts' 39 miljoen parameters) en gaat helemaal tot 'large' (met 1,55 miljard parameters).

'tiny' is de snelste, maar maakt de meeste fouten. 'base' en 'small' zijn beter dan de meeste mensen. 'large' is de nauwkeurigste (vergelijkbaar met professionele transcribenten en vertalers), maar vereist veel geheugen en dure hardware.

De 5 modellen van Whisper

De Whisper-familie bevat 5 verschillende AI-modellen:

tiny — 39 miljoen parameters
base — 74 miljoen parameters (stuurt TurboScribe's Cheetah-modus aan)
small — 244 miljoen parameters (stuurt TurboScribe's Dolphin-modus aan)
medium — 769 miljoen parameters
large — 1,55 miljard parameters (stuurt TurboScribe's Whale-modus aan)

Helaas, tenzij je een bijzonder krachtige computer of een stevige GPU (graphics processing unit) hebt, zullen de meeste mensen moeite hebben om de meeste modellen groter dan 'base' efficiënt te draaien.

GPU's zijn het geheim om audio snel te transcriberen. Helaas zijn ze ook vrij duur. Op het moment van schrijven kost een enkele Nvidia A100 — de chip die de race naar AI aandrijft — $6.715,00 op Amazon.

TurboScribe gebruikt GPU's om transcriptie aanzienlijk te versnellen en meer gedaan te krijgen, sneller.

Vergelijken van transcriptietijden

Laten we elk van TurboScribe's modi vergelijken op onze GPU-aangedreven transcriptiemotor door een audiofile van 1 uur over de Tweede Wereldoorlog te transcriberen.

Cheetah

Cheetah heeft als prioriteit het leveren van nauwkeurige transcripts op maximale snelheid, aangedreven door het 74 miljoen parameter 'base'-model. Dit is hoe het transcriberen van onze audiofile van 1 uur eruitziet:

Dat duurde slechts 20 seconden. Met andere woorden, het is snel.

Dolphin

Dolphin, met 244 miljoen parameters, duurt iets meer dan twee keer zo lang (wat nog steeds behoorlijk snel is):

Whale

Tot slot duurt Whale ongeveer 3 minuten om dezelfde audiofile van 1 uur te transcriberen (met het gigantische 1,55 miljard parameter Whisper 'large-v2'-model):

Houd er rekening mee dat transcriptietijden iets kunnen variëren.

Bijvoorbeeld, het transcriberen van een groot videobestand van 4GB (met 2 uur aan audio) zal iets meer tijd kosten dan een kleiner 100 MB MP3-bestand met dezelfde 2 uur aan audio — dit komt voornamelijk doordat we meer tijd moeten besteden aan het overbrengen, analyseren, voorbewerken en converteren van je mediabestand voordat we daadwerkelijk beginnen met transcriberen.

Audiofiles met weinig detecteerbare menselijke spraak (denk aan een audio-opname met veel stiltes) kunnen meestal sneller worden getranscribeerd. Bovendien is het transcriberen van meerdere bestanden meestal sneller dan het transcriberen van een enkel bestand.

Vergelijken van nauwkeurigheid

Voor veel gangbare audio- en videobestanden is er geen verschil tussen Cheetah, Dolphin en Whale.

Waar Dolphin en Whale echt schitteren, is in gevallen waar contextuele aanwijzingen nodig zijn om gelijk klinkende woorden te onderscheiden.

Bijvoorbeeld, in een hakkelende, snel bewegende juridische opname met veel achtergrondgeluid, werd de term "Habeas Corpus" verkeerd vertaald als "happy is porpoise" met Cheetah. Echter, gebaseerd op de context van het gesprek (dat andere juridische termen bevatte), bepaalden zowel Dolphin als Whale correct dat "Habeas Corpus" de meest waarschijnlijke transcriptie is.

Hier is nog een voorbeeld: in een audio-opname introduceert een vrouw genaamd Kristina Hernandez zichzelf en spelt haar naam.

Cheetah transcribeert haar naam verkeerd als "Christina" (in plaats van "Kristina"):

(Spreker 1) Mijn naam is Christina Hernandez. Dat is gespeld als K R I S T I N A H E R N A N D E Z. (Spreker 2) Dank je wel, Christina.

Dolphin transcribeert het eerste gebruik van haar naam verkeerd, maar corrigeert het tweede gebruik van de term (nadat ze haar naam heeft gespeld):

(Spreker 1) Mijn naam is Christina Hernandez. Dat is gespeld als K R I S T I N A H E R N A N D E Z. (Spreker 2) Dank je wel, Kristina.

Whale krijgt beide gebruiken correct:

(Spreker 1) Mijn naam is Kristina Hernandez. Dat is gespeld als K R I S T I N A H E R N A N D E Z. (Spreker 2) Dank je wel, Kristina.

Nauwkeurigheid verbeteren met metadata

Er zijn gevallen waarin zelfs een menselijke vertaler geen juiste transcriptie eenduidig kan bepalen. Bijvoorbeeld, als Kristina haar naam nooit had gespeld, zou het onmogelijk zijn (op basis van alleen de audio) om de correcte spelling van haar naam te bepalen.

Om de nauwkeurigheid verder te verbeteren, gebruikt TurboScribe metadata die is gekoppeld aan audio- en videobestanden die je uploadt (zoals de bestandsnaam, titel en beschrijving) om automatisch transcripties van termen te verbeteren die niet eenduidig kunnen worden bepaald op basis van alleen de audio.

Bijvoorbeeld, als de MP3-metadatatitel, artiest of opmerking verwijst naar "Kristina Hernandez", is het veel waarschijnlijker dat alle 3 de modi haar naam correct transcriberen.

Afsluiten

Kortom, TurboScribe biedt drie transcriptiemodi:

Cheetah levert nauwkeurige transcripties zo snel mogelijk.
Dolphin streeft naar de perfecte balans tussen nauwkeurigheid en snelheid.
Whale maximaliseert de nauwkeurigheid, maar neemt iets meer tijd. Het is de standaardmodus van TurboScribe.

De beste manier om echt hun capaciteiten te begrijpen, is door ze zelf uit te proberen. Start voor gratis en transcribeer tot 4 audio- of videobestanden gratis elke dag.

TurboScribe