Transkriberingslägen, förklarat

Idag fördjupar vi oss i TurboScribes transkriberingsmotor, med fokus på dess tre transkriberingslägen – Gepard, Delfin och Val.

Vad är skillnaden mellan dessa 3 lägen? Här är sammanfattningen:

Gepard är det snabbaste läget. Det transkriberar 1 timme ljud eller video på 30 sekunder. Det är optimerat för att leverera en transkription så snabbt som möjligt.
Delfin ger mycket hög noggrannhet och är ändå mycket snabbt. Det tar cirka 3 minuter att transkribera 1 timme ljud eller video.
Val är optimerat för maximal noggrannhet. Det transkriberar 1 timme ljud eller video på mindre än 10 minuter.

När du laddar upp en fil kan du välja mellan något av dessa 3 lägen ( Val är standard).

Så vilket bör du välja? Vi rekommenderar att börja med standardläget (Val) för maximal noggrannhet och byta till Delfin eller Gepard när du behöver transkriptioner ännu snabbare.

För er som vill ha en bättre uppfattning om vad som händer under huven, fortsätt gärna läsa.

Whisper: Mer än vad ögat ser

Låt oss ta en närmare titt på Whisper, AI-teknologin bakom TurboScribes transkribering.

Whisper är inte bara en enda AI-modell; det är faktiskt en familj av fem modeller, var och en med olika avvägningar mellan noggrannhet och hastighet.

I den lägre änden börjar Whisper med "tiny"-modellen (med "bara" 39 miljoner parametrar) och går hela vägen upp till "large" (med 1,55 miljarder parametrar).

"tiny" är den snabbaste men gör flest fel. "base" och "small" är bättre än de flesta människor. "large" är den mest noggranna (jämförbar med professionella transkriptörer och översättare), men kräver mycket minne och dyr hårdvara.

Whispers 5 modeller

Whisper-familjen innehåller 5 olika AI-modeller:

tiny — 39 miljoner parametrar
base — 74 miljoner parametrar (driver TurboScribes Gepard-läge)
small — 244 miljoner parametrar (driver TurboScribes Delfin-läge)
medium — 769 miljoner parametrar
large — 1,55 miljarder parametrar (driver TurboScribes Val-läge)

Tyvärr kommer de flesta, om de inte har en särskilt kraftfull dator eller tillgång till en kraftig GPU (grafikprocessor), att ha svårt att effektivt köra de flesta modeller större än "base".

GPU:er är hemligheten bakom att transkribera ljud snabbt. Tyvärr är de också ganska dyra. I skrivande stund kostar en enda Nvidia A100 — chipet som "driver kapplöpningen för AI" — $6.715,00 på Amazon.

TurboScribe använder GPU:er för att avsevärt påskynda transkriberingen och få mer gjort, snabbare.

Jämförelse av transkriberingstider

Låt oss jämföra vart och ett av TurboScribes lägen på vår GPU-drivna transkriberingsmotor genom att transkribera en 1 timmes ljudfil om andra världskriget.

Gepard

Gepard prioriterar att leverera noggranna transkriptioner med maximal hastighet, driven av "base"-modellen med 74 miljoner parametrar. Här är hur transkriberingen av vår 1 timmes ljudfil ser ut:

Det tog bara 20 sekunder. Med andra ord är det snabbt.

Delfin

Delfin, med 244 miljoner parametrar, tar lite mer än dubbelt så lång tid (vilket fortfarande är ganska snabbt):

Val

Slutligen tar Val cirka 3 minuter att transkribera samma 1 timmes ljudfil (med den massiva Whisper "large-v2"-modellen med 1,55 miljarder parametrar):

Tänk på att transkriberingstider kan variera något.

Till exempel tar det lite längre tid att transkribera en stor 4GB-videofil (med 2 timmars ljud) än en mindre 100MB MP3-fil med samma 2 timmars ljud – detta beror mestadels på att vi måste lägga mer tid på att överföra, analysera, förbehandla och konvertera din mediefil innan vi faktiskt börjar transkriberingen.

Ljudfiler med lite detekterbart mänskligt tal (tänk en ljudinspelning med många tysta perioder) kan vanligtvis transkriberas snabbare. Dessutom går det oftast snabbare att transkribera flera filer än en enda fil.

Jämförelse av noggrannhet

För många vanliga ljud- och videofiler finns det ingen skillnad mellan Gepard, Delfin och Val.

Där Delfin och Val verkligen utmärker sig är i fall där kontextuella ledtrådar krävs för att särskilja liknande ord.

Till exempel, i en hackig, snabbgående juridisk inspelning med mycket bakgrundsljud, felöversattes termen "Habeas Corpus" som "happy is porpoise" med Gepard. Baserat på sammanhanget i den omgivande konversationen (som innehöll andra juridiska termer) kunde dock både Delfin och Val korrekt fastställa att "Habeas Corpus" är den mest sannolika transkriptionen.

Här är ett annat exempel: i en ljudinspelning presenterar sig en kvinna som heter Kristina Hernandez och stavar sitt namn.

Gepard transkriberar felaktigt hennes namn som "Christina" (istället för "Kristina"):

(Talare 1) Jag heter Christina Hernandez. Det stavas K R I S T I N A H E R N A N D E Z. (Talare 2) Tack, Christina.

Delfin transkriberar felaktigt den första användningen av hennes namn, men korrigerar den andra användningen av termen (efter att hon stavar sitt namn):

(Talare 1) Jag heter Christina Hernandez. Det stavas K R I S T I N A H E R N A N D E Z. (Talare 2) Tack, Kristina.

Val får båda användningarna rätt:

(Talare 1) Jag heter Kristina Hernandez. Det stavas K R I S T I N A H E R N A N D E Z. (Talare 2) Tack, Kristina.

Förbättra noggrannheten med metadata

Det finns fall där inte ens en mänsklig översättare kan entydigt fastställa en korrekt transkription. Till exempel, om Kristina aldrig hade stavat sitt namn, skulle det ha varit omöjligt (baserat enbart på ljudet) att fastställa den korrekta stavningen av hennes namn.

För att förbättra noggrannheten ytterligare använder TurboScribe metadata som är kopplad till ljud- och videofiler du laddar upp (såsom filnamn, titel och beskrivning) för att automatiskt förbättra transkriptioner av termer som inte entydigt kan fastställas baserat enbart på ljudet.

Till exempel, om MP3-metadatans titel, artist eller kommentar hänvisar till "Kristina Hernandez", är alla 3 lägen mycket mer benägna att transkribera hennes namn korrekt.

Sammanfattning

Sammanfattningsvis erbjuder TurboScribe tre transkriberingslägen:

Gepard ger noggranna transkriptioner så snabbt som möjligt.
Delfin strävar efter den perfekta balansen mellan noggrannhet och hastighet.
Val maximerar noggrannheten men tar lite längre tid. Det är TurboScribes standardläge.

Det bästa sättet att verkligen förstå deras möjligheter är att prova dem själv. Börja gratis och transkribera upp till 4 ljud- eller videofiler gratis varje dag.

TurboScribe