Transkripsjonsmoduser, forklart

I dag skal vi fordype oss i TurboScribes transkripsjonsmotor, med fokus på de tre transkriberingsmodusene – Gepard, Delfin og Hval.

Hva er forskjellen mellom disse 3 modusene? Her er kortversjonen:

Gepard er den raskeste modusen. Den transkriberer 1 time med lyd eller video på 30 sekunder. Den er innstilt for å levere transkripsjonen så raskt som mulig.
Delfin gir svært høy nøyaktighet, samtidig som den er veldig rask. Den bruker omtrent 3 minutter på å transkribere 1 time med lyd eller video.
Hval er innstilt for maksimal nøyaktighet. Den transkriberer 1 time med lyd eller video på mindre enn 10 minutter.

Når du laster opp en fil, kan du velge mellom hvilken som helst av disse 3 modusene ( Hval er standard).

Så hvilken bør du velge? Vi anbefaler å starte med standardvalget (Hval) for maksimal nøyaktighet og bytte til Delfin eller Gepard når du trenger transkripsjoner enda raskere.

For dere som ønsker en bedre forståelse av hva som skjer under panseret, kan dere gjerne lese videre.

Whisper: Mer enn det øyet ser

La oss ta en nærmere titt på Whisper, AI-teknologien bak TurboScribe sin transkripsjon.

Whisper er ikke bare én enkelt AI-modell; det er faktisk en familie av fem modeller, hver med ulike avveininger mellom nøyaktighet og hastighet.

I den nedre enden begynner Whisper med "tiny"-modellen (med "bare" 39 millioner parametere) og går helt opp til "large" (med 1,55 milliarder parametere).

"tiny" er den raskeste, men gjør flest feil. "base" og "small" er bedre enn de fleste mennesker. "large" er den mest nøyaktige (sammenlignbar med profesjonelle transkribenter og oversettere), men krever mye minne og dyrt maskinvare.

Whispers 5 modeller

Whisper-familien inneholder 5 forskjellige AI-modeller:

tiny — 39 millioner parametere
base — 74 millioner parametere (driver TurboScribes Gepard-modus)
small — 244 millioner parametere (driver TurboScribes Delfin-modus)
medium — 769 millioner parametere
large — 1,55 milliarder parametere (driver TurboScribes Hval-modus)

Dessverre vil de fleste slite med å kjøre modeller større enn "base" effektivt, med mindre de har en spesielt kraftig datamaskin eller tilgang til en kraftig GPU (grafikkprosessor).

GPUer er hemmeligheten bak rask transkribering av lyd. Dessverre er de også ganske dyre. Per i dag koster en enkelt Nvidia A100 — brikken som "driver kappløpet om AI" — $6.715,00 på Amazon.

TurboScribe bruker GPUer for å betydelig øke transkripsjonshastigheten og få gjort mer, raskere.

Sammenligning av transkriberingstider

La oss sammenligne hver av TurboScribes moduser på vår GPU-drevne transkripsjonsmotor ved å transkribere en 1 times lydfil om andre verdenskrig.

Gepard

Gepard prioriterer å levere nøyaktige transkripsjoner med maksimal hastighet, drevet av 74 millioner parameter "base"-modellen. Her er hvordan det ser ut når vi transkriberer vår 1 times lydfil:

Det tok bare 20 sekunder. Med andre ord, den er rask.

Delfin

Delfin, med 244 millioner parametere, tar litt over dobbelt så lang tid (som fortsatt er ganske raskt):

Hval

Til slutt tar Hval omtrent 3 minutter på å transkribere den samme 1 times lydfilen (med den massive 1,55 milliarder parameter Whisper "large-v2"-modellen):

Husk at transkriberingstider kan variere litt.

For eksempel vil transkribering av en stor 4GB videofil (med 2 timer lyd) ta litt mer tid enn en mindre 100MB MP3-fil med de samme 2 timene med lyd — dette er hovedsakelig fordi vi må bruke mer tid på å overføre, analysere, forbehandle og konvertere mediefilen din før vi faktisk begynner transkriberingen.

Lydfiler med lite merkbar menneskelig tale (tenk en lydopptak med mange stille perioder) kan vanligvis transkriberes raskere. Videre er transkribering av flere filer også vanligvis raskere enn å transkribere en enkelt fil.

Sammenligning av nøyaktighet

For mange vanlige lyd- og videofiler er det ingen forskjell mellom Gepard, Delfin og Hval.

Der Delfin og Hval virkelig utmerker seg er i tilfeller der kontekstuelle hint er nødvendige for å skille mellom lignende ord.

For eksempel, i et hakkete, raskt juridisk opptak med høy grad av bakgrunnsstøy, ble begrepet "Habeas Corpus" feilaktig oversatt som "happy is porpoise" med Gepard. Basert på konteksten i samtalen rundt (som involverte andre juridiske termer), klarte både Delfin og Hval å fastslå at "Habeas Corpus" er den mest sannsynlige transkripsjonen.

Her er et annet eksempel: i et lydopptak presenterer en kvinne ved navn Kristina Hernandez seg selv og staver navnet sitt.

Gepard transkriberer feilaktig navnet hennes som "Christina" (i stedet for "Kristina"):

(Taler 1) Jeg heter Christina Hernandez. Det staves K R I S T I N A H E R N A N D E Z. (Taler 2) Takk, Christina.

Delfin transkriberer feil første gang navnet brukes, men korrigerer den andre bruken av navnet (etter at hun staver det):

(Taler 1) Jeg heter Christina Hernandez. Det staves K R I S T I N A H E R N A N D E Z. (Taler 2) Takk, Kristina.

Hval får begge brukene riktig:

(Taler 1) Jeg heter Kristina Hernandez. Det staves K R I S T I N A H E R N A N D E Z. (Taler 2) Takk, Kristina.

Forbedring av nøyaktighet med metadata

Det finnes tilfeller der selv en menneskelig oversetter ikke kan entydig bestemme en korrekt transkripsjon. For eksempel, hvis Kristina aldri hadde stavet navnet sitt, ville det vært umulig (basert på lyden alene) å bestemme den korrekte stavemåten av navnet hennes.

For å forbedre nøyaktigheten ytterligere bruker TurboScribe metadata knyttet til lyd- og videofiler du laster opp (som filnavn, tittel og beskrivelse) for automatisk å forbedre transkripsjoner av begreper som ikke kan bestemmes entydig basert på lyden alene.

For eksempel, hvis MP3-metadataens tittel, artist eller kommentar refererer til "Kristina Hernandez", er det mye mer sannsynlig at alle 3 modusene transkriberer navnet hennes riktig.

Oppsummering

Oppsummert tilbyr TurboScribe tre transkripsjonsmoduser:

Gepard gir nøyaktige transkripsjoner så raskt som mulig.
Delfin sikter mot den perfekte balansen mellom nøyaktighet og hastighet.
Hval maksimerer nøyaktighet, men tar litt lengre tid. Det er TurboScribes standardmodus.

Den beste måten å virkelig forstå deres muligheter på er ved å prøve dem selv. Start gratis og transkriber opptil 4 lyd- eller videofiler gratis hver dag.

TurboScribe