Transkriptionstilstande, forklaret

I dag dykker vi ned i TurboScribes transskriptionsmotor og fokuserer på dens tre transskriptionstilstande – Gepard, Delfin og Hval.

Hvad er forskellen på disse 3 tilstande? Her er TLDR:

Gepard er den hurtigste tilstand. Den transskriberer 1 times lyd eller video på 30 sekunder. Den er indstillet til at levere dig et transskript så hurtigt som muligt.
Delfin leverer meget høj nøjagtighed, samtidig med at den stadig er meget hurtig. Det tager cirka 3 minutter at transskribere 1 times lyd eller video.
Hval er indstillet til maksimal nøjagtighed. Den transskriberer 1 times lyd eller video på mindre end 10 minutter.

Når du uploader en fil, kan du vælge mellem en af disse 3 tilstande ( Hval er standardindstillingen).

Så hvilken skal du vælge? Vi anbefaler, at du starter med standardindstillingen (Hval) for maksimal nøjagtighed og skifter til Delfin eller Gepard, når du har brug for transskriptioner endnu hurtigere.

For dem af jer, der ønsker en bedre forståelse af, hvad der foregår bag kulisserne, er I velkomne til at læse videre.

Whisper: Mere end en lytteoplevelse

Lad os tage et nærmere kig på Whisper, AI-teknologien bag TurboScribes transskription.

Whisper er ikke bare en enkelt AI-model; det er faktisk en familie af fem modeller, hver med forskellige kompromiser mellem nøjagtighed og hastighed.

I den lave ende starter Whisper med "tiny"-modellen (med "kun" 39 millioner parametre) og går hele vejen op til "large" (med 1,55 milliarder parametre).

"tiny" er den hurtigste, men laver flest fejl. "base" og "small" er bedre end de fleste mennesker. "large" er den mest nøjagtige (sammenlignelig med professionelle transskribenter og oversættere), men kræver masser af hukommelse og dyrt hardware.

Whispers 5 modeller

Whisper-familien indeholder 5 forskellige AI-modeller:

tiny — 39 millioner parametre
base — 74 millioner parametre (driver TurboScribes Gepard-tilstand)
small — 244 millioner parametre (driver TurboScribes Delfin-tilstand)
medium — 769 millioner parametre
large — 1,55 milliarder parametre (driver TurboScribes Hval-tilstand)

Desværre vil de fleste mennesker, medmindre de har en særlig kraftfuld computer eller adgang til en kraftfuld GPU (grafikbehandlingsenhed), have svært ved effektivt at køre de fleste modeller, der er større end "base".

GPU'er er hemmeligheden bag hurtig transskribering af lyd. Desværre er de også ret dyre. På tidspunktet for denne skrivning koster en enkelt Nvidia A100 – chippen "der driver kapløbet om AI" – $6.715,00 på Amazon.

TurboScribe bruger GPU'er til at fremskynde transskribering betydeligt og få mere fra hånden hurtigere.

Sammenligning af transskriptionstider

Lad os sammenligne hver af TurboScribes tilstande på vores GPU-drevne transskriptionsmotor ved at transskribere en 1 times lydfil om Anden Verdenskrig.

Gepard

Gepard prioriterer at levere nøjagtige transkriptioner med maksimal hastighed, drevet af "base"-modellen med 74 millioner parametre. Sådan ser transskribering af vores 1 times lydfil ud:

Det tog kun 20 sekunder. Med andre ord er den hurtig.

Delfin

Delfin, med 244 millioner parametre, tager lidt over dobbelt så lang tid (hvilket stadig er ret hurtigt):

Hval

Endelig tager Hval cirka 3 minutter at transskribere den samme 1 times lydfil (med den massive 1,55 milliarder parameter Whisper "large-v2"-model):

Husk, at transskriptionstider kan variere lidt.

For eksempel vil transskribering af en stor videofil på 4 GB (med 2 timers lyd) tage lidt længere tid end en mindre MP3-fil på 100MB med de samme 2 timers lyd – dette skyldes hovedsageligt, at vi skal bruge mere tid på at overføre, analysere, forbehandle og konvertere din mediefil, før vi rent faktisk begynder transskriptionen.

Lydfiler med lidt påviselig menneskelig tale (tænk en lydoptagelse med mange stille perioder) kan normalt transskriberes hurtigere. Desuden er transskribering af flere filer normalt også hurtigere end transskribering af en enkelt fil.

Sammenligning af nøjagtighed

For mange almindelige lyd- og videofiler er der ingen forskel mellem Gepard, Delfin og Hval.

Hvor Delfin og Hval virkelig skinner, er i tilfælde, hvor kontekstmæssige spor er nødvendige for at adskille enslydende ord.

For eksempel, i en hakkende, tempofyldt juridisk optagelse med store mængder baggrundsstøj, blev udtrykket "Habeas Corpus" fejlagtigt oversat som "happy is porpoise" med Gepard. Men baseret på konteksten af den omkringliggende samtale (som indeholdt andre juridiske udtryk) bestemte både Delfin og Hval korrekt, at "Habeas Corpus" er den mest sandsynlige transskription.

Her er et andet eksempel: i en lydoptagelse introducerer en kvinde ved navn Kristina Hernandez sig selv og staver sit navn.

Gepard transskriberer hendes navn forkert som "Christina" (i stedet for "Kristina"):

(Taler 1) Mit navn er Christina Hernandez. Det staves K R I S T I N A H E R N A N D E Z. (Taler 2) Tak, Christina.

Delfin transskriberer forkert første gang, hendes navn bruges, men retter anden gang, udtrykket bruges (efter hun staver sit navn):

(Taler 1) Mit navn er Christina Hernandez. Det staves K R I S T I N A H E R N A N D E Z. (Taler 2) Tak, Kristina.

Hval får begge anvendelser korrekte:

(Taler 1) Mit navn er Kristina Hernandez. Det staves K R I S T I N A H E R N A N D E Z. (Taler 2) Tak, Kristina.

Forbedring af nøjagtigheden med metadata

Der er tilfælde, hvor selv en menneskelig oversætter ikke entydigt kan bestemme en korrekt transskription. For eksempel, hvis Kristina aldrig havde stavet sit navn, ville det have været umuligt (baseret på lyden alene) at bestemme den korrekte stavning af hendes navn.

For at forbedre nøjagtigheden endnu mere bruger TurboScribe metadata vedhæftet lyd- og videofiler, du uploader (såsom filnavn, titel og beskrivelse), til automatisk at forbedre transskriberinger af udtryk, der ikke kan bestemmes entydigt baseret på lyden alene.

For eksempel, hvis MP3-metadatatitlen, kunstneren eller kommentaren referencer "Kristina Hernandez", er alle 3 tilstande meget mere tilbøjelige til at transskribere hendes navn korrekt.

Afslutning

Sammenfattende tilbyder TurboScribe tre transskriptionstilstande:

Gepard leverer nøjagtige transskriptioner så hurtigt som muligt.
Delfin sigter efter den perfekte balance mellem nøjagtighed og hastighed.
Hval maksimerer nøjagtighed, men tager lidt længere tid. Det er TurboScribes standardtilstand.

Den bedste måde at forstå deres evner på er ved selv at prøve dem. Start gratis og transskriber op til 4 lyd- eller videofiler gratis hver dag.

TurboScribe