Täna süveneme TurboScribe'i transkriptsiooni mootorisse, keskendudes selle kolmele transkriptsiooni režiimile – Gepard, Delfiin ja Vaal.
Mis on nende 3 režiimi erinevus? Siin on lühikokkuvõte:
Gepard on kiireim režiim. See transkribeerib 1 tunni heli või videot 30 sekundiga. See on häälestatud andma teile transkriptsiooni võimalikult kiiresti.
Delfiin tagab väga kõrge täpsuse, olles samas väga kiire. 1 tunni heli või video transkribeerimine võtab umbes 3 minutit.
Vaal on häälestatud maksimaalsele täpsusele. See transkribeerib 1 tunni heli või videot vähem kui 10 minutiga.
Faili üleslaadimisel saate valida nende 3 režiimi vahel ( Vaal on vaikimisi).
Millist siis valida? Soovitame alustada vaikimisi valikust (Vaal) maksimaalse täpsuse saavutamiseks ja lülituda Delfiinile või Gepardile, kui vajate transkriptsioone veelgi kiiremini.
Neile, kes soovivad paremat ettekujutust sellest, mis toimub "kapoti all", jätkake lugemist.
Whisper: rohkem kui pealtnäha
Vaatame lähemalt Whisperit, TurboScribe'i transkriptsiooni taga olevat tehisintellekti tehnoloogiat.
Whisper pole lihtsalt üks tehisintellekti mudel; tegelikult on see viie mudeli perekond, millest igaüks teeb erinevaid kompromisse täpsuse ja kiiruse vahel.
Alumises otsas alustab Whisper "väiksest" mudelist ("kõigest" 39 miljoni parameetriga) ja ulatub kuni "suureni" (1,55 miljardi parameetriga).
"väike" on kõige kiirem, kuid teeb kõige rohkem vigu. "baas" ja "väike" on paremad kui enamik inimesi. "suur" on kõige täpsem (võrreldav professionaalsete transkribeerijate ja tõlkijatega), kuid vajab palju mälu ja kallist riistvara.
Whisperi 5 mudelit
Whisperi perekond sisaldab 5 erinevat tehisintellekti mudelit:
- tiny — 39 miljonit parameetrit
- base — 74 miljonit parameetrit (toetab TurboScribe'i
Gepardi režiimi)
- small — 244 miljonit parameetrit (toetab TurboScribe'i
Delfiini režiimi)
- medium — 769 miljonit parameetrit
- large — 1,55 miljardit parameetrit (toetab TurboScribe'i
Vaala režiimi)
Kahjuks, kui teil pole just eriti võimsat arvutit või juurdepääsu võimsale GPU-le (graafikaprotsessor), on enamikel inimestel raske tõhusalt käivitada "baasist" suuremaid mudeleid.
GPU-d on audio kiire transkribeerimise saladus. Kahjuks on need ka üsna kallid. Selle artikli kirjutamise ajal maksab üks Nvidia A100 — kiip, mis "juhib tehisintellekti võidujooksu" — $6,715.00 Amazonis.
TurboScribe kasutab GPU-sid transkriptsiooni märkimisväärseks kiirendamiseks ja suurema töö kiiremaks tegemiseks.
Transkriptsiooni aegade võrdlus
Võrdleme kõiki TurboScribe'i režiime meie GPU-toega transkriptsiooni mootoril, transkribeerides 1-tunnise helifaili Teisest maailmasõjast.
Gepard
Gepard seab prioriteediks täpsete transkriptsioonide pakkumise maksimaalse kiirusega, kasutades 74 miljoni parameetriga "baas" mudelit. Siin on näha, kuidas meie 1-tunnise helifaili transkribeerimine välja näeb:
See võttis vaid 20 sekundit. Teisisõnu, see on kiire.
Delfiin
Delfiin, 244 miljoni parameetriga, võtab veidi üle kaks korda kauem aega (mis on siiski üsna kiire):
Vaal
Lõpuks võtab Vaal sama 1-tunnise helifaili transkribeerimiseks umbes 3 minutit (kasutades massiivset 1,55 miljardi parameetriga Whisper "large-v2" mudelit):
Pidage meeles, et transkriptsiooni ajad võivad veidi varieeruda.
Näiteks võtab suure 4GB videofaili (2 tunni heliga) transkribeerimine veidi kauem aega kui väiksem 100MB MP3 fail sama 2 tunni heliga – seda peamiselt seetõttu, et meil kulub rohkem aega teie meediafaili edastamiseks, analüüsimiseks, eeltöötlemiseks ja teisendamiseks enne, kui me tegelikult transkriptsiooniga alustame.
Helifaile, kus on vähe tuvastatavat inimkõnet (näiteks helisalvestis paljude vaikuse perioodidega), saab tavaliselt kiiremini transkribeerida. Lisaks on mitme faili transkribeerimine tavaliselt kiirem kui ühe faili transkribeerimine.
Täpsuse võrdlus
Paljude tavaliste heli- ja videofailide puhul pole Gepardi,
Delfiini ja
Vaala vahel mingit erinevust.
Delfiin ja
Vaal paistavad eriti silma juhtudel, kus kontekstuaalseid vihjeid on vaja sarnaselt kõlavate sõnade eristamiseks.
Näiteks hakitud, kiires õiguslikus salvestuses suure taustamüraga tõlgiti termin "Habeas Corpus" Gepardi puhul valesti kui "happy is porpoise". Kuid ümbritseva vestluse konteksti põhjal (mis sisaldas teisi õigustermineid), määrasid nii
Delfiin kui ka
Vaal õigesti, et "Habeas Corpus" on kõige tõenäolisem transkriptsioon.
Siin on veel üks näide: helisalvestises tutvustab end naine nimega Kristina Hernandez ja veerib oma nime.
Gepard transkribeerib tema nime valesti kui "Christina" (mitte "Kristina"):
(Kõneleja 1) Minu nimi on Christina Hernandez. See veeritakse K R I S T I N A H E R N A N D E Z. (Kõneleja 2) Aitäh, Christina.
Delfiin transkribeerib tema nime esimese kasutuse valesti, kuid parandab teise kasutuse (pärast seda, kui ta oma nime veerib):
(Kõneleja 1) Minu nimi on Christina Hernandez. See veeritakse K R I S T I N A H E R N A N D E Z. (Kõneleja 2) Aitäh, Kristina.
Vaal saab mõlemad kasutused õigesti:
(Kõneleja 1) Minu nimi on Kristina Hernandez. See veeritakse K R I S T I N A H E R N A N D E Z. (Kõneleja 2) Aitäh, Kristina.
Täpsuse parandamine metaandmetega
On juhtumeid, kus isegi inimtõlk ei saa üheselt õiget transkriptsiooni määrata. Näiteks kui Kristina poleks kunagi oma nime veerinud, oleks olnud võimatu (ainult heli põhjal) määrata tema nime õiget kirjapilti.
Täpsuse veelgi paremaks muutmiseks kasutab TurboScribe üleslaaditud heli- ja videofailidele lisatud metaandmeid (nagu failinimi, pealkiri ja kirjeldus), et automaatselt parandada terminite transkriptsioone, mida ei saa üheselt määrata ainult heli põhjal.
Näiteks, kui MP3 metaandmete pealkiri, esitaja või kommentaar viitab "Kristina Hernandezile", on kõigil 3 režiimil palju tõenäolisem tema nimi õigesti transkribeerida.
Kokkuvõte
Kokkuvõtteks pakub TurboScribe kolme transkriptsiooni režiimi:
Gepard pakub täpseid transkriptsioone võimalikult kiiresti.
Delfiin püüdleb täiusliku tasakaalu poole täpsuse ja kiiruse vahel.
Vaal maksimeerib täpsuse, kuid võtab veidi kauem aega. See on TurboScribe'i vaikimisi režiim.
Parim viis nende võimekustest tõeliselt aru saamiseks on neid ise proovida. Alusta tasuta ja transkribeeri iga päev kuni 4 heli- või videofaili tasuta.

