Transkriptiotilat selitetty

Tänään syvennymme TurboScriben transkriptiomoottoriin ja keskitymme sen kolmeen transkriptiotilaan – Gepardiin, Delfiiniin ja Valaaseen.

Mikä on näiden 3 tilan ero? Tässä lyhyesti:

Gepardi on nopein tila. Se transkriboi 1 tunnin ääntä tai videota 30 sekunnissa. Se on viritetty toimittamaan transkriptio mahdollisimman nopeasti.
Delfiini tuottaa erittäin tarkkaa jälkeä ja on silti hyvin nopea. Se käyttää noin 3 minuuttia yhden tunnin äänen tai videon transkribointiin.
Valas on viritetty maksimitarkkuuteen. Se transkriboi 1 tunnin ääntä tai videota alle 10 minuutissa.

Kun lataat tiedoston, voit valita minkä tahansa näistä 3 tilasta ( Valas on oletusasetus).

Mikä siis kannattaa valita? Suosittelemme aloittamaan oletusasetuksella (Valas) parhaan tarkkuuden saavuttamiseksi ja siirtymään Delfiiniin tai Gepardiin, kun tarvitset transkriptiot vielä nopeammin.

Jos haluat tietää tarkemmin, mitä konepellin alla tapahtuu, jatka lukemista.

Whisper: Enemmän kuin miltä kuulostaa

Katsotaanpa tarkemmin Whisperia, TurboScriben transkription taustalla olevaa tekoälyteknologiaa.

Whisper ei ole vain yksi tekoälymalli; se on itse asiassa viiden mallin perhe, joista jokainen tasapainoilee tarkkuuden ja nopeuden välillä.

Alimmalla tasolla Whisper alkaa "tiny"-mallista ("vain" 39 miljoonaa parametria) ja ulottuu aina "large"-malliin (jossa on 1,55 miljardia parametria).

"tiny" on nopein, mutta tekee eniten virheitä. "base" ja "small" ovat parempia kuin useimmat ihmiset. "large" on tarkin (verrattavissa ammattimaisiin transkriboijiin ja kääntäjiin), mutta vaatii paljon muistia ja kallista laitteistoa.

Whisperin 5 mallia

Whisper-perheeseen kuuluu 5 eri tekoälymallia:

tiny — 39 miljoonaa parametria
base — 74 miljoonaa parametria (voimanlähde TurboScriben Gepardi-tilassa)
small — 244 miljoonaa parametria (voimanlähde TurboScriben Delfiini-tilassa)
medium — 769 miljoonaa parametria
large — 1,55 miljardia parametria (voimanlähde TurboScriben Valas-tilassa)

Valitettavasti, ellei sinulla ole erityisen tehokasta tietokonetta tai pääsyä tehokkaaseen näytönohjaimeen (GPU), useimmilla on vaikeuksia ajaa tehokkaasti "basea" suurempia malleja.

GPU:t ovat äänen nopean transkription salaisuus. Valitettavasti ne ovat myös melko kalliita. Tätä kirjoitettaessa yksittäinen Nvidia A100 — siru, joka "vauhdittaa tekoälykilpailua" — maksaa $6,715.00 Amazonissa.

TurboScribe käyttää GPU:ita nopeuttaakseen transkriptiota merkittävästi ja saadakseen enemmän aikaan nopeammin.

Transkriptioaikojen vertailu

Vertaillaan jokaista TurboScriben tilaa GPU-pohjaisessa transkriptiomoottorissa transkriboimalla 1 tunnin äänitiedosto toisesta maailmansodasta.

Gepardi

Gepardi priorisoi tarkkojen transkriptioiden toimittamista maksiminopeudella, ja sitä pyörittää 74 miljoonan parametrin "base"-malli. Tältä näyttää 1 tunnin äänitiedostomme transkriptio:

Siihen meni vain 20 sekuntia. Toisin sanoen se on nopea.

Delfiini

Delfiiniltä, 244 miljoonalla parametrilla, menee hieman yli kaksi kertaa kauemmin (mikä on silti melko nopeaa):

Valas

Lopuksi, Valaalta menee noin 3 minuuttia saman 1 tunnin äänitiedoston transkribointiin (massiivisella 1,55 miljardin parametrin Whisper "large-v2"-mallilla):

Huomioi, että transkriptioajat voivat vaihdella hieman.

Esimerkiksi suuren, 4 Gt:n videotiedoston (jossa on 2 tuntia ääntä) transkribointiin menee hieman enemmän aikaa kuin pienemmän 100 Mt:n MP3-tiedoston, jossa on sama 2 tuntia ääntä – tämä johtuu lähinnä siitä, että meidän täytyy käyttää enemmän aikaa mediatiedoston siirtämiseen, analysointiin, esikäsittelyyn ja muuntamiseen ennen varsinaisen transkription aloittamista.

Äänitiedostot, joissa on vähän havaittavaa ihmispuhetta (ajattele äänitettä, jossa on paljon hiljaisia jaksoja), voidaan yleensä transkroiboida nopeammin. Lisäksi useiden tiedostojen transkriboiminen on yleensä nopeampaa kuin yksittäisen tiedoston.

Tarkkuuden vertailu

Monissa yleisissä ääni- ja videotiedostoissa Gepardin, Delfiinin ja Valaan välillä ei ole eroa.

Delfiini ja Valas loistavat erityisesti tapauksissa, joissa kontekstivihjeitä tarvitaan samalta kuulostavien sanojen erottamiseen.

Esimerkiksi katkonaisessa, nopeatahtisessa juridisessa nauhoituksessa, jossa on paljon taustamelua, termi "Habeas Corpus" käännettiin virheellisesti muotoon "happy is porpoise" Gepardilla. Kuitenkin ympäröivän keskustelun kontekstin perusteella (joka sisälsi muita juridisia termejä), sekä Delfiini että Valas päättelivät oikein, että "Habeas Corpus" on todennäköisin transkriptio.

Tässä toinen esimerkki: äänitteessä Kristina Hernandez -niminen nainen esittelee itsensä ja tavaa nimensä.

Gepardi transkriboi hänen nimensä virheellisesti muodossa "Christina" (eikä "Kristina"):

(Puhuja 1) Nimeni on Christina Hernandez. Se kirjoitetaan K R I S T I N A H E R N A N D E Z. (Puhuja 2) Kiitos, Christina.

Delfiini transkriboi ensimmäisen nimen käytön väärin, mutta korjaa toisen käytön (sen jälkeen kun hän on tavannut nimensä):

(Puhuja 1) Nimeni on Christina Hernandez. Se kirjoitetaan K R I S T I N A H E R N A N D E Z. (Puhuja 2) Kiitos, Kristina.

Valas saa molemmat käytöt oikein:

(Puhuja 1) Nimeni on Kristina Hernandez. Se kirjoitetaan K R I S T I N A H E R N A N D E Z. (Puhuja 2) Kiitos, Kristina.

Tarkkuuden parantaminen metatiedoilla

On tapauksia, joissa edes ihmiskääntäjä ei voi yksiselitteisesti määrittää oikeaa transkriptiota. Esimerkiksi jos Kristina ei olisi koskaan tavannut nimeään, olisi ollut mahdotonta (pelkän äänen perusteella) määrittää hänen nimensä oikea kirjoitusasu.

Parantaakseen tarkkuutta entisestään TurboScribe käyttää ladattuihin ääni- ja videotiedostoihin liitettyjä metatietoja (kuten tiedostonimeä, otsikkoa ja kuvausta) parantaakseen automaattisesti sellaisten termien transkriptiota, joita ei voida yksiselitteisesti määrittää pelkän äänen perusteella.

Esimerkiksi jos MP3:n metatietojen otsikko, artisti tai kommentti viittaa "Kristina Hernandeziin", kaikki 3 tilaa todennäköisemmin transkroiboivat hänen nimensä oikein.

Yhteenveto

Yhteenvetona TurboScribe tarjoaa kolme transkriptiotilaa:

Gepardi tuottaa tarkkoja transkriptioita mahdollisimman nopeasti.
Delfiini tähtää täydelliseen tasapainoon tarkkuuden ja nopeuden välillä.
Valas maksimoi tarkkuuden, mutta vie hieman kauemmin. Se on TurboScriben oletustila.

Paras tapa todella ymmärtää niiden kyvyt on kokeilla niitä itse. Aloita ilmaiseksi ja transkriboi jopa 4 ääni- tai videotiedostoa ilmaiseksi joka päivä.

TurboScribe