Modalità di trascrizione, spiegate

Oggi, esploriamo il motore di trascrizione di TurboScribe, concentrandoci sulle sue tre modalità di trascrizione – Ghepardo, Delfino e Balena.

Qual è la differenza tra queste 3 modalità? Ecco una spiegazione rapida:

Ghepardo è la modalità più veloce. Trascrive 1 ora di audio o video in 30 secondi. È ottimizzata per fornirti una trascrizione il più velocemente possibile.
Delfino offre un'accuratezza molto elevata, pur rimanendo molto veloce. Impiega circa 3 minuti per trascrivere 1 ora di audio o video.
Balena è ottimizzata per la massima accuratezza. Trascrive 1 ora di audio o video in meno di 10 minuti.

Quando carichi un file, puoi scegliere tra una di queste 3 modalità ( Balena è la predefinita).

Allora, quale dovresti scegliere? Consigliamo di iniziare con la modalità predefinita (Balena) per la massima accuratezza e di passare a Delfino o Ghepardo quando hai bisogno di trascrizioni ancora più rapide.

Per coloro che vogliono avere un'idea migliore di ciò che avviene dietro le quinte, continuate a leggere.

Whisper: Più di quanto sembri

Diamo uno sguardo più da vicino a Whisper, la tecnologia AI alla base della trascrizione di TurboScribe.

Whisper non è solo un singolo modello AI; è in realtà una famiglia di cinque modelli, ciascuno con diversi compromessi tra accuratezza e velocità.

All'estremità inferiore, Whisper inizia con il modello "tiny" (con "solo" 39 milioni di parametri) e arriva fino al modello "large" (con 1,55 miliardi di parametri).

"tiny" è il più veloce, ma commette più errori. "base" e "small" sono migliori della maggior parte degli esseri umani. "large" è il più accurato (paragonabile ai trascrittori e traduttori professionisti), ma richiede molta memoria e hardware costoso.

I 5 modelli di Whisper

La famiglia Whisper contiene 5 diversi modelli AI:

tiny — 39 milioni di parametri
base — 74 milioni di parametri (che alimenta la modalità Ghepardo di TurboScribe)
small — 244 milioni di parametri (che alimenta la modalità Delfino di TurboScribe)
medium — 769 milioni di parametri
large — 1,55 miliardi di parametri (che alimenta la modalità Balena di TurboScribe)

Purtroppo, a meno che non si disponga di un computer particolarmente potente o si abbia accesso a una potente GPU (unità di elaborazione grafica), la maggior parte delle persone farà fatica a eseguire efficientemente i modelli più grandi di "base".

Le GPU sono il segreto per trascrivere l'audio rapidamente. Purtroppo, sono anche abbastanza costose. Al momento di questa scrittura, una singola Nvidia A100 — il chip "che alimenta la corsa all'AI" — costa $6,715.00 su Amazon.

TurboScribe utilizza GPU per accelerare significativamente la trascrizione e svolgere più lavoro, più velocemente.

Confronto dei tempi di trascrizione

Confrontiamo ciascuna delle modalità di TurboScribe sul nostro motore di trascrizione alimentato da GPU trascrivendo un file audio di 1 ora sulla Seconda Guerra Mondiale.

Ghepardo

Ghepardo dà priorità alla consegna di trascrizioni accurate alla massima velocità, alimentata dal modello "base" da 74 milioni di parametri. Ecco cosa accade trascrivendo il nostro file audio di 1 ora:

Ci sono voluti solo 20 secondi. In altre parole, è veloce.

Delfino

Delfino, con 244 milioni di parametri, impiega un po' più del doppio del tempo (che è ancora abbastanza veloce):

Balena

Infine, Balena impiega circa 3 minuti per trascrivere lo stesso file audio di 1 ora (con il massiccio modello Whisper "large-v2" da 1,55 miliardi di parametri):

Tieni presente che i tempi di trascrizione possono variare leggermente.

Ad esempio, la trascrizione di un grande file video da 4GB (con 2 ore di audio) richiederà un po' più di tempo rispetto a un file MP3 più piccolo da 100MB con le stesse 2 ore di audio — ciò è dovuto principalmente al fatto che dobbiamo spendere più tempo nel trasferimento, analisi, preprocessamento e conversione del tuo file multimediale prima di iniziare effettivamente la trascrizione.

I file audio con poco parlato umano rilevabile (pensiamo a una registrazione audio con molti periodi di silenzio) possono solitamente essere trascritti più rapidamente. Inoltre, la trascrizione di più file è solitamente più veloce rispetto alla trascrizione di un singolo file.

Confronto dell'accuratezza

Per molti file audio e video comuni, non c'è nessuna differenza tra Ghepardo, Delfino e Balena.

Dove Delfino e Balena brillano veramente è nei casi in cui indizi contestuali sono necessari per disambiguare parole che suonano simili.

Ad esempio, in una registrazione legale frammentata e molto veloce con alti livelli di rumore di fondo, il termine "Habeas Corpus" è stato mal trascritto come "happy is porpoise" con Ghepardo. Tuttavia, basandosi sul contesto della conversazione circostante (che coinvolgeva altri termini legali), sia Delfino che Balena hanno determinato correttamente che "Habeas Corpus" è la trascrizione più probabile.

Ecco un altro esempio: in una registrazione audio, una donna di nome Kristina Hernandez si presenta e scrive il proprio nome.

Ghepardo trascrive erroneamente il suo nome come "Christina" (anziché "Kristina"):

(Oratore 1) Mi chiamo Christina Hernandez. È scritto K R I S T I N A H E R N A N D E Z. (Oratore 2) Grazie, Christina.

Delfino trascrive erroneamente il primo uso del suo nome, ma corregge il secondo utilizzo del termine (dopo che lei ha scritto il suo nome):

(Oratore 1) Mi chiamo Christina Hernandez. È scritto K R I S T I N A H E R N A N D E Z. (Oratore 2) Grazie, Kristina.

Balena trascrive correttamente entrambi gli usi:

(Oratore 1) Mi chiamo Kristina Hernandez. È scritto K R I S T I N A H E R N A N D E Z. (Oratore 2) Grazie, Kristina.

Migliorare l'accuratezza con i metadati

Ci sono casi in cui anche un traduttore umano non può determinare inequivocabilmente una trascrizione corretta. Ad esempio, se Kristina non avesse mai scritto il suo nome, sarebbe stato impossibile (basandosi solo sull'audio) determinare la corretta ortografia del suo nome.

Per migliorare ulteriormente l'accuratezza, TurboScribe utilizza metadati associati ai file audio e video che carichi (come il nome del file, il titolo e la descrizione) per migliorare automaticamente le trascrizioni di termini che non possono essere determinati inequivocabilmente basandosi solo sull'audio.

Ad esempio, se il titolo, l'artista o il commento dei metadati MP3 fa riferimento a "Kristina Hernandez", tutte e 3 le modalità hanno maggiori probabilità di trascrivere correttamente il suo nome.

Concludendo

In sintesi, TurboScribe offre tre modalità di trascrizione:

Ghepardo fornisce trascrizioni accurate il più rapidamente possibile.
Delfino mira al perfetto equilibrio tra accuratezza e velocità.
Balena massimizza l'accuratezza, ma richiede un po' più di tempo. È la modalità predefinita di TurboScribe.

Il modo migliore per comprendere davvero le loro capacità è provarli personalmente. Inizia gratuitamente e trascrivi fino a 4 file audio o video gratuitamente ogni giorno.

TurboScribe