Modos de transcripción, explicados

Hoy, nos adentraremos en el motor de transcripción de TurboScribe, centrándonos en sus tres modos de transcripción: Guepardo, Delfín y Ballena.

¿Cuál es la diferencia entre estos 3 modos? Aquí está la versión resumida:

Guepardo es el modo más rápido. Transcribe 1 hora de audio o vídeo en 30 segundos. Está optimizado para entregarte una transcripción lo más rápido posible.
Delfín ofrece una muy alta precisión, siendo aún muy rápido. Tarda aproximadamente 3 minutos en transcribir 1 hora de audio o vídeo.
Ballena está optimizado al máximo para la precisión. Transcribe 1 hora de audio o vídeo en menos de 10 minutos.

Al subir un archivo, puedes elegir entre cualquiera de estos 3 modos ( Ballena es el predeterminado).

Entonces, ¿cuál deberías elegir? Recomendamos comenzar con el modo predeterminado (Ballena) para obtener la máxima precisión y cambiar a Delfín o Guepardo cuando necesites transcripciones aún más rápidas.

Para aquellos que desean una mejor idea de lo que sucede bajo el capó, continúen leyendo.

Whisper: Más de lo que los oídos perciben

Echemos un vistazo más de cerca a Whisper, la tecnología de IA detrás de la transcripción de TurboScribe.

Whisper no es solo un único modelo de IA; en realidad, es una familia de cinco modelos, cada uno con diferentes compensaciones entre precisión y velocidad.

En el extremo inferior, Whisper comienza con el modelo "tiny" (con "solo" 39 millones de parámetros) y llega hasta "large" (con 1.55 mil millones de parámetros).

"tiny" es el más rápido, pero comete más errores. "base" y "small" son mejores que la mayoría de los humanos. "large" es el más preciso (comparable a transcriptores profesionales y traductores), pero requiere mucha memoria y hardware costoso.

Los 5 modelos de Whisper

La familia Whisper contiene 5 modelos diferentes de IA:

tiny — 39 millones de parámetros
base — 74 millones de parámetros (impulsa el modo Guepardo de TurboScribe)
small — 244 millones de parámetros (impulsa el modo Delfín de TurboScribe)
medium — 769 millones de parámetros
large — 1.55 mil millones de parámetros (impulsa el modo Ballena de TurboScribe)

Desafortunadamente, a menos que tengas una computadora particularmente potente o acceso a una GPU (unidad de procesamiento gráfico) poderosa, la mayoría de las personas encontrarán difícil ejecutar eficientemente la mayoría de los modelos más grandes que "base".

Las GPUs son el secreto para transcribir audio rápido. Desafortunadamente, también son bastante costosas. Al momento de escribir esto, un solo Nvidia A100 — el chip "impulsando la carrera por la IA" — cuesta $6,715.00 en Amazon.

TurboScribe utiliza GPUs para acelerar significativamente la transcripción y hacer más trabajo, más rápido.

Comparando tiempos de transcripción

Compararemos cada uno de los modos de TurboScribe en nuestro motor de transcripción basado en GPU transcribiendo un archivo de audio de 1 hora sobre la Segunda Guerra Mundial.

Guepardo

Guepardo prioriza entregar transcripciones precisas a la máxima velocidad, impulsado por el modelo "base" de 74 millones de parámetros. Así es como se ve la transcripción de nuestro archivo de audio de 1 hora:

Eso tomó solo 20 segundos. En otras palabras, es rápido.

Delfín

Delfín, con 244 millones de parámetros, toma un poco más del doble de tiempo (lo cual sigue siendo bastante rápido):

Ballena

Finalmente, Ballena tarda unos 3 minutos en transcribir el mismo archivo de audio de 1 hora (con el masivo modelo Whisper "large-v2" de 1.55 mil millones de parámetros):

Recuerda que los tiempos de transcripción pueden variar ligeramente.

Por ejemplo, transcribir un archivo de video grande de 4GB (con 2 horas de audio) tomará un poco más de tiempo que un archivo MP3 pequeño de 100MB con las mismas 2 horas de audio, esto se debe principalmente a que tenemos que dedicar más tiempo a transferir, analizar, preprocesar y convertir tu archivo multimedia antes de comenzar realmente la transcripción.

Los archivos de audio con poco discurso humano detectable (piensa en una grabación de audio con muchos períodos de silencio) pueden transcribirse más rápidamente. Además, transcribir múltiples archivos generalmente también es más rápido que transcribir un solo archivo.

Comparando precisión

Para muchos archivos de audio y video comunes, no hay ninguna diferencia entre Guepardo, Delfín, y Ballena.

Donde Delfín y Ballena realmente brillan es en casos donde se requieren pistas contextuales para desambiguar palabras que suenan similares.

Por ejemplo, en una grabación legal entrecortada a ritmo acelerado con altos niveles de ruido de fondo, el término "Habeas Corpus" se transcribió erróneamente como "happy is porpoise" con Guepardo. Sin embargo, basado en el contexto de la conversación (que involucraba otros términos legales), tanto Delfín como Ballena determinaron correctamente que "Habeas Corpus" es la transcripción más probable.

Aquí hay otro ejemplo: en una grabación de audio, una mujer llamada Kristina Hernandez se presenta y deletrea su nombre.

Guepardo transcribe incorrectamente su nombre como "Christina" (en lugar de "Kristina"):

(Orador 1) My name is Christina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Orador 2) Thank you, Christina.

Delfín transcribe incorrectamente el primer uso de su nombre, pero corrige el segundo uso del término (después de que ella deletrea su nombre):

(Orador 1) My name is Christina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Orador 2) Thank you, Kristina.

Ballena obtiene ambos usos correctos:

(Orador 1) My name is Kristina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Orador 2) Thank you, Kristina.

Mejorando la precisión con metadatos

Hay casos donde ni siquiera un traductor humano puede determinar de manera inequívoca una transcripción correcta. Por ejemplo, si Kristina nunca hubiera deletreado su nombre, habría sido imposible (basado solo en el audio) determinar la ortografía correcta de su nombre.

Para mejorar aún más la precisión, TurboScribe utiliza metadatos adjuntos a los archivos de audio y video que subas (como el nombre del archivo, título y descripción) para mejorar automáticamente las transcripciones de términos que no pueden ser determinados inequívocamente solo basados en el audio.

Por ejemplo, si el título, artista o comentario de los metadatos del MP3 hacen referencia a "Kristina Hernandez", los 3 modos tienen muchas más probabilidades de transcribir su nombre correctamente.

Conclusión

En resumen, TurboScribe ofrece tres modos de transcripción:

Guepardo proporciona transcripciones precisas lo más rápido posible.
Delfín apunta a un equilibrio perfecto entre precisión y velocidad.
Ballena maximiza la precisión, pero toma un poco más de tiempo. Es el modo predeterminado de TurboScribe.

La mejor manera de comprender realmente sus capacidades es probándolos tú mismo. Empieza gratis y transcribe hasta 4 archivos de audio o video de forma gratuita todos los días.

TurboScribe