Modes de transcription, expliqués

Aujourd'hui, nous examinons en profondeur le moteur de transcription de TurboScribe, en nous concentrant sur ses trois modes de transcription : Guépard, Dauphin et Baleine.

Quelle est la différence entre ces 3 modes ? Voici le TLDR :

Guépard est le mode le plus rapide. Il transcrit 1 heure d'audio ou de vidéo en 30 secondes. Il est réglé pour vous fournir une transcription aussi vite que possible.
Dauphin offre une très haute précision tout en restant très rapide. Il faut environ 3 minutes pour transcrire 1 heure d'audio ou de vidéo.
Baleine est réglé pour une précision maximale. Il transcrit 1 heure d'audio ou de vidéo en moins de 10 minutes.

Lors du téléversement d'un fichier, vous pouvez choisir entre l'un de ces 3 modes ( Baleine est le mode par défaut).

Alors, lequel choisir ? Nous recommandons de commencer avec le mode par défaut (Baleine) pour une précision maximale et de passer à Dauphin ou Guépard lorsque vous avez besoin de transcriptions encore plus rapidement.

Pour ceux d'entre vous qui veulent mieux comprendre ce qui se passe en coulisses, n'hésitez pas à continuer à lire.

Whisper : Plus qu'aux oreilles

Jetons un coup d'œil à Whisper, la technologie d'IA derrière les transcriptions de TurboScribe.

Whisper n'est pas qu'un seul modèle d'IA ; c'est en fait une famille de cinq modèles, chacun avec des compromis différents entre précision et vitesse.

À l'extrémité inférieure, Whisper commence avec le modèle "tiny" (seulement 39 millions de paramètres) et va jusqu'à "large" (à 1,55 milliard de paramètres).

"Tiny" est le plus rapide, mais commet le plus d'erreurs. "Base" et "small" sont meilleurs que la plupart des humains. "Large" est le plus précis (comparable aux transcripteurs et traducteurs professionnels), mais nécessite beaucoup de mémoire et un matériel coûteux.

Les 5 modèles de Whisper

La famille Whisper contient 5 modèles d'IA différents :

Tiny — 39 millions de paramètres
Base — 74 millions de paramètres (alimente le mode Guépard de TurboScribe)
Small — 244 millions de paramètres (alimente le mode Dauphin de TurboScribe)
Medium — 769 millions de paramètres
Large — 1,55 milliard de paramètres (alimente le mode Baleine de TurboScribe)

Malheureusement, à moins de disposer d'un ordinateur particulièrement puissant ou d'avoir accès à un GPU (unité de traitement graphique) robuste, la plupart des gens auront du mal à faire fonctionner efficacement les modèles plus grands que "base".

Les GPU sont le secret pour transcrire l'audio rapidement. Malheureusement, ils sont également très coûteux. Au moment de la rédaction de cet article, une seule Nvidia A100 — la puce "alimentant la course à l'IA" — coûte $6,715.00 sur Amazon.

TurboScribe utilise des GPU pour accélérer considérablement la transcription et en faire plus, plus rapidement.

Comparaison des temps de transcription

Comparons chacun des modes de TurboScribe sur notre moteur de transcription alimenté par GPU en transcrivant un fichier audio d'une heure portant sur la Seconde Guerre mondiale.

Guépard

Guépard privilégie la livraison de transcriptions précises à une vitesse maximale, alimenté par le modèle "base" de 74 millions de paramètres. Voici à quoi ressemble la transcription de notre fichier audio d'une heure :

Cela a pris seulement 20 secondes. En d'autres termes, c'est rapide.

Dauphin

Dauphin, avec 244 millions de paramètres, prend un peu plus du double de temps (ce qui est encore très rapide) :

Baleine

Enfin, Baleine prend environ 3 minutes pour transcrire le même fichier audio d'une heure (avec le modèle Whisper "large-v2" de 1,55 milliard de paramètres) :

Gardez à l'esprit que les temps de transcription peuvent varier légèrement.

Par exemple, la transcription d'un gros fichier vidéo de 4 Go (avec 2 heures d'audio) prendra un peu plus de temps qu'un petit fichier MP3 de 100 Mo avec les mêmes 2 heures d'audio — c'est principalement parce que nous devons passer plus de temps à transférer, analyser, prétraiter et convertir votre fichier multimédia avant de commencer réellement la transcription.

Les fichiers audio avec peu de discours humain détectable (pensez à un enregistrement audio avec de longues périodes de silence) peuvent généralement être transcrits plus rapidement. De plus, la transcription de plusieurs fichiers est également généralement plus rapide que la transcription d'un seul fichier.

Comparaison de la précision

Pour de nombreux fichiers audio et vidéo courants, il n'y a aucune différence entre Guépard, Dauphin et Baleine.

Là où Dauphin et Baleine brillent vraiment, c'est dans les cas où des indices contextuels sont nécessaires pour lever l'ambiguïté entre des mots qui se ressemblent phoniquement.

Par exemple, dans un enregistrement juridique haché et rapide avec un niveau élevé de bruit de fond, le terme "Habeas Corpus" a été mal traduit par "happy is porpoise" avec Guépard. Cependant, en se basant sur le contexte de la conversation environnante (qui impliquait d'autres termes juridiques), Dauphin et Baleine ont tous deux déterminé correctement que "Habeas Corpus" est la transcription la plus probable.

Voici un autre exemple : dans un enregistrement audio, une femme nommée Kristina Hernandez se présente et épelle son nom.

Guépard transcrit incorrectement son nom en "Christina" (plutôt que "Kristina") :

(Intervenant 1) My name is Christina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Intervenant 2) Thank you, Christina.

Dauphin transcrit incorrectement la première utilisation de son nom, mais corrige la deuxième utilisation du terme (après qu’elle a épelé son nom) :

(Intervenant 1) My name is Christina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Intervenant 2) Thank you, Kristina.

Baleine obtient les deux utilisations correctes :

(Intervenant 1) My name is Kristina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Intervenant 2) Thank you, Kristina.

Améliorer la précision avec des métadonnées

Il existe des cas où même un traducteur humain ne peut pas déterminer sans ambiguïté une transcription correcte. Par exemple, si Kristina n'avait jamais épelé son nom, il serait impossible (sur la seule base de l'audio) de déterminer l'orthographe correcte de son nom.

Pour améliorer encore davantage la précision, TurboScribe utilise les métadonnées attachées aux fichiers audio et vidéo que vous téléversez (comme le nom du fichier, le titre et la description) pour améliorer automatiquement les transcriptions des termes qui ne peuvent pas être déterminés sans ambiguïté sur la seule base de l'audio.

Par exemple, si le titre, l'artiste ou le commentaire des métadonnées MP3 fait référence à "Kristina Hernandez", les 3 modes sont beaucoup plus susceptibles de transcrire son nom correctement.

En résumé

En résumé, TurboScribe propose trois modes de transcription :

Guépard fournit des transcriptions précises aussi rapidement que possible.
Dauphin vise l'équilibre parfait entre précision et vitesse.
Baleine maximise la précision, mais prend un peu plus de temps. C'est le mode par défaut de TurboScribe.

La meilleure façon de comprendre leurs capacités est de les essayer par vous-même. Commencez gratuitement et transcrivez jusqu'à 4 fichiers audio ou vidéo gratuitement chaque jour.

TurboScribe