AnmeldenRegistrieren
TurboScribe modes banner

Transkriptionsmodi, erklärt

23. August 2023
Leif Foged
Leif Foged

Heute tauchen wir in TurboScribes Transkriptionsmaschine ein und konzentrieren uns auf die drei Transkriptionsmodi – Gepard, Delfin und Wal.

Was ist der Unterschied zwischen diesen 3 Modi? Hier ist die Kurzfassung:

  • 🐆 Gepard ist der schnellste Modus. Er transkribiert 1 Stunde Audio- oder Videomaterial in 30 Sekunden. Er ist darauf abgestimmt, Ihnen eine Transkription so schnell wie möglich zu liefern.
  • 🐬 Delfin liefert eine sehr hohe Genauigkeit und ist dabei immer noch sehr schnell. Er benötigt etwa 3 Minuten, um 1 Stunde Audio- oder Videomaterial zu transkribieren.
  • 🐳 Wal ist auf maximale Genauigkeit abgestimmt. Er transkribiert 1 Stunde Audio- oder Videomaterial in weniger als 10 Minuten.

Beim Hochladen einer Datei können Sie zwischen diesen 3 Modi wählen (🐳 Wal ist der Standard).

Welchen sollten Sie wählen? Wir empfehlen, mit dem Standard (Wal) zu beginnen, um maximale Genauigkeit zu erzielen, und auf Delfin oder Gepard umzuschalten, wenn Sie Transkriptionen noch schneller benötigen.

Für diejenigen unter Ihnen, die einen besseren Einblick in das Geschehen hinter den Kulissen wünschen, lesen Sie gerne weiter.

Whisper: Mehr als nur das Ohr

Audio waves

Werfen wir einen genaueren Blick auf Whisper, die KI-Technologie hinter TurboScribes Transkription.

Whisper ist nicht nur ein einzelnes KI-Modell; es ist tatsächlich eine Familie von fünf Modellen, die jeweils unterschiedlich zwischen Genauigkeit und Geschwindigkeit abwägen.

Am unteren Ende beginnt Whisper mit dem "tiny"-Modell (mit "nur" 39 Millionen Parametern) und reicht bis hin zu "large" (mit 1,55 Milliarden Parametern).

"tiny" ist das schnellste, macht aber die meisten Fehler. "base" und "small" sind besser als die meisten Menschen. "large" ist das genaueste (vergleichbar mit professionellen Transkriptoren und Übersetzern), erfordert jedoch viel Speicher und teure Hardware.

Die 5 Modelle von Whisper

Die Whisper-Familie enthält 5 verschiedene KI-Modelle:

  • tiny — 39 Millionen Parameter
  • base — 74 Millionen Parameter (treibt den TurboScribe-🐆 Gepard-Modus an)
  • small — 244 Millionen Parameter (treibt den TurboScribe-🐬 Delfin-Modus an)
  • medium — 769 Millionen Parameter
  • large — 1,55 Milliarden Parameter (treibt den TurboScribe-🐳 Wal-Modus an)

Leider werden die meisten Menschen, sofern sie keinen besonders leistungsstarken Computer oder Zugang zu einer leistungsstarken GPU (Graphics Processing Unit) haben, Schwierigkeiten haben, Modelle größer als "base" effizient auszuführen.

GPUs sind das Geheimnis schneller Audio-Transkription. Leider sind sie auch recht teuer. Zum Zeitpunkt dieses Schreibens kostet ein einzelner Nvidia A100 — der Chip, der „das Rennen um die KI antreibt“$6,715.00 auf Amazon.

TurboScribe verwendet GPUs, um die Transkription erheblich zu beschleunigen und mehr zu erledigen, schneller.

Vergleich der Transkriptionszeiten

Vergleichen wir die einzelnen Modi von TurboScribe auf unserer GPU-gestützten Transkriptionsmaschine, indem wir eine 1-stündige Audiodatei über den Zweiten Weltkrieg transkribieren.

🐆 Gepard

Gepard priorisiert die Lieferung genauer Transkriptionen mit maximaler Geschwindigkeit, angetrieben durch das 74-Millionen-Parameter-"base"-Modell. So sieht die Transkription unserer 1-stündigen Audiodatei aus:

Das dauerte nur 20 Sekunden. Mit anderen Worten, es ist schnell.

🐬 Delfin

Delfin, mit 244 Millionen Parametern, dauert etwas mehr als doppelt so lange (was immer noch ziemlich schnell ist):

🐳 Wal

Schließlich benötigt Wal etwa 3 Minuten, um dieselbe 1-stündige Audiodatei zu transkribieren (mit dem massiven 1,55 Milliarden Parameter Whisper "large-v2"-Modell):

Bitte beachten Sie, dass die Transkriptionszeiten leicht variieren können.

Zum Beispiel dauert die Transkription einer großen 4-GB-Videodatei (mit 2 Stunden Audio) etwas länger als die einer kleineren 100-MB-MP3-Datei mit denselben 2 Stunden Audio – dies liegt hauptsächlich daran, dass wir mehr Zeit für das Übertragen, Analysieren, Vorverarbeiten und Konvertieren Ihrer Mediendatei aufwenden müssen, bevor wir mit der eigentlichen Transkription beginnen.

Audiodateien mit wenig erkennbarem menschlichem Sprachanteil (denken Sie an eine Audioaufnahme mit vielen stillen Abschnitten) können in der Regel schneller transkribiert werden. Außerdem ist die Transkription mehrerer Dateien in der Regel schneller als die Transkription einer einzelnen Datei.

Vergleich der Genauigkeit

Für viele gängige Audio- und Videodateien gibt es keinen Unterschied zwischen 🐆 Gepard, 🐬 Delfin und 🐳 Wal.

Wo 🐬 Delfin und 🐳 Wal wirklich glänzen, ist in Fällen, in denen Kontextinformationen erforderlich sind, um ähnlich klingende Wörter zu unterscheiden.

Zum Beispiel wurde in einer abgehackten, schnellen juristischen Aufnahme mit hohem Hintergrundgeräuschpegel der Begriff „Habeas Corpus“ mit 🐆 Gepard fälschlicherweise als „happy is porpoise“ übersetzt. Basierend auf dem Kontext des umliegenden Gesprächs (das andere juristische Begriffe beinhaltete) stellten jedoch sowohl 🐬 Delfin als auch 🐳 Wal richtig fest, dass "Habeas Corpus" die wahrscheinlichste Transkription ist.

Hier ein weiteres Beispiel: in einer Audioaufnahme stellt sich eine Frau namens Kristina Hernandez vor und buchstabiert ihren Namen.

🐆 Gepard transkribiert ihren Namen fälschlicherweise als „Christina“ (statt „Kristina“):

(Sprecher 1) My name is Christina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Sprecher 2) Thank you, Christina.

🐬 Delfin transkribiert die erste Verwendung ihres Namens falsch, korrigiert jedoch die zweite Verwendung des Begriffs (nachdem sie ihren Namen buchstabiert hat):

(Sprecher 1) My name is Christina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Sprecher 2) Thank you, Kristina.

🐳 Wal transkribiert beide Verwendungen korrekt:

(Sprecher 1) My name is Kristina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Sprecher 2) Thank you, Kristina.

Verbesserung der Genauigkeit mit Metadaten

Es gibt Fälle, in denen selbst ein menschlicher Übersetzer keine eindeutige Transkription bestimmen kann. Zum Beispiel wäre es unmöglich gewesen (basierend auf dem Audio allein) die korrekte Schreibweise ihres Namens zu bestimmen, wenn Kristina ihren Namen nie buchstabiert hätte.

Um die Genauigkeit noch weiter zu erhöhen, verwendet TurboScribe Metadaten, die an hochgeladene Audio- und Videodateien angehängt sind (wie Dateiname, Titel und Beschreibung), um Transkriptionen von Begriffen, die basierend auf dem Audio allein nicht eindeutig bestimmt werden können, automatisch zu verbessern.

Wenn beispielsweise der Titel, der Künstler oder der Kommentar der MP3-Metadaten auf "Kristina Hernandez" verweist, ist es bei allen 3 Modi viel wahrscheinlicher, dass ihr Name korrekt transkribiert wird.

Fazit

Zusammenfassend bietet TurboScribe drei Transkriptionsmodi:

  • 🐆 Gepard liefert genaue Transkriptionen so schnell wie möglich.
  • 🐬 Delfin zielt darauf ab, das perfekte Gleichgewicht zwischen Genauigkeit und Geschwindigkeit zu finden.
  • 🐳 Wal maximiert die Genauigkeit, benötigt jedoch etwas länger. Es ist der Standardmodus von TurboScribe.

Der beste Weg, ihre Fähigkeiten wirklich zu erfassen, besteht darin, sie selbst auszuprobieren. Starten Sie kostenlos und transkribieren Sie bis zu 4 Audio- oder Videodateien kostenlos jeden Tag.

Über TurboScribe

TurboScribe wandelt Audio und Video in Sekundenschnelle in präzisen Text um, angetrieben durch KI.

Mehr über TurboScribe erfahren

Bereit zum Transkribieren?

Erhalten Sie vollen Zugriff auf...

Unbegrenzte Transkriptionen
Unbegrenzte Transkriptionen für eine Person.
🎯
99,8 % Genauigkeit
Angetrieben von Whisper, der genauesten und mächtigsten KI-Spracherkennungs- und Transkriptionstechnologie der Welt.
🌍
98+ Sprachen
TurboScribe unterstützt die gesprochenen Sprachen der Welt.
🚀
10-Stunden-Uploads
Jede Datei kann bis zu 10 Stunden lang und 5 GB groß sein. Laden Sie 50 Dateien auf einmal hoch.
👥
Sprechererkennung
Ideal für Meetings, Interviews und Podcasts.