Transkriptionsmodi, erklärt

Heute tauchen wir ein in TurboScribes Transkriptions-Engine und konzentrieren uns auf ihre drei Transkriptionsmodi – Gepard, Delfin und Wal.

Was ist der Unterschied zwischen diesen drei Modi? Hier ist die Zusammenfassung:

Gepard ist der schnellste Modus. Er transkribiert 1 Stunde Audio- oder Videomaterial in 30 Sekunden. Er ist darauf abgestimmt, Ihnen so schnell wie möglich ein Transkript zu liefern.
Delfin bietet eine sehr hohe Genauigkeit, ist aber trotzdem sehr schnell. Er benötigt etwa 3 Minuten, um 1 Stunde Audio- oder Videomaterial zu transkribieren.
Wal ist auf maximale Genauigkeit abgestimmt. Er transkribiert 1 Stunde Audio- oder Videomaterial in weniger als 10 Minuten.

Beim Hochladen einer Datei können Sie zwischen diesen drei Modi wählen ( Wal ist der Standard).

Welchen sollten Sie wählen? Wir empfehlen, mit dem Standardmodus (Wal) für maximale Genauigkeit zu beginnen und auf Delfin oder Gepard umzusteigen, wenn Sie die Transkripte noch schneller benötigen.

Für diejenigen, die einen besseren Einblick in das Geschehen unter der Haube haben möchten, lesen Sie einfach weiter.

Whisper: Mehr als das Auge sieht

Werfen wir einen genaueren Blick auf Whisper, die KI-Technologie hinter TurboScribes Transkription.

Whisper ist nicht nur ein einziges KI-Modell; es ist tatsächlich eine Familie von fünf Modellen, die jeweils verschiedene Kompromisse zwischen Genauigkeit und Geschwindigkeit bieten.

Am unteren Ende beginnt Whisper mit dem "tiny"-Modell (mit "nur" 39 Millionen Parametern) und reicht bis hin zum "large"-Modell (mit 1,55 Milliarden Parametern).

"tiny" ist das schnellste, macht aber die meisten Fehler. "base" und "small" sind besser als die meisten Menschen. "large" ist das genaueste (vergleichbar mit professionellen Transkribierern und Übersetzern), benötigt aber viel Speicher und teure Hardware.

Whispers 5 Modelle

Die Whisper-Familie enthält 5 verschiedene KI-Modelle:

tiny — 39 Millionen Parameter
base — 74 Millionen Parameter (treibt TurboScribes Gepard-Modus an)
small — 244 Millionen Parameter (treibt TurboScribes Delfin-Modus an)
medium — 769 Millionen Parameter
large — 1,55 Milliarden Parameter (treibt TurboScribes Wal-Modus an)

Leider werden die meisten Menschen Schwierigkeiten haben, Modelle größer als "base" effizient zu betreiben, es sei denn, sie haben einen besonders leistungsstarken Computer oder Zugang zu einer leistungsstarken GPU (Grafikprozessor).

GPUs sind das Geheimnis, um Audio schnell zu transkribieren. Leider sind sie auch ziemlich teuer. Zum Zeitpunkt dieses Schreibens kostet ein einzelner Nvidia A100 — der Chip, der den "Wettlauf um die KI antreibt" — $6,715.00 auf Amazon.

TurboScribe nutzt GPUs, um die Transkription erheblich zu beschleunigen und mehr schneller zu erledigen.

Vergleich der Transkriptionszeiten

Vergleichen wir jeden der Modi von TurboScribe auf unserer von GPUs betriebenen Transkriptions-Engine, indem wir eine 1-stündige Audiodatei über den Zweiten Weltkrieg transkribieren.

Gepard

Gepard priorisiert das schnelle Bereitstellen von genauen Transkripten und wird vom 74-Millionen-Parameter-Modell "base" angetrieben. So sieht das Transkribieren unserer 1-stündigen Audiodatei aus:

Das dauerte nur 20 Sekunden. Mit anderen Worten, es ist schnell.

Delfin

Delfin, mit 244 Millionen Parametern, dauert etwas mehr als doppelt so lange (was immer noch ziemlich schnell ist):

Wal

Schließlich dauert Wal etwa 3 Minuten, um die gleiche 1-stündige Audiodatei zu transkribieren (mit dem massiven 1,55-Milliarden-Parameter-Whisper-"large-v2"-Modell):

Beachten Sie, dass die Transkriptionszeiten leicht variieren können.

Zum Beispiel wird das Transkribieren einer großen 4-GB-Videodatei (mit 2 Stunden Audio) etwas länger dauern als eine kleinere 100-MB-MP3-Datei mit denselben 2 Stunden Audio — hauptsächlich, weil wir mehr Zeit damit verbringen müssen, Ihre Mediendatei zu übertragen, zu analysieren, vorzuverarbeiten und zu konvertieren, bevor wir tatsächlich mit der Transkription beginnen.

Audiodateien mit wenig erkennbarer menschlicher Sprache (denken Sie an eine Audioaufnahme mit vielen stillen Perioden) können in der Regel schneller transkribiert werden. Außerdem ist das Transkribieren mehrerer Dateien in der Regel schneller als das Transkribieren einer einzelnen Datei.

Vergleich der Genauigkeit

Für viele gängige Audio- und Videodateien gibt es keinen Unterschied zwischen Gepard, Delfin und Wal.

Wo Delfin und Wal wirklich glänzen, ist in Fällen, in denen kontextuelle Hinweise erforderlich sind, um ähnlich klingende Wörter zu differenzieren.

Zum Beispiel wurde in einer abgehackten, schnelllebigen juristischen Aufnahme mit hohem Hintergrundgeräusch der Begriff "Habeas Corpus" mit Gepard als "happy is porpoise" falsch übersetzt. Basierend auf dem Kontext der umliegenden Konversation (die andere juristische Begriffe beinhaltete), stellten jedoch sowohl Delfin als auch Wal korrekt fest, dass "Habeas Corpus" die wahrscheinlichste Transkription ist.

Hier ist ein weiteres Beispiel: In einer Audioaufnahme stellt sich eine Frau namens Kristina Hernandez vor und buchstabiert ihren Namen.

Gepard transkribiert ihren Namen fälschlicherweise als "Christina" (statt "Kristina"):

(Sprecher 1) Mein Name ist Christina Hernandez. Das wird K R I S T I N A H E R N A N D E Z buchstabiert. (Sprecher 2) Danke, Christina.

Delfin transkribiert den Namen beim ersten Mal falsch, korrigiert sich jedoch beim zweiten Mal (nachdem sie ihren Namen buchstabiert hat):

(Sprecher 1) Mein Name ist Christina Hernandez. Das wird K R I S T I N A H E R N A N D E Z buchstabiert. (Sprecher 2) Danke, Kristina.

Wal macht beide Transkriptionen richtig:

(Sprecher 1) Mein Name ist Kristina Hernandez. Das wird K R I S T I N A H E R N A N D E Z buchstabiert. (Sprecher 2) Danke, Kristina.

Verbesserung der Genauigkeit mit Metadaten

Es gibt Fälle, in denen selbst ein menschlicher Übersetzer keine eindeutige richtige Transkription bestimmen kann. Zum Beispiel wäre es unmöglich gewesen (basierend nur auf dem Audio), die richtige Schreibweise ihres Namens zu bestimmen, wenn Kristina ihren Namen nie buchstabiert hätte.

Um die Genauigkeit noch weiter zu verbessern, verwendet TurboScribe Metadaten, die den hochgeladenen Audio- und Videodateien beigefügt sind (wie Dateiname, Titel und Beschreibung), um automatisch die Transkriptionen von Begriffen zu verbessern, die basierend auf dem Audio allein nicht eindeutig bestimmt werden können.

Zum Beispiel, wenn der MP3-Metadaten-Titel, Künstler oder Kommentar "Kristina Hernandez" erwähnt, ist es viel wahrscheinlicher, dass ihr Name in allen drei Modi korrekt transkribiert wird.

Abschließend

Zusammenfassend bietet TurboScribe drei Transkriptionsmodi:

Gepard liefert genaue Transkriptionen so schnell wie möglich.
Delfin strebt das perfekte Gleichgewicht zwischen Genauigkeit und Geschwindigkeit an.
Wal maximiert die Genauigkeit, dauert aber etwas länger. Das ist der Standardmodus von TurboScribe.

Der beste Weg, ihre Fähigkeiten wirklich zu verstehen, besteht darin, sie selbst auszuprobieren. Starten Sie kostenlos und transkribieren Sie bis zu 4 Audio- oder Videodateien jeden Tag kostenlos.

TurboScribe