ログインサインアップ
TurboScribe modes banner

文字起こしモードの説明

2023年8月23日
Leif Foged
Leif Foged

今日、私たちはTurboScribeの文字起こしエンジンについて掘り下げ、それぞれの文字起こしモード(チーター、イルカ、クジラ)に焦点を当てます。

これらの3つのモードの違いは何ですか?こちらがTLDRです:

  • 🐆 チーター は最速のモードです。1時間のオーディオやビデオを30秒で文字起こしします。可能な限り早く文字起こしを提供するように調整されています。
  • 🐬 イルカ は非常に高い精度を持ちながらも非常に速いモードです。1時間の音声やビデオをおよそ3分で文字起こしします。
  • 🐳 クジラ は最大の精度を追求しています。1時間のオーディオやビデオを10分以内で文字起こしします。

ファイルをアップロードする際、これらの3つのモードの中から選択できます(デフォルトはクジラです)。

どれを選べばいいのでしょうか?最大の精度を求めるならデフォルトのクジラを選択することをお勧めし、もっと速い文字起こしを必要とする場合はイルカやチーターに切り替えてください。

もし、内部で何が起きているのかもっと知りたい方は、ぜひ引き続きお読みください。

Whisper: 耳で聞こえる以上のもの

Audio waves

TurboScribeの文字起こしの背後にあるAI技術であるWhisperについて詳しく見てみましょう。

Whisperは単一のAIモデルではなく、それぞれ異なる速度と精度のトレードオフがある5つのモデルのファミリーです。

低い方から始めると、Whisperは「小さな」モデル(「たった」3900万パラメータ)から始まり、「大きな」(15億5000万 パラメータ)モデルまであります。

「小さな」は最速ですが、最も多くのエラーを犯します。「ベース」と「小さな」はほとんどの人間よりも優れています。「大きな」は最も正確で(プロの文字起こし者や翻訳者と同等)、大量のメモリと高価なハードウェアを必要とします。

Whisperの5つのモデル

Whisperファミリーには5つの異なるAIモデルが含まれています:

  • 小さな — 3900万パラメータ
  • ベース — 7400万パラメータ(TurboScribeの🐆 チーターモードを担当)
  • 小さな — 2億4400万パラメータ(TurboScribeの🐬 イルカモードを担当)
  • 中くらい — 7億6900万パラメータ
  • 大きな — 15億5000万パラメータ(TurboScribeの🐳 クジラモードを担当)

残念ながら、特に強力なコンピュータを持っていない限り、または強力なGPU(グラフィックス処理ユニット)にアクセスできる場合を除いて、「ベース」より大きなほとんどのモデルを効率的に実行することは困難です。

GPUは音声を速く文字起こしするための秘密です。しかし、残念ながら非常に高価です。この記事の執筆時点で、AIのレースを支えるNvidia A100というチップは、Amazonで6715.00ドルで購入できます。

TurboScribeはGPUを使用して文字起こしを大幅に高速化し、より多くの作業を迅速に行います。

文字起こし時間の比較

TurboScribeの文字起こしエンジンで、第2次世界大戦に関する1時間のオーディオファイルを文字起こしして、各モードの比較を行いましょう。

🐆 チーター

チーターは、7400万パラメータの「ベース」モデルで駆動され、最大速度で正確な文字起こしを提供することを優先します。この1時間のオーディオファイルを文字起こしする様子です:

わずか20秒で完了しました。つまり、速いのです。

🐬 イルカ

イルカは2億4400万パラメータで、やや時間がかかります(それでもかなり速いです):

🐳 クジラ

最後に、クジラは同じ1時間のオーディオファイルを文字起こすのに約3分かかります(巨大な15億5000万パラメータのWhisper「large-v2」モデル):

文字起こしの時間は多少変動することもありますのでご注意ください。

たとえば、大きな4GBのビデオファイル(2時間のオーディオを含む)を文字起こしする場合、同じ2時間のオーディオを含む100MBのMP3ファイルに比べてもう少し時間がかかります — これは主に、実際に文字起こしを開始する前に、メディアファイルを転送し、分析し、前処理し、変換する時間が多くかかるためです。

検出可能な人間のスピーチが少ないオーディオファイル(多くの静寂期間を含む音声録音など)は、通常、より早く文字起こしできます。さらに、複数のファイルを文字起こしする方が単一のファイルを文字起こしするよりも通常速いです。

精度の比較

多くの一般的なオーディオおよびビデオファイルにおいて、🐆 チーター、🐬 イルカ、および 🐳 クジラの間に違いはありません

🐬 イルカと 🐳 クジラが本当に優れているのは、類似した音の単語を区別するために文脈的手がかりを必要とする場合です。

たとえば、高度なバックグラウンドノイズが多く、急テンポの法律録音では、用語「Habeas Corpus」が 🐆 チーターで「happy is porpoise」と誤訳されました。しかし、周囲の会話の文脈に基づいて(他の法的用語が含まれている)、🐬 イルカと 🐳 クジラの両方が、「Habeas Corpus」が最も可能性の高い文字起こしであると正確に判断しました。

もう一つの例です:音声録音で、ある女性がクリスティーナ・ヘルナンデスと自分を紹介し、名前の綴りを説明しました。

🐆 チーターは彼女の名前を「Kristina」ではなく「クリスティーナ」と誤って文字起こししました:

(話者1) My name is Christina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (話者2) Thank you, Christina.

🐬 イルカは彼女の名前の最初の使用を誤って文字起こししましたが、彼女が名前の綴りを説明した後、用語の2回目の使用を正確にしました:

(話者1) My name is Christina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (話者2) Thank you, Kristina.

🐳 クジラは両方の使用を正確にしました:

(話者1) My name is Kristina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (話者2) Thank you, Kristina.

メタデータを使用して精度を向上させる

人間の翻訳者でも正確な文字起こしを明確に判断できない ケースもあります。たとえば、クリスティーナが名前の綴りを説明していない場合、オーディオだけで彼女の名前の正確な綴りを判断することは不可能です。

さらに精度を向上させるために、TurboScribeはアップロードされたオーディオおよびビデオファイルに添付されたメタデータ(ファイル名、タイトル、および説明など)を使用して、オーディオだけでは明確に判断できない用語の文字起こしを自動的に改善します。

たとえば、MP3メタデータのタイトル、アーティスト、またはコメントが「Kristina Hernandez」を参照する場合、すべてのモードが彼女の名前を正確に文字起こしする可能性が高くなります。

まとめ

まとめると、TurboScribeは3つの文字起こしモードを提供します:

  • 🐆 チーター は可能な限り迅速に正確な文字起こしを提供します。
  • 🐬 イルカ は精度と速度の完璧なバランスを目指します。
  • 🐳 クジラ は精度を最大化しますが、少し時間がかかります。これはTurboScribeのデフォルトモードです。

彼らの能力を本当に理解する最良の方法は、実際に自分で試してみることです。無料で始める と、毎日最大4つのオーディオまたはビデオファイルを無料で文字起こしできます。

TurboScribeについて

TurboScribeは、AIを活用して音声や動画を数秒で正確なテキストに変換します。

TurboScribeについてもっと知る

文字起こしを始める準備はできましたか?

次の機能にフルアクセスできます...

無制限の文字起こし
1名様向けの無制限の文字起こし。
🎯
99.8%の精度
Whisperによって提供される、世界で最も正確強力なAI音声認識技術。
🌍
98言語以上
TurboScribeは世界の話されている言語をサポートしています。
🚀
10時間のアップロード
各ファイルは最大10時間/5 GB。50ファイルを一度にアップロード可能。
👥
話者認識
会議、インタビュー、ポッドキャストに最適です。