登入註冊
TurboScribe modes banner

轉錄模式解釋

2023年8月23日
Leif Foged
Leif Foged

今天,我們深入了解 TurboScribe 的轉錄引擎,重點介紹其三種轉錄模式——獵豹、海豚和鯨魚。

這三種模式有何不同?以下是快速概覽:

  • 🐆 獵豹 是最快的模式。它能在 30 秒內轉錄 1 小時的音頻或視頻。它的調整是為了儘可能快地提供轉錄結果。
  • 🐬 海豚 提供非常高的準確性,同時速度仍然非常快。轉錄 1 小時的音頻或視頻大約需要 3 分鐘。
  • 🐳 鯨魚 旨在最大化準確性。轉錄 1 小時的音頻或視頻需時不到 10 分鐘。

上傳文件時,可以在這三種模式中進行選擇(🐳 鯨魚是默認模式)。

那你應該選擇哪一種呢?我們推薦先使用默認的鯨魚模式以獲得最大化的準確性,當你需要更快速的轉錄時,可以切換到海豚或獵豹模式。

如果你想更深入了解引擎背後的工作原理,請繼續閱讀。

Whisper:不僅僅是耳邊的聲音

Audio waves

讓我們仔細看看 TurboScribe 轉錄背後的 AI 技術——Whisper

Whisper 不僅僅是單一的 AI 模型,它其實是一個由 五個模型 組成的家族,每個模型在準確性和速度之間有不同的權衡。

從低端開始,Whisper 包含“tiny”模型(僅有 3900 萬參數),最高到“large”(15.5 億參數)。

“tiny”是最快的,但錯誤最多。“base”和“small”比大多數人類更好。“large”是最準確的(相當於專業的轉錄員和翻譯),但需要大量的記憶體和昂貴的硬體設施。

Whisper 的 5 個模型

Whisper 家族包括 5 種不同的 AI 模型:

  • tiny——3900 萬參數
  • base——7400 萬參數(支持 TurboScribe 的 🐆 獵豹 模式)
  • small——2.44 億參數(支持 TurboScribe 的 🐬 海豚 模式)
  • medium——7.69 億參數
  • large——15.5 億參數(支持 TurboScribe 的 🐳 鯨魚 模式)

不幸的是,除非你擁有特別強大的電腦或有力的 GPU(圖形處理單元),大多數人都難以高效運行大於“base”的模型。

GPU 是迅速轉錄音頻的秘密武器。不幸的是,它們也頗為昂貴。截至撰文時,一塊 Nvidia A100 ——這款芯片正推動 AI 競賽 ——在 Amazon 上的售價為$6,715.00

TurboScribe 使用 GPU 顯著加速轉錄,並更快地完成更多工作。

比較轉錄時間

讓我們通過轉錄一個關於二戰的 1 小時音頻文件來比較 TurboScribe 的各種模式在我們的 GPU 驅動轉錄引擎上的表現。

🐆 獵豹

獵豹優先在最大速度下提供準確的轉錄,其由擁有 7400 萬參數的“base”模型驅動。以下是我們轉錄 1 小時音頻文件的效果:

這只用了 20 秒。換句話說,它很快

🐬 海豚

海豚有 2.44 億參數,花費的時間是獵豹兩倍多一些(但仍然相當快):

🐳 鯨魚

最終,鯨魚大約需要 3 分鐘才能轉錄相同的 1 小時音頻文件( 使用龐大的 15.5 億參數 Whisper "large-v2" 模型):

請記住,轉錄時間可能會略有不同。

例如,轉錄一個 4GB 的大視頻文件(2 小時音頻)會比一個包含相同 2 小時音頻的 100MB 小 MP3 文件花費更多時間——這主要是因為我們在真正開始轉錄之前需要花費更多時間進行傳輸,分析,預處理和轉換您的媒體文件。

含有人類可檢測語音較少的音頻文件(例如包含許多靜默片段的音頻錄音)通常可以更快地轉錄。此外,轉錄多個文件通常比轉錄單個文件更快。

比較準確性

對於許多常見的音頻和視頻文件,🐆 獵豹,🐬 海豚和 🐳 鯨魚之間沒有區別

🐬 海豚和 🐳 鯨魚真正出彩的地方在於需要 上下文線索 來消除相似發音詞匯的歧義的情況。

例如,在一個快速的,含有大量背景噪音的法律錄音中,術語 "Habeas Corpus"🐆 獵豹中被錯譯為 "happy is porpoise"。然而,基於周圍對話的上下文(包括其他法律術語),🐬 海豚和 🐳 鯨魚都正確地確定了"Habeas Corpus" 是最可能的轉錄。

這是另一個例子:在一個音頻錄音中,一位名為 Kristina Hernandez 的女士自我介紹並拼寫了她的名字。

🐆 獵豹錯誤地將她的名字轉錄為 "Christina"(而不是 "Kristina"):

(Speaker 1) My name is Christina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Speaker 2) Thank you, Christina.

🐬 海豚首次錯誤轉錄了她的名字,但在她拼寫名字之後,糾正了第二次使用:

(Speaker 1) My name is Christina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Speaker 2) Thank you, Kristina.

🐳 鯨魚正確轉錄了兩次使用:

(Speaker 1) My name is Kristina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Speaker 2) Thank you, Kristina.

使用元數據提升準確性

有些情況下 即使是人類轉譯員也無法明確認識正確的轉錄。例如,如果 Kristina 從未拼寫她的名字,根據音頻本身是不可能確定她名字的正確拼寫。

為了進一步提高準確性,TurboScribe 使用附加到你上傳的音頻和視頻文件的 元數據(如文件名、標題和描述)來自動改進那些無法單純基於音頻明確認識的詞語的轉錄結果。

例如,如果 MP3 元數據的標題、藝術家或評論中提到 "Kristina Hernandez",這三種模式就更有可能正確轉錄她的名字。

結論

總之,TurboScribe 提供了三種轉錄模式:

  • 🐆 獵豹 在儘可能短的時間內提供準確轉錄。
  • 🐬 海豚 追求準確性和速度之間的完美平衡。
  • 🐳 鯨魚 最大化準確性,但所需時間更長。它是 TurboScribe 的默認模式。

最好的方式是親自試用他們的功能。免費開始,每天免費轉錄最多 4 個音頻或視頻文件。

關於TurboScribe

TurboScribe在幾秒內將音訊和視頻轉換為準確的文字,由AI驅動。

了解更多關於 TurboScribe 的資訊

準備開始轉錄了嗎?

獲得完全訪問權限至...

無限轉錄
個人無限次轉錄。
🎯
99.8% 準確率
由 Whisper 提供驅動,這是世界上最準確和最強大的AI語音轉文字轉錄技術。
🌍
98+種語言
TurboScribe 支持世界各地的語言。
🚀
10小時長檔案上傳
每個文件可以長達10小時/5 GB。一次上傳50個文件。
👥
說話者識別
非常適用於會議、面試和播客。