轉錄模式解釋

今天，我們深入了解 TurboScribe 的轉錄引擎，重點介紹其三種轉錄模式——獵豹、海豚和鯨魚。

這三種模式有何不同？以下是快速概覽：

獵豹是最快的模式。它能在 30 秒內轉錄 1 小時的音頻或視頻。它的調整是為了儘可能快地提供轉錄結果。
海豚提供非常高的準確性，同時速度仍然非常快。轉錄 1 小時的音頻或視頻大約需要 3 分鐘。
鯨魚旨在最大化準確性。轉錄 1 小時的音頻或視頻需時不到 10 分鐘。

上傳文件時，可以在這三種模式中進行選擇（鯨魚是默認模式）。

那你應該選擇哪一種呢？我們推薦先使用默認的鯨魚模式以獲得最大化的準確性，當你需要更快速的轉錄時，可以切換到海豚或獵豹模式。

如果你想更深入了解引擎背後的工作原理，請繼續閱讀。

Whisper：不僅僅是耳邊的聲音

讓我們仔細看看 TurboScribe 轉錄背後的 AI 技術——Whisper。

Whisper 不僅僅是單一的 AI 模型，它其實是一個由 五個模型 組成的家族，每個模型在準確性和速度之間有不同的權衡。

從低端開始，Whisper 包含“tiny”模型（僅有 3900 萬參數），最高到“large”（15.5 億參數）。

“tiny”是最快的，但錯誤最多。“base”和“small”比大多數人類更好。“large”是最準確的（相當於專業的轉錄員和翻譯），但需要大量的記憶體和昂貴的硬體設施。

Whisper 的 5 個模型

Whisper 家族包括 5 種不同的 AI 模型：

tiny——3900 萬參數
base——7400 萬參數（支持 TurboScribe 的獵豹模式）
small——2.44 億參數（支持 TurboScribe 的海豚模式）
medium——7.69 億參數
large——15.5 億參數（支持 TurboScribe 的鯨魚模式）

不幸的是，除非你擁有特別強大的電腦或有力的 GPU（圖形處理單元），大多數人都難以高效運行大於“base”的模型。

GPU 是迅速轉錄音頻的秘密武器。不幸的是，它們也頗為昂貴。截至撰文時，一塊 Nvidia A100 ——這款芯片正推動 AI 競賽 ——在 Amazon 上的售價為$6,715.00。

TurboScribe 使用 GPU 顯著加速轉錄，並更快地完成更多工作。

比較轉錄時間

讓我們通過轉錄一個關於二戰的 1 小時音頻文件來比較 TurboScribe 的各種模式在我們的 GPU 驅動轉錄引擎上的表現。

獵豹

獵豹優先在最大速度下提供準確的轉錄，其由擁有 7400 萬參數的“base”模型驅動。以下是我們轉錄 1 小時音頻文件的效果：

這只用了 20 秒。換句話說，它很快。

海豚

海豚有 2.44 億參數，花費的時間是獵豹兩倍多一些（但仍然相當快）：

鯨魚

最終，鯨魚大約需要 3 分鐘才能轉錄相同的 1 小時音頻文件（使用龐大的 15.5 億參數 Whisper "large-v2" 模型）：

請記住，轉錄時間可能會略有不同。

例如，轉錄一個 4GB 的大視頻文件（2 小時音頻）會比一個包含相同 2 小時音頻的 100MB 小 MP3 文件花費更多時間——這主要是因為我們在真正開始轉錄之前需要花費更多時間進行傳輸，分析，預處理和轉換您的媒體文件。

含有人類可檢測語音較少的音頻文件（例如包含許多靜默片段的音頻錄音）通常可以更快地轉錄。此外，轉錄多個文件通常比轉錄單個文件更快。

比較準確性

對於許多常見的音頻和視頻文件，獵豹，海豚和鯨魚之間沒有區別。

海豚和鯨魚真正出彩的地方在於需要 上下文線索 來消除相似發音詞匯的歧義的情況。

例如，在一個快速的，含有大量背景噪音的法律錄音中，術語 "Habeas Corpus" 在獵豹中被錯譯為 "happy is porpoise"。然而，基於周圍對話的上下文（包括其他法律術語），海豚和鯨魚都正確地確定了"Habeas Corpus" 是最可能的轉錄。

這是另一個例子：在一個音頻錄音中，一位名為 Kristina Hernandez 的女士自我介紹並拼寫了她的名字。

獵豹錯誤地將她的名字轉錄為 "Christina"（而不是 "Kristina"）：

(Speaker 1) My name is Christina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Speaker 2) Thank you, Christina.

海豚首次錯誤轉錄了她的名字，但在她拼寫名字之後，糾正了第二次使用：

(Speaker 1) My name is Christina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Speaker 2) Thank you, Kristina.

鯨魚正確轉錄了兩次使用：

(Speaker 1) My name is Kristina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Speaker 2) Thank you, Kristina.

使用元數據提升準確性

有些情況下 即使是人類轉譯員也無法明確認識正確的轉錄。例如，如果 Kristina 從未拼寫她的名字，根據音頻本身是不可能確定她名字的正確拼寫。

為了進一步提高準確性，TurboScribe 使用附加到你上傳的音頻和視頻文件的 元數據（如文件名、標題和描述）來自動改進那些無法單純基於音頻明確認識的詞語的轉錄結果。

例如，如果 MP3 元數據的標題、藝術家或評論中提到 "Kristina Hernandez"，這三種模式就更有可能正確轉錄她的名字。

結論

總之，TurboScribe 提供了三種轉錄模式：

獵豹在儘可能短的時間內提供準確轉錄。
海豚追求準確性和速度之間的完美平衡。
鯨魚最大化準確性，但所需時間更長。它是 TurboScribe 的默認模式。

最好的方式是親自試用他們的功能。免費開始，每天免費轉錄最多 4 個音頻或視頻文件。

TurboScribe

Whisper：不僅僅是耳邊的聲音

Whisper 的 5 個模型

比較轉錄時間

獵豹

海豚

鯨魚

比較準確性

使用元數據提升準確性

結論

關於TurboScribe

準備開始轉錄了嗎？