今天,我們深入了解 TurboScribe 的轉錄引擎,重點介紹其三種轉錄模式——獵豹、海豚和鯨魚。
這三種模式有何不同?以下是快速概覽:
獵豹 是最快的模式。它能在 30 秒內轉錄 1 小時的音頻或視頻。它的調整是為了儘可能快地提供轉錄結果。
海豚 提供非常高的準確性,同時速度仍然非常快。轉錄 1 小時的音頻或視頻大約需要 3 分鐘。
鯨魚 旨在最大化準確性。轉錄 1 小時的音頻或視頻需時不到 10 分鐘。
上傳文件時,可以在這三種模式中進行選擇( 鯨魚是默認模式)。
那你應該選擇哪一種呢?我們推薦先使用默認的鯨魚模式以獲得最大化的準確性,當你需要更快速的轉錄時,可以切換到海豚或獵豹模式。
如果你想更深入了解引擎背後的工作原理,請繼續閱讀。
Whisper:不僅僅是耳邊的聲音
讓我們仔細看看 TurboScribe 轉錄背後的 AI 技術——Whisper。
Whisper 不僅僅是單一的 AI 模型,它其實是一個由 五個模型 組成的家族,每個模型在準確性和速度之間有不同的權衡。
從低端開始,Whisper 包含“tiny”模型(僅有 3900 萬參數),最高到“large”(15.5 億參數)。
“tiny”是最快的,但錯誤最多。“base”和“small”比大多數人類更好。“large”是最準確的(相當於專業的轉錄員和翻譯),但需要大量的記憶體和昂貴的硬體設施。
Whisper 的 5 個模型
Whisper 家族包括 5 種不同的 AI 模型:
- tiny——3900 萬參數
- base——7400 萬參數(支持 TurboScribe 的
獵豹 模式)
- small——2.44 億參數(支持 TurboScribe 的
海豚 模式)
- medium——7.69 億參數
- large——15.5 億參數(支持 TurboScribe 的
鯨魚 模式)
不幸的是,除非你擁有特別強大的電腦或有力的 GPU(圖形處理單元),大多數人都難以高效運行大於“base”的模型。
GPU 是迅速轉錄音頻的秘密武器。不幸的是,它們也頗為昂貴。截至撰文時,一塊 Nvidia A100 ——這款芯片正推動 AI 競賽 ——在 Amazon 上的售價為$6,715.00。
TurboScribe 使用 GPU 顯著加速轉錄,並更快地完成更多工作。
比較轉錄時間
讓我們通過轉錄一個關於二戰的 1 小時音頻文件來比較 TurboScribe 的各種模式在我們的 GPU 驅動轉錄引擎上的表現。
獵豹
獵豹優先在最大速度下提供準確的轉錄,其由擁有 7400 萬參數的“base”模型驅動。以下是我們轉錄 1 小時音頻文件的效果:
這只用了 20 秒。換句話說,它很快。
海豚
海豚有 2.44 億參數,花費的時間是獵豹兩倍多一些(但仍然相當快):
鯨魚
最終,鯨魚大約需要 3 分鐘才能轉錄相同的 1 小時音頻文件( 使用龐大的 15.5 億參數 Whisper "large-v2" 模型):
請記住,轉錄時間可能會略有不同。
例如,轉錄一個 4GB 的大視頻文件(2 小時音頻)會比一個包含相同 2 小時音頻的 100MB 小 MP3 文件花費更多時間——這主要是因為我們在真正開始轉錄之前需要花費更多時間進行傳輸,分析,預處理和轉換您的媒體文件。
含有人類可檢測語音較少的音頻文件(例如包含許多靜默片段的音頻錄音)通常可以更快地轉錄。此外,轉錄多個文件通常比轉錄單個文件更快。
比較準確性
對於許多常見的音頻和視頻文件, 獵豹,
海豚和
鯨魚之間沒有區別。
海豚和
鯨魚真正出彩的地方在於需要 上下文線索 來消除相似發音詞匯的歧義的情況。
例如,在一個快速的,含有大量背景噪音的法律錄音中,術語 "Habeas Corpus" 在 獵豹中被錯譯為 "happy is porpoise"。然而,基於周圍對話的上下文(包括其他法律術語),
海豚和
鯨魚都正確地確定了"Habeas Corpus" 是最可能的轉錄。
這是另一個例子:在一個音頻錄音中,一位名為 Kristina Hernandez 的女士自我介紹並拼寫了她的名字。
獵豹錯誤地將她的名字轉錄為 "Christina"(而不是 "Kristina"):
(Speaker 1) My name is Christina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Speaker 2) Thank you, Christina.
海豚首次錯誤轉錄了她的名字,但在她拼寫名字之後,糾正了第二次使用:
(Speaker 1) My name is Christina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Speaker 2) Thank you, Kristina.
鯨魚正確轉錄了兩次使用:
(Speaker 1) My name is Kristina Hernandez. That's spelled K R I S T I N A H E R N A N D E Z. (Speaker 2) Thank you, Kristina.
使用元數據提升準確性
有些情況下 即使是人類轉譯員也無法明確認識正確的轉錄。例如,如果 Kristina 從未拼寫她的名字,根據音頻本身是不可能確定她名字的正確拼寫。
為了進一步提高準確性,TurboScribe 使用附加到你上傳的音頻和視頻文件的 元數據(如文件名、標題和描述)來自動改進那些無法單純基於音頻明確認識的詞語的轉錄結果。
例如,如果 MP3 元數據的標題、藝術家或評論中提到 "Kristina Hernandez",這三種模式就更有可能正確轉錄她的名字。
結論
總之,TurboScribe 提供了三種轉錄模式:
獵豹 在儘可能短的時間內提供準確轉錄。
海豚 追求準確性和速度之間的完美平衡。
鯨魚 最大化準確性,但所需時間更長。它是 TurboScribe 的默認模式。
最好的方式是親自試用他們的功能。免費開始,每天免費轉錄最多 4 個音頻或視頻文件。

