登录注册
TurboScribe modes banner

转录模式解释

2023年8月23日
Leif Foged
Leif Foged

今天,我们将深入探讨 TurboScribe 的转录引擎,重点介绍三种转录模式——猎豹、海豚和鲸鱼。

这三种模式有什么区别?这里是 TLDR:

  • 🐆 猎豹 是最快的模式。它可以在 30 秒内转录 1 小时的音频或视频。它专注于尽快为您提供转录文本。
  • 🐬 海豚 提供非常高的准确性,同时仍然非常快。它需要大约 3 分钟的时间来转录 1 小时的音频或视频。
  • 🐳 鲸鱼 追求最大的准确性。它可以在 10 分钟内转录 1 小时的音频或视频。

上传文件时,您可以选择这三种模式中的任意一种(🐳 鲸鱼是默认模式)。

那么您应该选择哪种模式呢?我们建议为了最大限度地提高准确性,从默认的鲸鱼模式开始,如果需要更快的转录,则切换到海豚或猎豹。

对于那些想要深入了解的人,可以继续阅读。

Whisper: 不仅仅是耳朵所见

Audio waves

让我们近距离了解一下 Whisper,这是 TurboScribe 转录背后的 AI 技术。

Whisper 不仅仅是一个单一的 AI 模型;它实际上是一个五个模型的家族,每个模型在准确性和速度之间有不同的权衡。

在低端,Whisper 从“tiny” 模型开始(“仅”有 3,900 万个参数),一直上升到“large” 模型(15.5 亿参数)。

“tiny” 是最快的,但错误最多。“base” 和 “small” 比大多数人类更好。“large” 是最准确的(可与专业转录员和翻译员媲美),但需要大量内存和昂贵的硬件。

Whisper 的五个模型

Whisper 家族包含五种不同的 AI 模型:

  • tiny—3,900 万个参数
  • base—7,400 万个参数(支持 TurboScribe 的 🐆 猎豹 模式)
  • small—2.44 亿个参数(支持 TurboScribe 的 🐬 海豚 模式)
  • medium—7.69 亿个参数
  • large—15.5 亿个参数(支持 TurboScribe 的 🐳 鲸鱼 模式)

不幸的是,除非拥有特别强大的计算机或有强大的 GPU(图形处理单元),否则大多数人将难以有效运行比“base”更大的模型。

GPU 是快速转录音频的关键。不幸的是,它们也非常昂贵。截至目前,一块 Nvidia A100——为“AI竞赛提供动力”的芯片——在亚马逊的价格为$6,715.00

TurboScribe 使用 GPU 来显著加快转录速度,更快完成更多工作。

比较转录时间

让我们通过转录一段关于二战的 1 小时音频文件来比较 TurboScribe 在我们的 GPU 支持下的各个模式。

🐆 猎豹

猎豹优先考虑以最快速度提供准确的转录文本,这一模式由 7,400 万参数的“base”模型提供支持。以下是转录 1 小时音频文件的过程:

仅用了 20 秒。换句话说,它非常快。

🐬 海豚

海豚有 2.44 亿个参数,所需时间是猎豹的两倍多(但仍然非常快):

🐳 鲸鱼

最后,鲸鱼模式的 1.55 亿参数 Whisper “large-v2” 模型,在转录这段 1 小时音频文件时需要大约 3 分钟:

请记住,转录时间会有轻微变化。

例如,转录一个大型、4GB 的视频文件(包含 2 小时音频)将比转录一个小型 100MB 的 MP3 文件(同样包含 2 小时音频)花费更多时间——这主要是因为在实际开始转录之前,我们需要花更多时间来传输、分析、预处理和转换您的媒体文件。

带有少量可检测到人类语音的音频文件(比如带有大量静音时段的音频录音)通常可以更快地转录。此外,与转录单个文件相比,转录多个文件通常会更快。

比较准确性

对于许多常见的音频和视频文件,在 🐆 猎豹,🐬 海豚 和 🐳 鲸鱼之间没有差异

🐬 海豚 和 🐳 鲸鱼 真正闪光的地方是在需要语境线索以消除相似听觉词语歧义的情况下。

例如,在一个断断续续、快节奏的法律记录中,背景噪音很高,“人身保护令” 被转录错误为“happy is porpoise” 在 🐆 猎豹中。然而,基于周围谈话的上下文(涉及其他法律术语),🐬 海豚 和 🐳 鲸鱼 都正确地确定了“人身保护令” 是最有可能的转录。

以下是另一个例子:在一个音频记录中,一位名叫 Kristina Hernandez 的女性介绍了自己并拼出了她的名字。

🐆 猎豹 错误地转录了她的名字为“Christina”(而不是“Kristina”):

(发言人 1)我的名字是Christina Hernandez。拼写是 K R I S T I N A H E R N A N D E Z。(发言人 2)谢谢,Christina

🐬 海豚 错误地转录了她名字的第一次使用,但在她拼出名字后纠正了第二次使用:

(发言人 1)我的名字是Christina Hernandez。拼写是 K R I S T I N A H E R N A N D E Z。(发言人 2)谢谢,Kristina

🐳 鲸鱼 正确地转录了两次使用:

(发言人 1)我的名字是Kristina Hernandez。拼写是 K R I S T I N A H E R N A N D E Z。(发言人 2)谢谢,Kristina

使用元数据提高准确性

有些情况下即使是人类翻译员也无法明确确定正确的转录。例如,如果 Kristina 从未拼写过她的名字,那么基于音频是无法确定名字的正确拼写的。

为了进一步提高准确性,TurboScribe 使用附加到您上传的音频和视频文件的元数据(例如文件名、标题和描述)来自动改进在音频中无法明确确定术语的转录。

例如,如果 MP3 的元数据标题、艺术家或评论提到“Kristina Hernandez”,那么所有 3 种模式更有可能正确地转录她的名字。

总结

总之,TurboScribe 提供了三种转录模式:

  • 🐆 猎豹 以最快速度提供准确的转录。
  • 🐬 海豚 追求准确性和速度之间的完美平衡。
  • 🐳 鲸鱼 最大限度地提高准确性,但需要更多时间。这是 TurboScribe 的默认模式。

真正了解它们的最佳方法是自己亲自尝试。免费开始,每天免费转录最多 4 个音频或视频文件。

关于 TurboScribe

TurboScribe由AI驱动,在几秒钟内将音频和视频转换为精准文本。

了解更多关于TurboScribe的信息

准备开始转录了吗?

获得完整访问权限包括...

无限转录
个人无限转录。
🎯
99.8% 准确率
由Whisper提供支持,这是全球最准确和最强大的AI语音转文字转录技术。
🌍
98+种语言
TurboScribe 支持世界上的口语。
🚀
10小时上传
每个文件可以长达10小时 / 5 GB。一次上传50个文件。
👥
说话人识别
非常适用于会议、采访和播客。