转录模式解释

今天，我们将深入探讨 TurboScribe 的转录引擎，重点介绍三种转录模式——猎豹、海豚和鲸鱼。

这三种模式有什么区别？这里是 TLDR：

猎豹是最快的模式。它可以在 30 秒内转录 1 小时的音频或视频。它专注于尽快为您提供转录文本。
海豚提供非常高的准确性，同时仍然非常快。它需要大约 3 分钟的时间来转录 1 小时的音频或视频。
鲸鱼追求最大的准确性。它可以在 10 分钟内转录 1 小时的音频或视频。

上传文件时，您可以选择这三种模式中的任意一种（鲸鱼是默认模式）。

那么您应该选择哪种模式呢？我们建议为了最大限度地提高准确性，从默认的鲸鱼模式开始，如果需要更快的转录，则切换到海豚或猎豹。

对于那些想要深入了解的人，可以继续阅读。

Whisper: 不仅仅是耳朵所见

让我们近距离了解一下 Whisper，这是 TurboScribe 转录背后的 AI 技术。

Whisper 不仅仅是一个单一的 AI 模型；它实际上是一个五个模型的家族，每个模型在准确性和速度之间有不同的权衡。

在低端，Whisper 从“tiny” 模型开始（“仅”有 3,900 万个参数），一直上升到“large” 模型（15.5 亿参数）。

“tiny” 是最快的，但错误最多。“base” 和 “small” 比大多数人类更好。“large” 是最准确的（可与专业转录员和翻译员媲美），但需要大量内存和昂贵的硬件。

Whisper 的五个模型

Whisper 家族包含五种不同的 AI 模型：

tiny—3,900 万个参数
base—7,400 万个参数（支持 TurboScribe 的猎豹模式）
small—2.44 亿个参数（支持 TurboScribe 的海豚模式）
medium—7.69 亿个参数
large—15.5 亿个参数（支持 TurboScribe 的鲸鱼模式）

不幸的是，除非拥有特别强大的计算机或有强大的 GPU（图形处理单元），否则大多数人将难以有效运行比“base”更大的模型。

GPU 是快速转录音频的关键。不幸的是，它们也非常昂贵。截至目前，一块 Nvidia A100——为“AI竞赛提供动力”的芯片——在亚马逊的价格为$6,715.00。

TurboScribe 使用 GPU 来显著加快转录速度，更快完成更多工作。

比较转录时间

让我们通过转录一段关于二战的 1 小时音频文件来比较 TurboScribe 在我们的 GPU 支持下的各个模式。

猎豹

猎豹优先考虑以最快速度提供准确的转录文本，这一模式由 7,400 万参数的“base”模型提供支持。以下是转录 1 小时音频文件的过程：

仅用了 20 秒。换句话说，它非常快。

海豚

海豚有 2.44 亿个参数，所需时间是猎豹的两倍多（但仍然非常快）：

鲸鱼

最后，鲸鱼模式的 1.55 亿参数 Whisper “large-v2” 模型，在转录这段 1 小时音频文件时需要大约 3 分钟：

请记住，转录时间会有轻微变化。

例如，转录一个大型、4GB 的视频文件（包含 2 小时音频）将比转录一个小型 100MB 的 MP3 文件（同样包含 2 小时音频）花费更多时间——这主要是因为在实际开始转录之前，我们需要花更多时间来传输、分析、预处理和转换您的媒体文件。

带有少量可检测到人类语音的音频文件（比如带有大量静音时段的音频录音）通常可以更快地转录。此外，与转录单个文件相比，转录多个文件通常会更快。

比较准确性

对于许多常见的音频和视频文件，在猎豹，海豚和鲸鱼之间没有差异。

海豚和鲸鱼真正闪光的地方是在需要语境线索以消除相似听觉词语歧义的情况下。

例如，在一个断断续续、快节奏的法律记录中，背景噪音很高，“人身保护令” 被转录错误为“happy is porpoise” 在猎豹中。然而，基于周围谈话的上下文（涉及其他法律术语），海豚和鲸鱼都正确地确定了“人身保护令” 是最有可能的转录。

以下是另一个例子：在一个音频记录中，一位名叫 Kristina Hernandez 的女性介绍了自己并拼出了她的名字。

猎豹错误地转录了她的名字为“Christina”（而不是“Kristina”）：

（发言人 1）我的名字是Christina Hernandez。拼写是 K R I S T I N A H E R N A N D E Z。（发言人 2）谢谢，Christina。

海豚错误地转录了她名字的第一次使用，但在她拼出名字后纠正了第二次使用：

（发言人 1）我的名字是Christina Hernandez。拼写是 K R I S T I N A H E R N A N D E Z。（发言人 2）谢谢，Kristina。

鲸鱼正确地转录了两次使用：

（发言人 1）我的名字是Kristina Hernandez。拼写是 K R I S T I N A H E R N A N D E Z。（发言人 2）谢谢，Kristina。

使用元数据提高准确性

有些情况下即使是人类翻译员也无法明确确定正确的转录。例如，如果 Kristina 从未拼写过她的名字，那么基于音频是无法确定名字的正确拼写的。

为了进一步提高准确性，TurboScribe 使用附加到您上传的音频和视频文件的元数据（例如文件名、标题和描述）来自动改进在音频中无法明确确定术语的转录。

例如，如果 MP3 的元数据标题、艺术家或评论提到“Kristina Hernandez”，那么所有 3 种模式更有可能正确地转录她的名字。

总结

总之，TurboScribe 提供了三种转录模式：

猎豹以最快速度提供准确的转录。
海豚追求准确性和速度之间的完美平衡。
鲸鱼最大限度地提高准确性，但需要更多时间。这是 TurboScribe 的默认模式。

真正了解它们的最佳方法是自己亲自尝试。免费开始，每天免费转录最多 4 个音频或视频文件。

TurboScribe

Whisper: 不仅仅是耳朵所见

Whisper 的五个模型

比较转录时间

猎豹

海豚

鲸鱼

比较准确性

使用元数据提高准确性

总结

关于 TurboScribe

准备开始转录了吗？