Режимы транскрипции: объяснение

Сегодня мы углубимся в работу транскрипционного движка TurboScribe, сосредоточившись на его трех режимах транскрипции – Гепард, Дельфин и Кит.

В чем разница между этими 3 режимами? Вот краткое описание:

Гепард – самый быстрый режим. Он транскрибирует 1 час аудио или видео за 30 секунд. Он настроен на максимально быструю выдачу транскрипции.
Дельфин обеспечивает очень высокую точность, оставаясь при этом очень быстрым. Для транскрибирования 1 часа аудио или видео требуется около 3 минут.
Кит настроен на максимальную точность. Он транскрибирует 1 час аудио или видео менее чем за 10 минут.

При загрузке файла вы можете выбрать любой из этих 3 режимов ( Кит установлен по умолчанию).

Какой же выбрать? Мы рекомендуем начать с режима по умолчанию (Кит) для максимальной точности и переключаться на Дельфина или Гепарда, когда вам нужны транскрипции еще быстрее.

Для тех, кто хочет лучше понять, что происходит под капотом, предлагаем читать дальше.

Whisper: Больше, чем кажется на первый взгляд

Давайте поближе рассмотрим Whisper, ИИ-технологию, лежащую в основе транскрипции TurboScribe.

Whisper – это не просто одна модель ИИ; это целое семейство пяти моделей, каждая из которых предлагает различные компромиссы между точностью и скоростью.

На нижнем уровне Whisper начинается с модели «tiny» (с «всего лишь» 39 миллионами параметров) и доходит до «large» (с 1,55 миллиардами параметров).

«tiny» самая быстрая, но делает больше всего ошибок. «base» и «small» работают лучше большинства людей. «large» самая точная (сравнима с профессиональными транскрайберами и переводчиками), но требует много памяти и дорогого оборудования.

5 моделей Whisper

Семейство Whisper включает 5 различных моделей ИИ:

tiny — 39 миллионов параметров
base — 74 миллиона параметров (используется в режиме Гепард TurboScribe)
small — 244 миллиона параметров (используется в режиме Дельфин TurboScribe)
medium — 769 миллионов параметров
large — 1,55 миллиарда параметров (используется в режиме Кит TurboScribe)

К сожалению, если у вас нет особенно мощного компьютера или доступа к производительному GPU (графическому процессору), большинству людей будет сложно эффективно запускать модели крупнее, чем «base».

GPU – это секрет быстрой транскрипции аудио. К сожалению, они также довольно дороги. На момент написания статьи один Nvidia A100 — чип, "движущий гонку за ИИ" — стоит $6,715.00 на Amazon.

TurboScribe использует GPU для значительного ускорения транскрипции и выполнения большего объема работы быстрее.

Сравнение времени транскрипции

Давайте сравним каждый из режимов TurboScribe на нашем транскрипционном движке с GPU, транскрибируя часовой аудиофайл о Второй мировой войне.

Гепард

Гепард отдает приоритет созданию точных транскрипций на максимальной скорости, используя 74-миллионную параметрическую модель «base». Вот как выглядит транскрипция нашего часового аудиофайла:

Это заняло всего 20 секунд. Другими словами, это быстро.

Дельфин

Дельфин, с 244 миллионами параметров, занимает чуть более чем в два раза больше времени (что все равно довольно быстро):

Кит

Наконец, Киту требуется около 3 минут для транскрипции того же часового аудиофайла (с массивной 1,55-миллиардной параметрической моделью Whisper «large-v2»):

Имейте в виду, что время транскрипции может немного варьироваться.

Например, транскрипция большого 4ГБ видеофайла (с 2 часами аудио) займет немного больше времени, чем меньший 100МБ MP3-файл с теми же 2 часами аудио — это в основном потому, что нам нужно потратить больше времени на передачу, анализ, предварительную обработку и конвертацию вашего медиафайла перед началом собственно транскрипции.

Аудиофайлы с небольшим количеством обнаруживаемой человеческой речи (например, аудиозапись с большим количеством периодов тишины) обычно можно транскрибировать быстрее. Кроме того, транскрипция нескольких файлов обычно происходит быстрее, чем транскрипция одного файла.

Сравнение точности

Для многих обычных аудио и видеофайлов нет разницы между Гепардом, Дельфином и Китом.

Дельфин и Кит действительно блистают в случаях, когда требуются контекстные подсказки для различения похоже звучащих слов.

Например, в прерывистой, быстрой юридической записи с высоким уровнем фонового шума термин «Habeas Corpus» был неправильно переведен как «happy is porpoise» в режиме Гепард. Однако, основываясь на контексте окружающего разговора (который включал другие юридические термины), и Дельфин, и Кит правильно определили, что «Habeas Corpus» является наиболее вероятной транскрипцией.

Вот еще один пример: в аудиозаписи женщина по имени Кристина Эрнандес представляется и произносит свое имя по буквам.

Гепард неправильно транскрибирует ее имя как «Christina» (вместо «Kristina»):

(Говорящий 1) Меня зовут Christina Hernandez. По буквам это K R I S T I N A H E R N A N D E Z. (Говорящий 2) Спасибо, Christina.

Дельфин неправильно транскрибирует первое употребление ее имени, но исправляет второе употребление термина (после того, как она произносит свое имя по буквам):

(Говорящий 1) Меня зовут Christina Hernandez. По буквам это K R I S T I N A H E R N A N D E Z. (Говорящий 2) Спасибо, Kristina.

Кит правильно распознает оба употребления:

(Говорящий 1) Меня зовут Kristina Hernandez. По буквам это K R I S T I N A H E R N A N D E Z. (Говорящий 2) Спасибо, Kristina.

Улучшение точности с помощью метаданных

Бывают случаи, когда даже человек-переводчик не может однозначно определить правильную транскрипцию. Например, если бы Кристина никогда не произносила свое имя по буквам, было бы невозможно (основываясь только на аудио) определить правильное написание ее имени.

Для дальнейшего повышения точности TurboScribe использует метаданные, прикрепленные к загружаемым аудио и видеофайлам (такие как имя файла, заголовок и описание), чтобы автоматически улучшать транскрипции терминов, которые невозможно однозначно определить только на основе аудио.

Например, если метаданные MP3 (заголовок, исполнитель или комментарий) содержат упоминание «Kristina Hernandez», все 3 режима с большей вероятностью правильно транскрибируют ее имя.

Подведение итогов

Подводя итог, TurboScribe предлагает три режима транскрипции:

Гепард обеспечивает точные транскрипции максимально быстро.
Дельфин стремится к идеальному балансу между точностью и скоростью.
Кит максимизирует точность, но требует немного больше времени. Это режим TurboScribe по умолчанию.

Лучший способ по-настоящему оценить их возможности – попробовать их самостоятельно. Начните бесплатно и транскрибируйте до 4 аудио или видеофайлов бесплатно каждый день.

TurboScribe