Режими транскрипції: пояснення

Сьогодні ми докладно розглянемо транскрипційний рушій TurboScribe, зосередившись на його трьох режимах транскрипції – Гепард, Дельфін і Кит.

У чому різниця між цими 3 режимами? Коротко:

Гепард – найшвидший режим. Він транскрибує 1 годину аудіо чи відео за 30 секунд. Він налаштований на максимально швидке створення транскрипції.
Дельфін забезпечує дуже високу точність, залишаючись дуже швидким. Для транскрипції 1 години аудіо чи відео потрібно близько 3 хвилин.
Кит налаштований на максимальну точність. Він транскрибує 1 годину аудіо чи відео менш ніж за 10 хвилин.

Під час завантаження файлу ви можете вибрати будь-який із цих 3 режимів ( Кит є режимом за замовчуванням).

То який же вибрати? Ми рекомендуємо почати з режиму за замовчуванням (Кит) для максимальної точності та перейти на Дельфіна чи Гепарда, коли вам потрібні транскрипції ще швидше.

Для тих, хто хоче краще зрозуміти, що відбувається під капотом, можете читати далі.

Whisper: Більше, ніж здається на перший погляд

Давайте детальніше розглянемо Whisper, AI-технологію, що лежить в основі транскрипції TurboScribe.

Whisper – це не просто одна AI-модель; насправді це сімейство п'яти моделей, кожна з яких має різний баланс між точністю та швидкістю.

На нижчому рівні Whisper починається з моделі «tiny» (з «лише» 39 мільйонами параметрів) і доходить до «large» (із 1,55 мільярдами параметрів).

«tiny» – найшвидша, але робить найбільше помилок. «base» і «small» працюють краще за більшість людей. «large» – найточніша (порівнянна з професійними транскрипторами та перекладачами), але потребує багато пам'яті та дорогого обладнання.

5 моделей Whisper

Сімейство Whisper містить 5 різних AI-моделей:

tiny — 39 мільйонів параметрів
base — 74 мільйони параметрів (використовується в режимі Гепард TurboScribe)
small — 244 мільйони параметрів (використовується в режимі Дельфін TurboScribe)
medium — 769 мільйонів параметрів
large — 1,55 мільярда параметрів (використовується в режимі Кит TurboScribe)

На жаль, якщо у вас немає особливо потужного комп'ютера або доступу до потужного GPU (графічного процесора), більшість людей матимуть проблеми з ефективним запуском моделей, більших за «base».

GPU – це секрет швидкої транскрипції аудіо. На жаль, вони також досить дорогі. На момент написання один Nvidia A100 – чіп, що "керує гонкою за AI" – коштує $6,715.00 на Amazon.

TurboScribe використовує GPU для значного прискорення транскрипції та виконання більшого обсягу роботи швидше.

Порівняння часу транскрипції

Давайте порівняємо кожен із режимів TurboScribe на нашому транскрипційному рушії з GPU, транскрибуючи 1-годинний аудіофайл про Другу світову війну.

Гепард

Гепард надає пріоритет створенню точних транскрипцій з максимальною швидкістю, використовуючи 74-мільйонну модель «base». Ось як виглядає транскрипція нашого 1-годинного аудіофайлу:

Це зайняло всього 20 секунд. Іншими словами, це швидко.

Дельфін

Дельфін, з 244 мільйонами параметрів, займає трохи більше ніж удвічі більше часу (що все ще досить швидко):

Кит

Нарешті, Киту потрібно близько 3 хвилин для транскрипції того самого 1-годинного аудіофайлу (з масивною 1,55-мільярдною моделлю Whisper «large-v2»):

Майте на увазі, що час транскрипції може дещо відрізнятися.

Наприклад, транскрипція великого відеофайлу розміром 4 ГБ (з 2 годинами аудіо) займе трохи більше часу, ніж менший MP3-файл розміром 100 МБ з тими ж 2 годинами аудіо – це переважно тому, що нам потрібно витратити більше часу на передачу, аналіз, попередню обробку та конвертацію вашого медіафайлу перед початком транскрипції.

Аудіофайли з невеликою кількістю виявленого людського мовлення (наприклад, аудіозапис з багатьма періодами тиші) зазвичай можна транскрибувати швидше. Крім того, транскрипція кількох файлів зазвичай швидша, ніж транскрипція одного файлу.

Порівняння точності

Для багатьох звичайних аудіо- та відеофайлів немає різниці між Гепардом, Дельфіном та Китом.

Дельфін та Кит особливо вирізняються у випадках, коли для розрізнення схожих за звучанням слів потрібні контекстні підказки.

Наприклад, у нечіткому, швидкому юридичному записі з високим рівнем фонового шуму термін «Habeas Corpus» був неправильно перекладений як «happy is porpoise» в режимі Гепард. Однак, базуючись на контексті навколишньої розмови (яка включала інші юридичні терміни), і Дельфін, і Кит правильно визначили, що «Habeas Corpus» є найбільш імовірним варіантом транскрипції.

Ось інший приклад: в аудіозаписі жінка на ім'я Крістіна Ернандес представляється і називає своє ім'я по літерах.

Гепард неправильно транскрибує її ім'я як «Christina» (замість «Kristina»):

(Мовець 1) Мене звати Christina Hernandez. По літерах це K R I S T I N A H E R N A N D E Z. (Мовець 2) Дякую, Christina.

Дельфін неправильно транскрибує перше використання її імені, але виправляє друге використання терміна (після того, як вона назвала своє ім'я по літерах):

(Мовець 1) Мене звати Christina Hernandez. По літерах це K R I S T I N A H E R N A N D E Z. (Мовець 2) Дякую, Kristina.

Кит правильно розпізнає обидва використання:

(Мовець 1) Мене звати Kristina Hernandez. По літерах це K R I S T I N A H E R N A N D E Z. (Мовець 2) Дякую, Kristina.

Покращення точності за допомогою метаданих

Бувають випадки, коли навіть людина-перекладач не може однозначно визначити правильну транскрипцію. Наприклад, якби Крістіна ніколи не називала своє ім'я по літерах, було б неможливо (лише на основі аудіо) визначити правильне написання її імені.

Щоб ще більше підвищити точність, TurboScribe використовує метадані, прикріплені до аудіо- та відеофайлів, які ви завантажуєте (такі як назва файлу, заголовок та опис), щоб автоматично покращити транскрипцію термінів, які неможливо однозначно визначити лише на основі аудіо.

Наприклад, якщо метадані MP3 (заголовок, виконавець чи коментар) містять посилання на «Kristina Hernandez», усі 3 режими з більшою ймовірністю правильно транскрибують її ім'я.

Підсумок

Підсумовуючи, TurboScribe пропонує три режими транскрипції:

Гепард забезпечує точні транскрипції якомога швидше.
Дельфін прагне досягти ідеального балансу між точністю та швидкістю.
Кит максимізує точність, але займає трохи більше часу. Це режим TurboScribe за замовчуванням.

Найкращий спосіб по-справжньому оцінити їхні можливості – спробувати їх самостійно. Почніть безкоштовно і транскрибуйте до 4 аудіо- або відеофайлів безкоштовно щодня.

TurboScribe