Режими на транскрипция, обяснени

Днес ще разгледаме по-подробно транскрипционната система на TurboScribe, като се фокусираме върху трите режима на транскрипция – Гепард, Делфин и Кит.

Каква е разликата между тези 3 режима? Ето накратко:

Гепард е най-бързият режим. Транскрибира 1 час аудио или видео за 30 секунди. Настроен е да предостави транскрипцията възможно най-бързо.
Делфин осигурява много висока точност, като същевременно е много бърз. Отнема около 3 минути за транскрибиране на 1 час аудио или видео.
Кит е настроен за максимална точност. Транскрибира 1 час аудио или видео за по-малко от 10 минути.

При качване на файл можете да изберете между тези 3 режима ( Кит е режимът по подразбиране).

Кой да изберете? Препоръчваме да започнете с режима по подразбиране (Кит) за максимална точност и да превключите на Делфин или Гепард, когато се нуждаете от още по-бързи транскрипции.

За тези от вас, които искат по-добра представа какво се случва зад кулисите, продължете да четете.

Whisper: Повече от това, което се вижда

Нека разгледаме по-отблизо Whisper, AI технологията зад транскрипциите на TurboScribe.

Whisper не е просто един AI модел; всъщност това е семейство от пет модела, всеки от които с различен баланс между точност и скорост.

В долния край Whisper започва с модела "tiny" (с "едва" 39 милиона параметъра) и стига до "large" (с 1.55 милиарда параметъра).

"tiny" е най-бърз, но прави най-много грешки. "base" и "small" са по-добри от повечето хора. "large" е най-точен (сравним с професионални транскриптори и преводачи), но изисква много памет и скъп хардуер.

5-те модела на Whisper

Семейството Whisper съдържа 5 различни AI модела:

tiny — 39 милиона параметъра
base — 74 милиона параметъра (захранва режима Гепард на TurboScribe)
small — 244 милиона параметъра (захранва режима Делфин на TurboScribe)
medium — 769 милиона параметъра
large — 1.55 милиарда параметъра (захранва режима Кит на TurboScribe)

За съжаление, освен ако нямате особено мощен компютър или достъп до мощен GPU (графичен процесор), повечето хора ще се затруднят да стартират ефективно модели, по-големи от "base".

GPU-тата са тайната за бърза транскрипция на аудио. За съжаление, те са и доста скъпи. Към момента на писане, един Nvidia A100 — чипът "задвижващ надпреварата за AI" — струва $6,715.00 в Amazon.

TurboScribe използва GPU-та за значително ускоряване на транскрипцията и постигане на повече резултати, по-бързо.

Сравнение на времената за транскрипция

Нека сравним всеки от режимите на TurboScribe на нашия GPU-базиран транскрипционен двигател, като транскрибираме 1-часов аудио файл за Втората световна война.

Гепард

Гепард приоритизира предоставянето на точни транскрипции с максимална скорост, задвижван от 74-милионния параметричен модел "base". Ето как изглежда транскрибирането на нашия 1-часов аудио файл:

Това отне само 20 секунди. С други думи, той е бърз.

Делфин

Делфин, с 244 милиона параметъра, отнема малко повече от двойно време (което все пак е доста бързо):

Кит

Накрая, Кит отнема около 3 минути за транскрибиране на същия 1-часов аудио файл (с масивния 1.55 милиарда параметъра Whisper модел "large-v2"):

Имайте предвид, че времената за транскрипция могат леко да варират.

Например, транскрибирането на голям 4GB видео файл (с 2 часа аудио) ще отнеме малко повече време от по-малък 100MB MP3 файл със същите 2 часа аудио — това е главно защото трябва да отделим повече време за прехвърляне, анализиране, предварителна обработка и конвертиране на вашия медиен файл, преди да започнем същинската транскрипция.

Аудио файлове с малко откриваема човешка реч (представете си аудио запис с много периоди на тишина) обикновено могат да бъдат транскрибирани по-бързо. Освен това, транскрибирането на множество файлове обикновено е по-бързо от транскрибирането на един файл.

Сравнение на точността

За много често срещани аудио и видео файлове няма разлика между Гепард, Делфин и Кит.

Където Делфин и Кит наистина блестят е в случаи, където са необходими контекстуални подсказки за разграничаване на подобно звучащи думи.

Например, в накъсан, бърз правен запис с високи нива на фонов шум, терминът "Habeas Corpus" беше погрешно преведен като "happy is porpoise" с Гепард. Въпреки това, базирайки се на контекста на околния разговор (който включваше други правни термини), както Делфин, така и Кит правилно определиха, че "Habeas Corpus" е най-вероятната транскрипция.

Ето друг пример: в аудио запис, жена на име Кристина Ернандес се представя и изписва името си.

Гепард неправилно транскрибира името ѝ като "Christina" (вместо "Kristina"):

(Говорител 1) Казвам се Christina Hernandez. Това се изписва K R I S T I N A H E R N A N D E Z. (Говорител 2) Благодаря, Christina.

Делфин неправилно транскрибира първата употреба на името ѝ, но коригира втората употреба на термина (след като тя изписва името си):

(Говорител 1) Казвам се Christina Hernandez. Това се изписва K R I S T I N A H E R N A N D E Z. (Говорител 2) Благодаря, Kristina.

Кит получава и двете употреби правилно:

(Говорител 1) Казвам се Kristina Hernandez. Това се изписва K R I S T I N A H E R N A N D E Z. (Говорител 2) Благодаря, Kristina.

Подобряване на точността с метаданни

Има случаи, когато дори човек преводач не може еднозначно да определи правилната транскрипция. Например, ако Кристина никога не беше изписала името си, щеше да бъде невъзможно (базирано само на аудиото) да се определи правилното изписване на името ѝ.

За да подобри точността още повече, TurboScribe използва метаданни, прикрепени към аудио и видео файловете, които качвате (като име на файла, заглавие и описание), за да подобри автоматично транскрипциите на термини, които не могат да бъдат еднозначно определени само въз основа на аудиото.

Например, ако заглавието, изпълнителят или коментарът в MP3 метаданните споменават "Kristina Hernandez", и трите режима са много по-вероятно да транскрибират името ѝ правилно.

Заключение

Накратко, TurboScribe предлага три режима на транскрипция:

Гепард осигурява точни транскрипции възможно най-бързо.
Делфин се стреми към перфектния баланс между точност и скорост.
Кит максимизира точността, но отнема малко повече време. Това е режимът по подразбиране на TurboScribe.

Най-добрият начин да разберете истински техните възможности е като ги изпробвате сами. Започнете безплатно и транскрибирайте до 4 аудио или видео файла безплатно всеки ден.

TurboScribe