Modos de transcrição, explicados

Hoje, vamos nos aprofundar no motor de transcrição do TurboScribe, focando em seus três modos de transcrição – Cheetah, Dolphin e Whale.

Qual é a diferença entre esses 3 modos? Aqui está o TLDR:

Cheetah é o modo mais rápido. Ele transcreve 1 hora de áudio ou vídeo em 30 segundos. Ele é ajustado para lhe entregar uma transcrição o mais rápido possível.
Dolphin oferece uma precisão muito alta, ainda sendo muito rápido. Leva cerca de 3 minutos para transcrever 1 hora de áudio ou vídeo.
Whale é ajustado para a máxima precisão. Ele transcreve 1 hora de áudio ou vídeo em menos de 10 minutos.

Ao enviar um arquivo, você pode escolher entre qualquer um desses 3 modos ( Whale é o padrão).

Então, qual você deve escolher? Recomendamos começar com o padrão (Whale) para a máxima precisão e mudar para Dolphin ou Cheetah quando precisar de transcrições ainda mais rápidas.

Para aqueles que desejam ter uma ideia melhor do que está acontecendo sob o capô, sintam-se à vontade para continuar lendo.

Whisper: Mais do que Parece

Vamos dar uma olhada mais de perto no Whisper, a tecnologia de IA por trás das transcrições do TurboScribe.

Whisper não é apenas um único modelo de IA; na verdade, é uma família de cinco modelos, cada um com diferentes compromissos entre precisão e velocidade.

No nível inferior, Whisper começa com o modelo "tiny" (com "apenas" 39 milhões de parâmetros) e vai até "large" (com 1,55 bilhões de parâmetros).

"tiny" é o mais rápido, mas comete mais erros. "base" e "small" são melhores que a maioria das pessoas. "large" é o mais preciso (comparável a transcritores e tradutores profissionais), mas requer muita memória e hardware caro.

Os 5 Modelos do Whisper

A família Whisper contém 5 diferentes modelos de IA:

tiny — 39 milhões de parâmetros
base — 74 milhões de parâmetros (alimenta o modo Cheetah do TurboScribe)
small — 244 milhões de parâmetros (alimenta o modo Dolphin do TurboScribe)
medium — 769 milhões de parâmetros
large — 1,55 bilhões de parâmetros (alimenta o modo Whale do TurboScribe)

Infelizmente, a menos que você tenha um computador particularmente poderoso ou tenha acesso a uma GPU robusta (unidade de processamento gráfico), a maioria das pessoas terá dificuldade em executar eficientemente a maioria dos modelos maiores que "base".

As GPUs são o segredo para transcrever áudio rápido. Infelizmente, elas também são bastante caras. No momento em que escrevo, um único Nvidia A100 — o chip que “impulsiona a corrida pela IA” — custa $6.715,00 na Amazon.

O TurboScribe usa GPUs para acelerar significativamente a transcrição e fazer mais, mais rápido.

Comparando Tempos de Transcrição

Vamos comparar cada um dos modos do TurboScribe em nosso motor de transcrição com GPU, transcrevendo um arquivo de áudio de 1 hora sobre a Segunda Guerra Mundial.

Cheetah

Cheetah prioriza a entrega de transcrições precisas na velocidade máxima, alimentado pelo modelo "base" com 74 milhões de parâmetros. Veja como é a transcrição de nosso arquivo de áudio de 1 hora:

Isso levou apenas 20 segundos. Em outras palavras, é rápido.

Dolphin

Dolphin, com 244 milhões de parâmetros, leva um pouco mais que o dobro do tempo (o que ainda é bem rápido):

Whale

Finalmente, Whale leva cerca de 3 minutos para transcrever o mesmo arquivo de áudio de 1 hora (com o enorme modelo Whisper "large-v2" com 1,55 bilhões de parâmetros):

Lembre-se de que os tempos de transcrição podem variar ligeiramente.

Por exemplo, transcrever um grande arquivo de vídeo de 4 GB (com 2 horas de áudio) levará um pouco mais de tempo do que um arquivo MP3 menor de 100 MB com as mesmas 2 horas de áudio — isso se deve principalmente ao tempo gasto transferindo, analisando, pré-processando e convertendo seu arquivo de mídia antes de realmente iniciar a transcrição.

Arquivos de áudio com pouco discurso humano detectável (pense em uma gravação de áudio com muitos períodos de silêncio) geralmente podem ser transcritos mais rapidamente. Além disso, transcrever vários arquivos geralmente é mais rápido do que transcrever um único arquivo.

Comparando Precisão

Para muitos arquivos comuns de áudio e vídeo, não há diferença entre Cheetah, Dolphin e Whale.

Onde Dolphin e Whale realmente brilham é em casos onde pistas contextuais são necessárias para desambiguar palavras de som semelhante.

Por exemplo, em uma gravação legal fragmentada e rápida com altos níveis de ruído de fundo, o termo "Habeas Corpus" foi traduzido incorretamente como "habeis porpoise" com Cheetah. No entanto, com base no contexto da conversa circundante (que envolvia outros termos legais), tanto Dolphin quanto Whale determinaram corretamente que "Habeas Corpus" é a transcrição mais provável.

Aqui está outro exemplo: em uma gravação de áudio, uma mulher chamada Kristina Hernandez se apresenta e soletra seu nome.

Cheetah transcreve incorretamente seu nome como "Christina" (em vez de "Kristina"):

(Orador 1) Meu nome é Christina Hernandez. Isso se soletra K R I S T I N A H E R N A N D E Z. (Orador 2) Obrigado, Christina.

Dolphin transcreve incorretamente a primeira vez que ela usa seu nome, mas corrige o segundo uso do termo (depois que ela soletra seu nome):

(Orador 1) Meu nome é Christina Hernandez. Isso se soletra K R I S T I N A H E R N A N D E Z. (Orador 2) Obrigado, Kristina.

Whale acerta em ambos os usos:

(Orador 1) Meu nome é Kristina Hernandez. Isso se soletra K R I S T I N A H E R N A N D E Z. (Orador 2) Obrigado, Kristina.

Melhorando a Precisão com Metadados

Há casos em que nem mesmo um tradutor humano pode determinar inequivocamente uma transcrição correta. Por exemplo, se Kristina nunca tivesse soletrado seu nome, seria impossível (com base apenas no áudio) determinar a grafia correta de seu nome.

Para melhorar ainda mais a precisão, o TurboScribe usa metadados anexados aos arquivos de áudio e vídeo que você envia (como o nome do arquivo, título e descrição) para melhorar automaticamente as transcrições de termos que não podem ser determinados inequivocamente com base apenas no áudio.

Por exemplo, se o título, artista ou comentário dos metadados do MP3 fizer referência a "Kristina Hernandez", todos os 3 modos têm muito mais chances de transcrever seu nome corretamente.

Concluindo

Em resumo, TurboScribe oferece três modos de transcrição:

Cheetah fornece transcrições precisas o mais rápido possível.
Dolphin busca o equilíbrio perfeito entre precisão e velocidade.
Whale maximiza a precisão, mas leva um pouco mais de tempo. É o modo padrão do TurboScribe.

A melhor maneira de realmente entender suas capacidades é experimentando-os você mesmo. Comece gratuitamente e transcreva até 4 arquivos de áudio ou vídeo sem custo todos os dias.

TurboScribe