Giriş yapKaydol
TurboScribe modes banner

Transkripsiyon modları, açıklaması

23 Ağustos 2023
Leif Foged
Leif Foged

Bugün, TurboScribe'ın transkripsiyon motoruna, üç transkripsiyon moduna – Çita, Yunus ve Balina – odaklanarak derinlemesine bakacağız.

Bu 3 mod arasındaki fark nedir? İşte kısa özet:

  • 🐆 Çita en hızlı moddur. 1 saatlik ses veya videoyu 30 saniyede transkribe eder. Size mümkün olan en hızlı şekilde transkript sunmak için ayarlanmıştır.
  • 🐬 Yunus çok hızlı olmasının yanı sıra çok yüksek doğruluk sunar. 1 saatlik ses veya videoyu transkribe etmesi yaklaşık 3 dakika sürer.
  • 🐳 Balina maksimum doğruluk için ayarlanmıştır. 1 saatlik ses veya videoyu 10 dakikadan kısa sürede transkribe eder.

Bir dosya yüklerken, bu 3 moddan herhangi birini seçebilirsiniz (🐳 Balina varsayılandır).

Peki hangisini seçmelisiniz? Maksimum doğruluk için varsayılan mod olan Balina ile başlamanızı ve transkriptlere daha hızlı ihtiyacınız olduğunda Yunus veya Çita'ya geçmenizi öneriyoruz.

Perde arkasında neler olduğunu daha iyi anlamak isteyenler için okumaya devam edebilirsiniz.

Whisper: Göründüğünden Fazlası

Audio waves

TurboScribe'ın transkripsiyon teknolojisinin arkasındaki AI teknolojisi olan Whisper'a daha yakından bakalım.

Whisper sadece tek bir AI modeli değil; aslında doğruluk ve hız arasında değişen dengelere sahip beş modelden oluşan bir aile.

Whisper, alt seviyede "tiny" model ile başlıyor ("sadece" 39 milyon parametre) ve "large" modele kadar çıkıyor (1.55 milyar parametre).

"tiny" en hızlısı, ancak en çok hatayı yapıyor. "base" ve "small" çoğu insandan daha iyi. "large" en doğru sonucu veriyor (profesyonel transkriptçiler ve çevirmenlerle kıyaslanabilir), ancak çok fazla bellek ve pahalı donanım gerektiriyor.

Whisper'ın 5 Modeli

Whisper ailesi 5 farklı AI modelinden oluşur:

  • tiny — 39 milyon parametre
  • base — 74 milyon parametre (TurboScribe'ın 🐆 Çita modunu destekler)
  • small — 244 milyon parametre (TurboScribe'ın 🐬 Yunus modunu destekler)
  • medium — 769 milyon parametre
  • large — 1.55 milyar parametre (TurboScribe'ın 🐳 Balina modunu destekler)

Ne yazık ki, özellikle güçlü bir bilgisayarınız veya güçlü bir GPU'ya (grafik işlem birimi) erişiminiz yoksa, çoğu kişi "base"den daha büyük modelleri verimli bir şekilde çalıştırmakta zorlanacaktır.

GPU'lar sesi hızlı transkribe etmenin sırrıdır. Ne yazık ki, oldukça pahalıdırlar. Bu yazının yazıldığı tarih itibarıyla, "AI yarışına güç veren" tek bir Nvidia A100 çipi $6,715.00 fiyatına satılıyor.

TurboScribe, transkripsiyon işlemini önemli ölçüde hızlandırmak ve daha fazlasını daha hızlı yapmak için GPU'ları kullanır.

Transkripsiyon Sürelerini Karşılaştırma

GPU destekli transkripsiyon motorumuzda TurboScribe'ın her bir modunu, İkinci Dünya Savaşı hakkında 1 saatlik bir ses dosyasını transkribe ederek karşılaştıralım.

🐆 Çita

Çita, 74 milyon parametrelik "base" model tarafından desteklenen, maksimum hızda doğru transkriptler sunmaya öncelik verir. İşte 1 saatlik ses dosyamızı transkribe etmek böyle görünüyor:

Bu sadece 20 saniye sürdü. Başka bir deyişle, hızlı.

🐬 Yunus

244 milyon parametreye sahip Yunus, iki kattan biraz daha fazla zaman alıyor (ki bu hala oldukça hızlı):

🐳 Balina

Son olarak, Balina aynı 1 saatlik ses dosyasını transkribe etmek için yaklaşık 3 dakika alıyor (devasa 1.55 milyar parametrelik Whisper "large-v2" modeli ile):

Transkripsiyon sürelerinin biraz değişebileceğini unutmayın.

Örneğin, 4GB'lık büyük bir video dosyasını (2 saatlik ses içeren) transkribe etmek, aynı 2 saatlik sese sahip daha küçük bir 100MB MP3 dosyasına göre biraz daha fazla zaman alacaktır - bu çoğunlukla medya dosyanızı transfer etmek, analiz etmek, ön işlemek ve dönüştürmek için daha fazla zaman harcamamız gerektiğinden kaynaklanır.

Çok az algılanabilir insan konuşması içeren ses dosyaları (çok fazla sessiz periyot içeren bir ses kaydı düşünün) genellikle daha hızlı transkribe edilebilir. Ayrıca, birden fazla dosyayı transkribe etmek genellikle tek bir dosyayı transkribe etmekten daha hızlıdır.

Doğruluğu Karşılaştırma

Birçok yaygın ses ve video dosyası için 🐆 Çita, 🐬 Yunus ve 🐳 Balina arasında hiçbir fark yoktur.

🐬 Yunus ve 🐳 Balina'nın gerçekten parladığı yerler, benzer sesli kelimeleri ayırt etmek için bağlamsal ipuçları gerektiren durumlardır.

Örneğin, yüksek miktarda arka plan gürültüsü olan kesik kesik, hızlı tempolu bir hukuki kayıtta, "Habeas Corpus" terimi 🐆 Çita ile "happy is porpoise" olarak yanlış çevrildi. Ancak, çevredeki konuşmanın bağlamına dayanarak (diğer hukuki terimleri içeren), hem 🐬 Yunus hem de 🐳 Balina "Habeas Corpus"un en olası transkripsiyon olduğunu doğru şekilde belirledi.

İşte başka bir örnek: bir ses kaydında, Kristina Hernandez adında bir kadın kendini tanıtıyor ve ismini heceliyor.

🐆 Çita onun ismini "Christina" olarak yanlış transkribe ediyor ("Kristina" yerine):

(Konuşmacı 1) Benim adım Christina Hernandez. K R I S T I N A H E R N A N D E Z şeklinde hecelenir. (Konuşmacı 2) Teşekkürler, Christina.

🐬 Yunus isminin ilk kullanımını yanlış transkribe ediyor, ancak terimin ikinci kullanımını düzeltiyor (ismini heceledikten sonra):

(Konuşmacı 1) Benim adım Christina Hernandez. K R I S T I N A H E R N A N D E Z şeklinde hecelenir. (Konuşmacı 2) Teşekkürler, Kristina.

🐳 Balina her iki kullanımı da doğru alıyor:

(Konuşmacı 1) Benim adım Kristina Hernandez. K R I S T I N A H E R N A N D E Z şeklinde hecelenir. (Konuşmacı 2) Teşekkürler, Kristina.

Metaveri ile Doğruluğu Artırma

İnsan çevirmenin bile doğru transkripsiyon yapamayacağı durumlar vardır. Örneğin, eğer Kristina ismini hiç hecelememişse, sadece sese dayanarak isminin doğru yazılışını belirlemek imkansız olurdu.

Doğruluğu daha da artırmak için, TurboScribe yüklediğiniz ses ve video dosyalarına ekli metaverileri (dosya adı, başlık ve açıklama gibi) kullanarak, yalnızca sese dayanarak net bir şekilde belirlenemeyen terimlerin transkripsiyonlarını otomatik olarak iyileştirir.

Örneğin, MP3 metaveri başlığı, sanatçısı veya yorumu "Kristina Hernandez"e atıfta bulunuyorsa, her 3 mod da onun ismini doğru transkribe etme olasılığı çok daha yüksektir.

Sonuç

Özetlemek gerekirse, TurboScribe üç transkripsiyon modu sunar:

  • 🐆 Çita mümkün olan en hızlı şekilde doğru transkripsiyonlar sağlar.
  • 🐬 Yunus doğruluk ve hız arasında mükemmel dengeyi hedefler.
  • 🐳 Balina doğruluğu en üst düzeye çıkarır, ancak biraz daha uzun sürer. TurboScribe'ın varsayılan modudur.

Yeteneklerini gerçekten kavramanın en iyi yolu, kendiniz deneyerek görmektir. Ücretsiz başlayın ve her gün 4 adede kadar ses veya video dosyasını ücretsiz olarak transkribe edin.

TurboScribe hakkında

TurboScribe, yapay zeka ile ses ve videoları saniyeler içinde doğru metne dönüştürür.

TurboScribe hakkında daha fazla bilgi edinin

Transkripsiyon yapmaya hazır mısınız?

Tam erişim elde edin...

Sınırsız transkripsiyon
Bir kişi için sınırsız transkripsiyon.
🎯
%99,8 doğruluk
Dünyanın en doğru ve güçlü yapay zeka konuşma metne transkripsiyon teknolojisi Whisper tarafından desteklenmektedir.
🌍
98+ dil
TurboScribe dünyanın konuşulan dillerini destekler.
🚀
10 saatlik yüklemeler
Her dosya 10 saate / 5 GB'a kadar olabilir. Aynı anda 50 dosya yükleyin.
👥
Konuşmacı tanıma
Toplantılar, röportajlar ve podcast'ler için harika.