ورود به سیستمثبت‌نام
TurboScribe modes banner

حالت‌های رونویسی، توضیح داده شده

۱ شهریور ۱۴۰۲
Leif Foged
Leif Foged

امروز، به موتور رونویسی TurboScribe می‌پردازیم و بر سه حالت رونویسی آن - یوزپلنگ، دلفین و نهنگ تمرکز می‌کنیم.

تفاوت بین این ۳ حالت چیست؟ خلاصه مطلب:

  • 🐆 یوزپلنگ سریع‌ترین حالت است. ۱ ساعت صوت یا ویدئو را در ۳۰ ثانیه رونویسی می‌کند. برای ارائه سریع‌ترین رونویسی ممکن تنظیم شده است.
  • 🐬 دلفین دقت بسیار بالایی را ارائه می‌دهد، در حالی که همچنان بسیار سریع است. حدود ۳ دقیقه طول می‌کشد تا ۱ ساعت صوت یا ویدئو را رونویسی کند.
  • 🐳 نهنگ برای حداکثر دقت تنظیم شده است. ۱ ساعت صوت یا ویدئو را در کمتر از ۱۰ دقیقه رونویسی می‌کند.

هنگام آپلود فایل، می‌توانید بین هر یک از این ۳ حالت انتخاب کنید (🐳 نهنگ حالت پیش‌فرض است).

پس کدام را باید انتخاب کنید؟ ما پیشنهاد می‌کنیم با حالت پیش‌فرض (نهنگ) برای حداکثر دقت شروع کنید و زمانی که به رونویسی‌های سریع‌تر نیاز دارید به دلفین یا یوزپلنگ تغییر دهید.

برای کسانی که می‌خواهند درک بهتری از آنچه در پشت صحنه اتفاق می‌افتد داشته باشند، می‌توانید به خواندن ادامه دهید.

Whisper: فراتر از آنچه به نظر می‌رسد

Audio waves

بیایید نگاه دقیق‌تری به Whisper، فناوری هوش مصنوعی پشت رونویسی TurboScribe بیندازیم.

Whisper فقط یک مدل هوش مصنوعی نیست؛ در واقع خانواده‌ای از پنج مدل است که هر کدام موازنه متفاوتی بین دقت و سرعت دارند.

در پایین‌ترین سطح، Whisper با مدل «کوچک» (با «فقط» ۳۹ میلیون پارامتر) شروع می‌شود و تا «بزرگ» (با ۱.۵۵ میلیارد پارامتر) ادامه می‌یابد.

«کوچک» سریع‌ترین است، اما بیشترین خطاها را دارد. «پایه» و «کوچک» از اکثر انسان‌ها بهتر هستند. «بزرگ» دقیق‌ترین است (قابل مقایسه با مترجمان و رونویسان حرفه‌ای)، اما به حافظه زیاد و سخت‌افزار گران‌قیمت نیاز دارد.

۵ مدل Whisper

خانواده Whisper شامل ۵ مدل هوش مصنوعی مختلف است:

  • کوچک — ۳۹ میلیون پارامتر
  • پایه — ۷۴ میلیون پارامتر (قدرت حالت 🐆 یوزپلنگ TurboScribe)
  • کوچک — ۲۴۴ میلیون پارامتر (قدرت حالت 🐬 دلفین TurboScribe)
  • متوسط — ۷۶۹ میلیون پارامتر
  • بزرگ — ۱.۵۵ میلیارد پارامتر (قدرت حالت 🐳 نهنگ TurboScribe)

متأسفانه، مگر اینکه کامپیوتر قدرتمندی داشته باشید یا به یک GPU (واحد پردازش گرافیکی) قوی دسترسی داشته باشید، اکثر افراد در اجرای کارآمد اکثر مدل‌های بزرگتر از «پایه» مشکل خواهند داشت.

GPUها راز رونویسی سریع صوت هستند. متأسفانه، آنها همچنین بسیار گران هستند. در زمان نگارش این مطلب، یک Nvidia A100 - تراشه‌ای که "مسابقه برای هوش مصنوعی را قدرت می‌بخشد" - ۶,۷۱۵.۰۰ دلار در آمازون قیمت دارد.

TurboScribe از GPUها برای افزایش قابل توجه سرعت رونویسی و انجام کار بیشتر در زمان کمتر استفاده می‌کند.

مقایسه زمان‌های رونویسی

بیایید هر یک از حالت‌های TurboScribe را در موتور رونویسی مبتنی بر GPU با رونویسی یک فایل صوتی ۱ ساعته درباره جنگ جهانی دوم مقایسه کنیم.

🐆 یوزپلنگ

یوزپلنگ با استفاده از مدل «پایه» ۷۴ میلیون پارامتری، اولویت را به ارائه رونویسی‌های دقیق با حداکثر سرعت می‌دهد. نحوه رونویسی فایل صوتی ۱ ساعته ما به این صورت است:

این فقط ۲۰ ثانیه طول کشید. به عبارت دیگر، سریع است.

🐬 دلفین

دلفین، با ۲۴۴ میلیون پارامتر، کمی بیش از دو برابر زمان می‌برد (که هنوز هم نسبتاً سریع است):

🐳 نهنگ

در نهایت، نهنگ حدود ۳ دقیقه طول می‌کشد تا همان فایل صوتی ۱ ساعته را (با مدل عظیم Whisper «large-v2» با ۱.۵۵ میلیارد پارامتر) رونویسی کند:

به خاطر داشته باشید که زمان‌های رونویسی می‌توانند کمی متفاوت باشند.

برای مثال، رونویسی یک فایل ویدئویی بزرگ ۴ گیگابایتی (با ۲ ساعت صوت) کمی بیشتر از یک فایل MP3 کوچکتر ۱۰۰ مگابایتی با همان ۲ ساعت صوت زمان می‌برد - این عمدتاً به این دلیل است که باید زمان بیشتری را صرف انتقال، تحلیل، پیش‌پردازش و تبدیل فایل رسانه‌ای شما قبل از شروع واقعی رونویسی کنیم.

فایل‌های صوتی با گفتار انسانی قابل تشخیص کم (مثل یک ضبط صوتی با دوره‌های سکوت طولانی) معمولاً سریع‌تر رونویسی می‌شوند. علاوه بر این، رونویسی چندین فایل معمولاً سریع‌تر از رونویسی یک فایل است.

مقایسه دقت

برای بسیاری از فایل‌های صوتی و تصویری معمولی، هیچ تفاوتی بین 🐆 یوزپلنگ، 🐬 دلفین و 🐳 نهنگ وجود ندارد.

جایی که 🐬 دلفین و 🐳 نهنگ واقعاً می‌درخشند در مواردی است که سرنخ‌های متنی برای تشخیص کلمات با تلفظ مشابه مورد نیاز است.

برای مثال، در یک ضبط حقوقی سریع و پر سر و صدا با میزان بالای نویز پس‌زمینه، اصطلاح «Habeas Corpus» با 🐆 یوزپلنگ به اشتباه «happy is porpoise» ترجمه شد. با این حال، بر اساس متن مکالمه اطراف (که شامل اصطلاحات حقوقی دیگر بود)، هم 🐬 دلفین و هم 🐳 نهنگ به درستی تشخیص دادند که «Habeas Corpus» محتمل‌ترین رونویسی است.

یک مثال دیگر: در یک ضبط صوتی، زنی به نام Kristina Hernandez خود را معرفی می‌کند و نام خود را هجی می‌کند.

🐆 یوزپلنگ نام او را به اشتباه «Christina» (به جای «Kristina») رونویسی می‌کند:

(گوینده ۱) اسم من Christina Hernandez است. که به صورت K R I S T I N A H E R N A N D E Z هجی می‌شود. (گوینده ۲) ممنون، Christina.

🐬 دلفین اولین استفاده از نام او را اشتباه رونویسی می‌کند، اما دومین استفاده از عبارت را (پس از هجی کردن نامش) تصحیح می‌کند:

(گوینده ۱) اسم من Christina Hernandez است. که به صورت K R I S T I N A H E R N A N D E Z هجی می‌شود. (گوینده ۲) ممنون، Kristina.

🐳 نهنگ هر دو مورد استفاده را درست تشخیص می‌دهد:

(گوینده ۱) اسم من Kristina Hernandez است. که به صورت K R I S T I N A H E R N A N D E Z هجی می‌شود. (گوینده ۲) ممنون، Kristina.

بهبود دقت با فراداده

مواردی وجود دارد که حتی یک مترجم انسانی نمی‌تواند به طور قطعی رونویسی صحیح را تشخیص دهد. برای مثال، اگر Kristina هرگز نام خود را هجی نمی‌کرد، تعیین املای صحیح نام او (تنها بر اساس صدا) غیرممکن می‌بود.

برای بهبود بیشتر دقت، TurboScribe از فراداده متصل به فایل‌های صوتی و تصویری که آپلود می‌کنید (مانند نام فایل، عنوان و توضیحات) برای بهبود خودکار رونویسی عباراتی که نمی‌توان تنها بر اساس صدا به طور قطعی تعیین کرد، استفاده می‌کند.

برای مثال، اگر عنوان، هنرمند یا توضیحات فراداده MP3 به «Kristina Hernandez» اشاره کند، احتمال اینکه هر ۳ حالت نام او را به درستی رونویسی کنند بسیار بیشتر است.

جمع‌بندی

به طور خلاصه، TurboScribe سه حالت رونویسی ارائه می‌دهد:

  • 🐆 یوزپلنگ رونویسی‌های دقیق را در سریع‌ترین زمان ممکن ارائه می‌دهد.
  • 🐬 دلفین به دنبال تعادل کامل بین دقت و سرعت است.
  • 🐳 نهنگ دقت را به حداکثر می‌رساند، اما کمی بیشتر طول می‌کشد. حالت پیش‌فرض TurboScribe است.

بهترین راه برای درک واقعی قابلیت‌های آنها، امتحان کردن خودتان است. به صورت رایگان شروع کنید و هر روز تا ۴ فایل صوتی یا تصویری را به صورت رایگان رونویسی کنید.

درباره TurboScribe

TurboScribe با استفاده از هوش مصنوعی، صدا و ویدئو را در چند ثانیه به متن دقیق تبدیل می‌کند.

درباره TurboScribe بیشتر بدانید

آماده شروع رونویسی هستید؟

دسترسی کامل به...

رونویسی‌های نامحدود
رونویسی نامحدود برای یک نفر.
🎯
دقت ۹۹٫۸٪
قدرت گرفته از Whisper، دقیق‌ترین و قدرتمندترین فناوری تبدیل گفتار به متن با هوش مصنوعی در جهان.
🌍
+۹۸ زبان
TurboScribe از زبان‌های گفتاری دنیا پشتیبانی می‌کند.
🚀
آپلود فایل‌های تا ۱۰ ساعت
هر فایل می‌تواند تا ۱۰ ساعت / ۵ گیگابایت باشد. ۵۰ فایل را همزمان آپلود کنید.
👥
تشخیص گوینده
مناسب برای جلسات، مصاحبه‌ها و پادکست‌ها.