امروز، به موتور رونویسی TurboScribe میپردازیم و بر سه حالت رونویسی آن - یوزپلنگ، دلفین و نهنگ تمرکز میکنیم.
تفاوت بین این ۳ حالت چیست؟ خلاصه مطلب:
یوزپلنگ سریعترین حالت است. ۱ ساعت صوت یا ویدئو را در ۳۰ ثانیه رونویسی میکند. برای ارائه سریعترین رونویسی ممکن تنظیم شده است.
دلفین دقت بسیار بالایی را ارائه میدهد، در حالی که همچنان بسیار سریع است. حدود ۳ دقیقه طول میکشد تا ۱ ساعت صوت یا ویدئو را رونویسی کند.
نهنگ برای حداکثر دقت تنظیم شده است. ۱ ساعت صوت یا ویدئو را در کمتر از ۱۰ دقیقه رونویسی میکند.
هنگام آپلود فایل، میتوانید بین هر یک از این ۳ حالت انتخاب کنید ( نهنگ حالت پیشفرض است).
پس کدام را باید انتخاب کنید؟ ما پیشنهاد میکنیم با حالت پیشفرض (نهنگ) برای حداکثر دقت شروع کنید و زمانی که به رونویسیهای سریعتر نیاز دارید به دلفین یا یوزپلنگ تغییر دهید.
برای کسانی که میخواهند درک بهتری از آنچه در پشت صحنه اتفاق میافتد داشته باشند، میتوانید به خواندن ادامه دهید.
Whisper: فراتر از آنچه به نظر میرسد
بیایید نگاه دقیقتری به Whisper، فناوری هوش مصنوعی پشت رونویسی TurboScribe بیندازیم.
Whisper فقط یک مدل هوش مصنوعی نیست؛ در واقع خانوادهای از پنج مدل است که هر کدام موازنه متفاوتی بین دقت و سرعت دارند.
در پایینترین سطح، Whisper با مدل «کوچک» (با «فقط» ۳۹ میلیون پارامتر) شروع میشود و تا «بزرگ» (با ۱.۵۵ میلیارد پارامتر) ادامه مییابد.
«کوچک» سریعترین است، اما بیشترین خطاها را دارد. «پایه» و «کوچک» از اکثر انسانها بهتر هستند. «بزرگ» دقیقترین است (قابل مقایسه با مترجمان و رونویسان حرفهای)، اما به حافظه زیاد و سختافزار گرانقیمت نیاز دارد.
۵ مدل Whisper
خانواده Whisper شامل ۵ مدل هوش مصنوعی مختلف است:
- کوچک — ۳۹ میلیون پارامتر
- پایه — ۷۴ میلیون پارامتر (قدرت حالت
یوزپلنگ TurboScribe)
- کوچک — ۲۴۴ میلیون پارامتر (قدرت حالت
دلفین TurboScribe)
- متوسط — ۷۶۹ میلیون پارامتر
- بزرگ — ۱.۵۵ میلیارد پارامتر (قدرت حالت
نهنگ TurboScribe)
متأسفانه، مگر اینکه کامپیوتر قدرتمندی داشته باشید یا به یک GPU (واحد پردازش گرافیکی) قوی دسترسی داشته باشید، اکثر افراد در اجرای کارآمد اکثر مدلهای بزرگتر از «پایه» مشکل خواهند داشت.
GPUها راز رونویسی سریع صوت هستند. متأسفانه، آنها همچنین بسیار گران هستند. در زمان نگارش این مطلب، یک Nvidia A100 - تراشهای که "مسابقه برای هوش مصنوعی را قدرت میبخشد" - ۶,۷۱۵.۰۰ دلار در آمازون قیمت دارد.
TurboScribe از GPUها برای افزایش قابل توجه سرعت رونویسی و انجام کار بیشتر در زمان کمتر استفاده میکند.
مقایسه زمانهای رونویسی
بیایید هر یک از حالتهای TurboScribe را در موتور رونویسی مبتنی بر GPU با رونویسی یک فایل صوتی ۱ ساعته درباره جنگ جهانی دوم مقایسه کنیم.
یوزپلنگ
یوزپلنگ با استفاده از مدل «پایه» ۷۴ میلیون پارامتری، اولویت را به ارائه رونویسیهای دقیق با حداکثر سرعت میدهد. نحوه رونویسی فایل صوتی ۱ ساعته ما به این صورت است:
این فقط ۲۰ ثانیه طول کشید. به عبارت دیگر، سریع است.
دلفین
دلفین، با ۲۴۴ میلیون پارامتر، کمی بیش از دو برابر زمان میبرد (که هنوز هم نسبتاً سریع است):
نهنگ
در نهایت، نهنگ حدود ۳ دقیقه طول میکشد تا همان فایل صوتی ۱ ساعته را (با مدل عظیم Whisper «large-v2» با ۱.۵۵ میلیارد پارامتر) رونویسی کند:
به خاطر داشته باشید که زمانهای رونویسی میتوانند کمی متفاوت باشند.
برای مثال، رونویسی یک فایل ویدئویی بزرگ ۴ گیگابایتی (با ۲ ساعت صوت) کمی بیشتر از یک فایل MP3 کوچکتر ۱۰۰ مگابایتی با همان ۲ ساعت صوت زمان میبرد - این عمدتاً به این دلیل است که باید زمان بیشتری را صرف انتقال، تحلیل، پیشپردازش و تبدیل فایل رسانهای شما قبل از شروع واقعی رونویسی کنیم.
فایلهای صوتی با گفتار انسانی قابل تشخیص کم (مثل یک ضبط صوتی با دورههای سکوت طولانی) معمولاً سریعتر رونویسی میشوند. علاوه بر این، رونویسی چندین فایل معمولاً سریعتر از رونویسی یک فایل است.
مقایسه دقت
برای بسیاری از فایلهای صوتی و تصویری معمولی، هیچ تفاوتی بین یوزپلنگ،
دلفین و
نهنگ وجود ندارد.
جایی که دلفین و
نهنگ واقعاً میدرخشند در مواردی است که سرنخهای متنی برای تشخیص کلمات با تلفظ مشابه مورد نیاز است.
برای مثال، در یک ضبط حقوقی سریع و پر سر و صدا با میزان بالای نویز پسزمینه، اصطلاح «Habeas Corpus» با یوزپلنگ به اشتباه «happy is porpoise» ترجمه شد. با این حال، بر اساس متن مکالمه اطراف (که شامل اصطلاحات حقوقی دیگر بود)، هم
دلفین و هم
نهنگ به درستی تشخیص دادند که «Habeas Corpus» محتملترین رونویسی است.
یک مثال دیگر: در یک ضبط صوتی، زنی به نام Kristina Hernandez خود را معرفی میکند و نام خود را هجی میکند.
یوزپلنگ نام او را به اشتباه «Christina» (به جای «Kristina») رونویسی میکند:
(گوینده ۱) اسم من Christina Hernandez است. که به صورت K R I S T I N A H E R N A N D E Z هجی میشود. (گوینده ۲) ممنون، Christina.
دلفین اولین استفاده از نام او را اشتباه رونویسی میکند، اما دومین استفاده از عبارت را (پس از هجی کردن نامش) تصحیح میکند:
(گوینده ۱) اسم من Christina Hernandez است. که به صورت K R I S T I N A H E R N A N D E Z هجی میشود. (گوینده ۲) ممنون، Kristina.
نهنگ هر دو مورد استفاده را درست تشخیص میدهد:
(گوینده ۱) اسم من Kristina Hernandez است. که به صورت K R I S T I N A H E R N A N D E Z هجی میشود. (گوینده ۲) ممنون، Kristina.
بهبود دقت با فراداده
مواردی وجود دارد که حتی یک مترجم انسانی نمیتواند به طور قطعی رونویسی صحیح را تشخیص دهد. برای مثال، اگر Kristina هرگز نام خود را هجی نمیکرد، تعیین املای صحیح نام او (تنها بر اساس صدا) غیرممکن میبود.
برای بهبود بیشتر دقت، TurboScribe از فراداده متصل به فایلهای صوتی و تصویری که آپلود میکنید (مانند نام فایل، عنوان و توضیحات) برای بهبود خودکار رونویسی عباراتی که نمیتوان تنها بر اساس صدا به طور قطعی تعیین کرد، استفاده میکند.
برای مثال، اگر عنوان، هنرمند یا توضیحات فراداده MP3 به «Kristina Hernandez» اشاره کند، احتمال اینکه هر ۳ حالت نام او را به درستی رونویسی کنند بسیار بیشتر است.
جمعبندی
به طور خلاصه، TurboScribe سه حالت رونویسی ارائه میدهد:
یوزپلنگ رونویسیهای دقیق را در سریعترین زمان ممکن ارائه میدهد.
دلفین به دنبال تعادل کامل بین دقت و سرعت است.
نهنگ دقت را به حداکثر میرساند، اما کمی بیشتر طول میکشد. حالت پیشفرض TurboScribe است.
بهترین راه برای درک واقعی قابلیتهای آنها، امتحان کردن خودتان است. به صورت رایگان شروع کنید و هر روز تا ۴ فایل صوتی یا تصویری را به صورت رایگان رونویسی کنید.

