اليوم، سنتعمق في محرك النسخ الخاص بـ TurboScribe، مع التركيز على أوضاع النسخ الثلاثة - الفهد، والدلفين، والحوت.
ما الفرق بين هذه الأوضاع الثلاثة؟ إليك الملخص:
- الفهد هو الوضع الأسرع. يقوم بنسخ ساعة من الصوت أو الفيديو في 30 ثانية. تم تحسينه لتقديم النص المنسوخ بأسرع وقت ممكن.
- الدلفين يقدم دقة عالية جداً، مع الحفاظ على السرعة. يستغرق حوالي 3 دقائق لنسخ ساعة من الصوت أو الفيديو.
- الحوت تم تحسينه لأقصى دقة. يقوم بنسخ ساعة من الصوت أو الفيديو في أقل من 10 دقائق.
عند رفع ملف، يمكنك الاختيار بين أي من هذه الأوضاع الثلاثة ( الحوت هو الوضع الافتراضي).
إذن أيهما يجب أن تختار؟ نوصي بالبدء بالوضع الافتراضي (الحوت) للحصول على أقصى دقة والتبديل إلى الدلفين أو الفهد عندما تحتاج إلى نصوص منسوخة بشكل أسرع.
لأولئك منكم الذين يريدون فهماً أفضل لما يحدث تحت غطاء المحرك، يمكنكم متابعة القراءة.
Whisper: أكثر مما تظن
دعونا نلقي نظرة فاحصة على Whisper، تقنية الذكاء الاصطناعي وراء نسخ TurboScribe.
Whisper ليس مجرد نموذج ذكاء اصطناعي واحد؛ إنه في الواقع عائلة من خمسة نماذج، كل منها يوازن بين الدقة والسرعة.
في المستوى الأدنى، يبدأ Whisper بالنموذج "الصغير جداً" (بـ "مجرد" 39 مليون معامل) ويصل إلى "الكبير" (بـ 1.55 مليار معامل).
"الصغير جداً" هو الأسرع، لكنه يرتكب أكثر الأخطاء. "الأساسي" و"الصغير" أفضل من معظم البشر. "الكبير" هو الأكثر دقة (يمكن مقارنته بالمترجمين المحترفين)، لكنه يتطلب الكثير من الذاكرة والأجهزة المكلفة.
نماذج Whisper الخمسة
تحتوي عائلة Whisper على 5 نماذج مختلفة للذكاء الاصطناعي:
- صغير جداً — 39 مليون معامل
- أساسي — 74 مليون معامل (يشغل وضع الفهد في TurboScribe)
- صغير — 244 مليون معامل (يشغل وضع الدلفين في TurboScribe)
- متوسط — 769 مليون معامل
- كبير — 1.55 مليار معامل (يشغل وضع الحوت في TurboScribe)
لسوء الحظ، ما لم يكن لديك جهاز كمبيوتر قوي بشكل خاص أو لديك وصول إلى GPU (وحدة معالجة الرسومات) قوية، سيواجه معظم الناس صعوبة في تشغيل معظم النماذج الأكبر من "الأساسي" بكفاءة.
وحدات معالجة الرسومات هي السر وراء نسخ الصوت بسرعة. لسوء الحظ، إنها أيضاً مكلفة جداً. حتى وقت كتابة هذا التقرير، تكلف شريحة Nvidia A100 واحدة — الشريحة "التي تقود سباق الذكاء الاصطناعي" — $6,715.00 على أمازون.
يستخدم TurboScribe وحدات معالجة الرسومات لتسريع النسخ بشكل كبير وإنجاز المزيد بشكل أسرع.
مقارنة أوقات النسخ
دعونا نقارن كل وضع من أوضاع TurboScribe على محرك النسخ المدعوم بوحدة معالجة الرسومات من خلال نسخ ملف صوتي مدته ساعة واحدة عن الحرب العالمية الثانية.
الفهد
يعطي الفهد الأولوية لتقديم نصوص دقيقة بأقصى سرعة، مدعوماً بنموذج "أساسي" بـ 74 مليون معامل. إليك كيف يبدو نسخ ملفنا الصوتي لمدة ساعة:
استغرق ذلك 20 ثانية فقط. بمعنى آخر، إنه سريع.
الدلفين
الدلفين، بـ 244 مليون معامل، يستغرق أكثر من ضعف الوقت (وهو لا يزال سريعاً جداً):
الحوت
أخيراً، يستغرق الحوت حوالي 3 دقائق لنسخ نفس الملف الصوتي لمدة ساعة واحدة (مع نموذج Whisper "large-v2" الضخم بـ 1.55 مليار معامل):
ضع في اعتبارك أن أوقات النسخ يمكن أن تختلف قليلاً.
على سبيل المثال، سيستغرق نسخ ملف فيديو كبير بحجم 4 جيجابايت (مع ساعتين من الصوت) وقتاً أطول قليلاً من ملف MP3 أصغر بحجم 100 ميجابايت مع نفس الساعتين من الصوت - وهذا بشكل أساسي لأننا نحتاج إلى قضاء المزيد من الوقت في نقل وتحليل ومعالجة وتحويل ملف الوسائط الخاص بك قبل أن نبدأ فعلياً في النسخ.
يمكن نسخ الملفات الصوتية التي تحتوي على كلام بشري قليل يمكن اكتشافه (فكر في تسجيل صوتي به فترات صمت طويلة) بشكل أسرع عادةً. علاوة على ذلك، عادةً ما يكون نسخ ملفات متعددة أسرع من نسخ ملف واحد.
مقارنة الدقة
بالنسبة للعديد من ملفات الصوت والفيديو الشائعة، لا يوجد فرق بين الفهد، و الدلفين، و الحوت.
حيث يتفوق الدلفين و الحوت حقاً في الحالات التي تتطلب دلائل سياقية للتمييز بين الكلمات المتشابهة في النطق.
على سبيل المثال، في تسجيل قانوني سريع ومتقطع مع مستويات عالية من الضوضاء في الخلفية، تمت ترجمة مصطلح "Habeas Corpus" بشكل خاطئ على أنه "happy is porpoise" مع الفهد. ومع ذلك، استناداً إلى سياق المحادثة المحيطة (التي تضمنت مصطلحات قانونية أخرى)، حدد كل من الدلفين و الحوت بشكل صحيح أن "Habeas Corpus" هو النسخ الأكثر احتمالاً.
إليك مثال آخر: في تسجيل صوتي، تقدم امرأة تدعى كريستينا هيرنانديز نفسها وتتهجى اسمها.
الفهد ينسخ اسمها بشكل خاطئ كـ "كريستينا" (بدلاً من "كريستينا"):
(المتحدث 1) اسمي كريستينا هيرنانديز. يُتهجى K R I S T I N A H E R N A N D E Z. (المتحدث 2) شكراً لك، كريستينا.
الدلفين ينسخ الاستخدام الأول لاسمها بشكل خاطئ، لكنه يصحح الاستخدام الثاني للمصطلح (بعد أن تهجت اسمها):
(المتحدث 1) اسمي كريستينا هيرنانديز. يُتهجى K R I S T I N A H E R N A N D E Z. (المتحدث 2) شكراً لك، كريستينا.
الحوت يحصل على كلا الاستخدامين بشكل صحيح:
(المتحدث 1) اسمي كريستينا هيرنانديز. يُتهجى K R I S T I N A H E R N A N D E Z. (المتحدث 2) شكراً لك، كريستينا.
تحسين الدقة باستخدام البيانات الوصفية
هناك حالات حيث حتى المترجم البشري لا يمكنه تحديد النسخ الصحيح بشكل قاطع. على سبيل المثال، لو لم تتهجى كريستينا اسمها، لكان من المستحيل (بناءً على الصوت وحده) تحديد التهجئة الصحيحة لاسمها.
لتحسين الدقة بشكل أكبر، يستخدم TurboScribe البيانات الوصفية المرفقة بملفات الصوت والفيديو التي تقوم برفعها (مثل اسم الملف، والعنوان، والوصف) لتحسين نسخ المصطلحات التي لا يمكن تحديدها بشكل قاطع بناءً على الصوت وحده تلقائياً.
على سبيل المثال، إذا كانت البيانات الوصفية لملف MP3 مثل العنوان، أو الفنان، أو التعليق تشير إلى "كريستينا هيرنانديز"، فمن المرجح أن تنسخ جميع الأوضاع الثلاثة اسمها بشكل صحيح.
الختام
باختصار، يقدم TurboScribe ثلاثة أوضاع للنسخ:
- الفهد يوفر نسخاً دقيقاً بأسرع وقت ممكن.
- الدلفين يهدف إلى التوازن المثالي بين الدقة والسرعة.
- الحوت يعظم الدقة، لكنه يستغرق وقتاً أطول. إنه الوضع الافتراضي في TurboScribe.
أفضل طريقة لفهم قدراتهم حقاً هي تجربتهم بنفسك. ابدأ مجاناً وانسخ ما يصل إلى 4 ملفات صوت أو فيديو مجاناً كل يوم.