लॉग इन करेंसाइन अप करें
TurboScribe modes banner

लिप्यंतरण मोड, समझाया गया

23 अगस्त 2023
Leif Foged
Leif Foged

आज, हम TurboScribe की लिप्यंतरण इंजन में गहराई से जा रहे हैं, इसके तीन लिप्यंतरण मोड्स – चीता, डॉल्फ़िन, और व्हेल – पर ध्यान केंद्रित कर रहे हैं।

इन 3 मोड्स के बीच क्या अंतर है? यहां है TLDR:

  • 🐆 चीता सबसे तेज़ मोड है। यह 1 घंटे की ऑडियो या वीडियो को 30 सेकंड में लिप्यंतरण करता है। इसे आपको यथाशीघ्र ट्रांसक्रिप्ट प्रदान करने के लिए ट्यून किया गया है।
  • 🐬 डॉल्फ़िन बहुत उच्च सटीकता प्रदान करता है, फिर भी बहुत तेज़ है। यह 1 घंटे की ऑडियो या वीडियो को लिप्यंतरण करने में लगभग 3 मिनट लेता है।
  • 🐳 व्हेल को अधिकतम सटीकता के लिए ट्यून किया गया है। यह 1 घंटे की ऑडियो या वीडियो को 10 मिनट से कम समय में लिप्यंतरण करता है।

जब आप कोई फ़ाइल अपलोड करते हैं, तो आप इन 3 मोड्स (🐳 व्हेल डिफ़ॉल्ट है) में से किसी एक को चुन सकते हैं।

तो आपको कौन सा चुनना चाहिए? हम अधिकतम सटीकता के लिए डिफ़ॉल्ट (व्हेल) से शुरू करने की सलाह देते हैं और जब आपको तेज़ी से ट्रांसक्रिप्ट की आवश्यकता हो तो डॉल्फ़िन या चीता पर स्विच करने की सलाह देते हैं।

उन लोगों के लिए जो यह जानना चाहते हैं कि अंदर क्या चल रहा है, आप पढ़ते रहें।

व्हिस्पर: ऑडियो से ज्यादा

Audio waves

आइए देखें व्हिस्पर, जो TurboScribe के लिप्यंतरण के पीछे की एआई तकनीक है।

व्हिस्पर सिर्फ एक एआई मॉडल नहीं है; यह वास्तव में पाँच मॉडलों का एक परिवार है, जिसमें सटीकता और गति के बीच अलग-अलग समझौते होते हैं।

निचले सिरे पर, व्हिस्पर "टिनी" मॉडल से शुरू होता है ("सिर्फ" 39 मिलियन पैरामीटर्स) और "लार्ज" ( 1.55 बिलियन पैरामीटर्स) तक जाता है।

"टिनी" सबसे तेज़ है, लेकिन सबसे अधिक गलतियाँ करता है। "बेस" और "स्मॉल" अधिकांश मनुष्यों से बेहतर हैं। "लार्ज" सबसे सटीक है (पेशेवर ट्रांसक्राइबर और अनुवादकों के तुलनीय), लेकिन इसमें बहुत अधिक मेमोरी और महंगे उपकरण की आवश्यकता होती है।

व्हिस्पर के 5 मॉडल

व्हिस्पर परिवार में 5 अलग-अलग एआई मॉडल हैं:

  • टिनी — 39 मिलियन पैरामीटर्स
  • बेस — 74 मिलियन पैरामीटर्स (TurboScribe के 🐆 चीता मोड को पावर करता है)
  • स्मॉल — 244 मिलियन पैरामीटर्स (TurboScribe के 🐬 डॉल्फ़िन मोड को पावर करता है)
  • मीडियम — 769 मिलियन पैरामीटर्स
  • लार्ज — 1.55 बिलियन पैरामीटर्स (TurboScribe के 🐳 व्हेल मोड को पावर करता है)

दुर्भाग्य से, जब तक आपके पास एक विशेष रूप से शक्तिशाली कंप्यूटर नहीं है या आपके पास मजबूत GPU (ग्राफिक्स प्रोसेसिंग यूनिट) तक पहुंच नहीं है, तब तक अधिकांश लोग "बेस" से बड़े अधिकांश मॉडलों को कुशलतापूर्वक चलाने के लिए संघर्ष करेंगे।

GPU ऑडियो को तेजी से लिप्यंतरण करने का रहस्य हैं। दुर्भाग्य से, वे काफी महंगे भी हैं। इस लेखन के समय, एकल Nvidia A100 — जो चिप "एआई की दौड़ को शक्ति दे रहा है" — की लागत $6,715.00 है Amazon पर।

TurboScribe लिप्यंतरण को महत्वपूर्ण रूप से तेज करने और तेजी से अधिक कार्य पूरा करने के लिए GPU का उपयोग करता है।

लिप्यंतरण समय तुलना

आइए तत्व-उत्प्रेरित लिप्यंतरण इंजन पर एक 1 घंटे की ऑडियो फ़ाइल को लिप्यंतरण करके TurboScribe के प्रत्येक मोड की तुलना करें।

🐆 चीता

चीता 74 मिलियन पैरामीटर्स के "बेस" मॉडल द्वारा संचालित सटीक ट्रांसक्रिप्ट को अधिकतम गति पर प्रदान करना प्राथमिकता देता है। यहाँ हमारे 1 घंटे की ऑडियो फ़ाइल को लिप्यंतरण करना कैसा दिखता है:

इसमें सिर्फ 20 सेकंड लगे। दूसरे शब्दों में, यह तेज है।

🐬 डॉल्फ़िन

डॉल्फ़िन, 244 मिलियन पैरामीटर्स के साथ, दोगुना समय लेता है (जो अभी भी काफी तेज़ है):

🐳 व्हेल

अंत में, व्हेल समान 1 घंटे की ऑडियो फ़ाइल को लिप्यंतरण करने में लगभग 3 मिनट का समय लेता है (विशाल 1.55 बिलियन पैरामीटर्स व्हिस्पर "लार्ज-V2" मॉडल के साथ):

ध्यान रखें कि लिप्यंतरण समय में थोड़ा बदलाव हो सकता है।

उदाहरण के लिए, एक बड़ी, 4GB वीडियो फ़ाइल (जिसमें 2 घंटे का ऑडियो है) का लिप्यंतरण करने में थोड़ी अधिक समय लगेगा एक छोटी 100MB MP3 फ़ाइल के मुकाबले जिसमें समान 2 घंटे का ऑडियो है — ऐसा मुख्यतः इसलिए है क्योंकि हमें आपके मीडिया फ़ाइल को लिप्यंतरण प्रारंभ करने से पहले ट्रांसफर, विश्लेषण, प्रीप्रोसेसिंग और कनवर्ट करने में अधिक समय देना पड़ता है।

ऑडियो फ़ाइलें जिनमें बहुत कम मनुष्य आवाज़ होती है (जैसे कि एक ऑडियो रिकॉर्डिंग जिसमें बहुत सारे मौन अवधि हैं), उन्हें आमतौर पर अधिक जल्दी लिप्यंतरण किया जा सकता है। इसके अलावा, एकल फ़ाइल की तुलना में कई फ़ाइलों का लिप्यंतरण भी आमतौर पर तेज़ होता है।

सटीकता तुलना

कई सामान्य ऑडियो और वीडियो फ़ाइलों के लिए, 🐆 चीता, 🐬 डॉल्फ़िन, और 🐳 व्हेल के बीच कोई अंतर नहीं है।

जहाँ 🐬 डॉल्फ़िन और 🐳 व्हेल वास्तव में चमकते हैं, वहां परिप्रेक्ष्य संकेत आवश्यक होते हैं ताकि समान-साउंडिंग शब्दों को भेदभाव कर सकें।

उदाहरण के लिए, एक तेज़, तेजी से चलने वाले कानूनी रिकॉर्डिंग में उच्च पार्श्विक शोर के साथ, "हैबियस कॉर्पस" शब्द को 🐆 चीता के साथ "हैपी इज़ पॉर्पॉइस" के रूप में गलत अनुवाद किया गया था। हालांकि, आसपास की बातचीत के संदर्भ के आधार पर (जिसमें अन्य कानूनी शब्द शामिल थे), दोनों 🐬 डॉल्फ़िन और 🐳 व्हेल ने सही ढंग से निर्धारित किया कि "हैबियस कॉर्पस" सबसे संभावित लिप्यंतरण है।

यहाँ एक और उदाहरण है: एक ऑडियो रिकॉर्डिंग में, एक महिला जिसका नाम क्रिस्टिना हर्नानडेज़ है, खुद को परिचय देती है और अपना नाम स्पेल करती है।

🐆 चीता ने उसके नाम को ग़लती से "क्रिस्टिना" (बजाय "क्रिस्टिना") के रूप में ट्रांसक्राइब किया:

(वक्ता 1) मेरा नाम क्रिस्टिना हर्नानडेज़ है। यह K R I S T I N A H E R N A N D E Z के रूप में लिखा गया है। (वक्ता 2) धन्यवाद, क्रिस्टिना

🐬 डॉल्फ़िन ने उसके नाम का पहला उपयोग गलत ट्रांसक्राइब किया, लेकिन उसकी नाम की वर्तनी का उच्चारण करने के बाद दूसरे उपयोग को सही किया:

(वक्ता 1) मेरा नाम क्रिस्टिना हर्नानडेज़ है। यह K R I S T I N A H E R N A N D E Z के रूप में लिखा गया है। (वक्ता 2) धन्यवाद, क्रिस्टिना

🐳 व्हेल ने दोनों उपयोगों को सही तरीके से ट्रांसक्राइब किया:

(वक्ता 1) मेरा नाम क्रिस्टिना हर्नानडेज़ है। यह K R I S T I N A H E R N A N D E Z के रूप में लिखा गया है। (वक्ता 2) धन्यवाद, क्रिस्टिना

मेटाडेटा के साथ सटीकता सुधार

ऐसे मामले होते हैं जहाँ यहाँ तक कि एक मानव अनुवादक भी एक सही लिप्यंतरण का अनिश्चित रूप से निर्धारण नहीं कर सकता। उदाहरण के लिए, अगर क्रिस्टिना ने कभी अपना नाम नहीं लिखा होता, तो उसके नाम की सही वर्तनी का निर्धारण करना असंभव होता (ऑडियो के आधार पर)।

सटीकता को और भी बेहतर करने के लिए, TurboScribe आपके द्वारा अपलोड की गई ऑडियो और वीडियो फाइलों पर संलग्न मेटाडेटा (जैसे कि फ़ाइल नाम, शीर्षक, और विवरण) का उपयोग करता है जो उन शर्तों के लिप्यंतरण में स्वतः सुधार करने के लिए करता है जो केवल ऑडियो के आधार पर अनिश्चित रूप से निर्धारित नहीं की जा सकतीं।

उदाहरण के लिए, यदि MP3 मेटाडेटा शीर्षक, कलाकार, या टिप्पणी में "क्रिस्टिना हर्नानडेज़" का उल्लेख है, तो सभी 3 मोड अधिक संभावना से उसके नाम को सही तरीके से लिप्यंतरण करेंगे।

संक्षेप में

संक्षेप में, TurboScribe तीन लिप्यंतरण मोड प्रदान करता है:

  • 🐆 चीता सटीक ट्रांसक्रिप्ट जितनी जल्दी हो सके प्रदान करता है।
  • 🐬 डॉल्फ़िन सटीकता और गति के बीच आदर्श संतुलन प्रदान करता है।
  • 🐳 व्हेल सटीकता को अधिकतम करता है, लेकिन इसमें थोड़ा अधिक समय लगता है। यह TurboScribe का डिफ़ॉल्ट मोड है।

उनकी क्षमताओं को वास्तव में समझने का सबसे अच्छा तरीका है कि आप उन्हें स्वयं आज़माएं। मुफ्त में प्रारंभ करें और प्रतिदिन 4 ऑडियो या वीडियो फाइलों का लिप्यंतरण करें।

About TurboScribe

TurboScribe ऑडियो और वीडियो को AI द्वारा संचालित सटीक टेक्स्ट में सेकंडों में परिवर्तित करता है।

TurboScribe के बारे में और जानें

क्या आप लिप्यंतरण शुरू करने के लिए तैयार हैं?

पूर्ण पहुंच प्राप्त करें...

अनलिमिटेड लिप्यंतरण
एक व्यक्ति के लिए असीमित लिप्यंतरण।
🎯
99.8% सटीकता
Whisper द्वारा संचालित, दुनिया की सबसे सटीक और शक्तिशाली एआई स्पीच टू टेक्स्ट लिप्यंतरण तकनीक।
🌍
98+ भाषाएँ
TurboScribe दुनिया की बोली जाने वाली भाषाओं का समर्थन करता है।
🚀
10 घंटे का अपलोड
प्रत्येक फ़ाइल 10 घंटे लंबी / 5 जीबी तक हो सकती है। एक समय में 50 फ़ाइलें अपलोड करें।
👥
वक्ता पहचान
बैठकों, साक्षात्कारों और पॉडकास्ट के लिए शानदार।