Hôm nay, chúng tôi sẽ đi sâu vào công cụ chép lời của TurboScribe, tập trung vào ba chế độ chép lời – Báo gêpa, Cá heo và Cá voi.
Sự khác biệt giữa 3 chế độ này là gì? Tóm tắt như sau:
Báo gêpa là chế độ nhanh nhất. Nó chép 1 giờ âm thanh hoặc video trong 30 giây. Nó được điều chỉnh để cung cấp bản chép nhanh nhất có thể.
Cá heo mang lại độ chính xác rất cao, trong khi vẫn rất nhanh. Mất khoảng 3 phút để chép 1 giờ âm thanh hoặc video.
Cá voi được điều chỉnh để có độ chính xác tối đa. Nó chép 1 giờ âm thanh hoặc video trong chưa đầy 10 phút.
Khi tải lên tệp, bạn có thể chọn giữa bất kỳ chế độ nào trong số 3 chế độ này ( Cá voi là mặc định).
Vậy bạn nên chọn cái nào? Chúng tôi khuyên bạn nên bắt đầu với chế độ mặc định (Cá voi) để có độ chính xác tối đa và chuyển sang Cá heo hoặc Báo gêpa khi bạn cần bản chép nhanh hơn nữa.
Đối với những bạn muốn hiểu rõ hơn về những gì diễn ra bên trong, hãy tiếp tục đọc.
Whisper: Không Chỉ Là Những Gì Bạn Thấy
Hãy xem xét kỹ hơn về Whisper, công nghệ AI đằng sau chép lời của TurboScribe.
Whisper không chỉ là một mô hình AI duy nhất; thực tế nó là một họ gồm năm mô hình, mỗi mô hình có sự đánh đổi khác nhau giữa độ chính xác và tốc độ.
Ở mức thấp nhất, Whisper bắt đầu với mô hình "tiny" (với "chỉ" 39 triệu tham số) và lên đến "large" (với 1,55 tỷ tham số).
"tiny" là nhanh nhất, nhưng mắc nhiều lỗi nhất. "base" và "small" tốt hơn hầu hết con người. "large" là chính xác nhất (có thể so sánh với các chuyên gia chép lời và dịch thuật chuyên nghiệp), nhưng yêu cầu nhiều bộ nhớ và phần cứng đắt tiền.
5 Mô hình Whisper
Họ Whisper bao gồm 5 mô hình AI khác nhau:
- tiny — 39 triệu tham số
- base — 74 triệu tham số (cung cấp năng lượng cho chế độ
Báo gêpa của TurboScribe)
- small — 244 triệu tham số (cung cấp năng lượng cho chế độ
Cá heo của TurboScribe)
- medium — 769 triệu tham số
- large — 1,55 tỷ tham số (cung cấp năng lượng cho chế độ
Cá voi của TurboScribe)
Đáng tiếc là, trừ khi bạn có một máy tính đặc biệt mạnh mẽ hoặc có quyền truy cập vào GPU (đơn vị xử lý đồ họa) mạnh mẽ, hầu hết mọi người sẽ gặp khó khăn trong việc chạy hiệu quả các mô hình lớn hơn "base".
GPU là bí mật để chép âm thanh nhanh. Đáng tiếc, chúng cũng khá đắt tiền. Tại thời điểm viết bài này, một chip Nvidia A100 — con chip "dẫn đầu cuộc đua AI" — có giá $6.715,00 trên Amazon.
TurboScribe sử dụng GPU để tăng đáng kể tốc độ chép lời và hoàn thành nhiều việc hơn, nhanh hơn.
So sánh thời gian chép lời
Hãy so sánh từng chế độ của TurboScribe trên công cụ chép lời được hỗ trợ bởi GPU của chúng tôi bằng cách chép một tệp âm thanh dài 1 giờ về Thế chiến 2.
Báo gêpa
Báo gêpa ưu tiên cung cấp bản chép chính xác với tốc độ tối đa, được hỗ trợ bởi mô hình "base" với 74 triệu tham số. Đây là cách chép tệp âm thanh 1 giờ của chúng tôi:
Việc đó mất chỉ 20 giây. Nói cách khác, nó nhanh.
Cá heo
Cá heo, với 244 triệu tham số, mất hơn gấp đôi thời gian (vẫn khá nhanh):
Cá voi
Cuối cùng, Cá voi mất khoảng 3 phút để chép cùng một tệp âm thanh 1 giờ (với mô hình Whisper "large-v2" có 1,55 tỷ tham số):
Hãy nhớ rằng thời gian chép lời có thể thay đổi đôi chút.
Ví dụ, việc chép một tệp video lớn 4GB (với 2 giờ âm thanh) sẽ mất nhiều thời gian hơn một chút so với tệp MP3 nhỏ hơn 100MB với cùng 2 giờ âm thanh — điều này chủ yếu là do chúng tôi phải dành nhiều thời gian hơn để truyền, phân tích, tiền xử lý và chuyển đổi tệp media của bạn trước khi thực sự bắt đầu chép.
Các tệp âm thanh có ít giọng nói con người phát hiện được (nghĩ đến bản ghi âm có nhiều khoảng thời gian im lặng) thường có thể được chép nhanh hơn. Hơn nữa, việc chép nhiều tệp cùng lúc thường nhanh hơn việc chép một tệp duy nhất.
So sánh độ chính xác
Đối với nhiều tệp âm thanh và video thông thường, không có sự khác biệt giữa Báo gêpa,
Cá heo, và
Cá voi.
Nơi mà Cá heo và
Cá voi thực sự tỏa sáng là trong những trường hợp cần manh mối ngữ cảnh để phân biệt các từ có âm thanh tương tự nhau.
Ví dụ, trong một bản ghi âm pháp lý rời rạc, nhanh với lượng tiếng ồn nền cao, thuật ngữ "Habeas Corpus" đã bị dịch sai thành "happy is porpoise" với Báo gêpa. Tuy nhiên, dựa vào ngữ cảnh của cuộc trò chuyện xung quanh (liên quan đến các thuật ngữ pháp lý khác), cả
Cá heo và
Cá voi đều xác định chính xác rằng "Habeas Corpus" là bản chép có khả năng đúng nhất.
Đây là một ví dụ khác: trong một bản ghi âm, một phụ nữ tên Kristina Hernandez tự giới thiệu và đánh vần tên của cô ấy.
Báo gêpa chép sai tên cô ấy thành "Christina" (thay vì "Kristina"):
(Người nói 1) Tên tôi là Christina Hernandez. Đánh vần là K R I S T I N A H E R N A N D E Z. (Người nói 2) Cảm ơn, Christina.
Cá heo chép sai lần đầu tiên sử dụng tên của cô ấy, nhưng sửa lại lần sử dụng thứ hai (sau khi cô ấy đánh vần tên của mình):
(Người nói 1) Tên tôi là Christina Hernandez. Đánh vần là K R I S T I N A H E R N A N D E Z. (Người nói 2) Cảm ơn, Kristina.
Cá voi chép đúng cả hai lần sử dụng:
(Người nói 1) Tên tôi là Kristina Hernandez. Đánh vần là K R I S T I N A H E R N A N D E Z. (Người nói 2) Cảm ơn, Kristina.
Cải thiện độ chính xác với metadata
Có những trường hợp mà ngay cả một người dịch cũng không thể xác định một bản chép chính xác một cách rõ ràng. Ví dụ, nếu Kristina chưa bao giờ đánh vần tên của mình, sẽ không thể (chỉ dựa vào âm thanh) xác định cách đánh vần chính xác tên của cô ấy.
Để cải thiện độ chính xác hơn nữa, TurboScribe sử dụng metadata đính kèm với các tệp âm thanh và video mà bạn tải lên (như tên tệp, tiêu đề và mô tả) để tự động cải thiện bản chép của các thuật ngữ không thể xác định rõ ràng chỉ dựa vào âm thanh.
Ví dụ, nếu tiêu đề, nghệ sĩ hoặc bình luận metadata MP3 có đề cập đến "Kristina Hernandez", cả 3 chế độ đều có khả năng chép chính xác tên của cô ấy cao hơn.
Tổng kết
Tóm lại, TurboScribe cung cấp ba chế độ chép lời:
Báo gêpa cung cấp bản chép chính xác nhanh nhất có thể.
Cá heo hướng đến sự cân bằng hoàn hảo giữa độ chính xác và tốc độ.
Cá voi tối đa hóa độ chính xác, nhưng mất nhiều thời gian hơn một chút. Đây là chế độ mặc định của TurboScribe.
Cách tốt nhất để thực sự nắm bắt khả năng của chúng là tự mình thử nghiệm. Bắt đầu miễn phí và chép tới 4 tệp âm thanh hoặc video miễn phí mỗi ngày.

