Λειτουργίες Απομαγνητοφώνησης, Εξηγημένες

Σήμερα, θα εμβαθύνουμε στη μηχανή απομαγνητοφώνησης του TurboScribe, εστιάζοντας στις τρεις λειτουργίες απομαγνητοφώνησης – Τσιτάχ, Δελφίνι και Φάλαινα.

Ποια είναι η διαφορά μεταξύ αυτών των 3 λειτουργιών; Ιδού η σύντομη εξήγηση:

Η Τσιτάχ είναι η ταχύτερη λειτουργία. Απομαγνητοφωνεί 1 ώρα ήχου ή βίντεο σε 30 δευτερόλεπτα. Είναι ρυθμισμένη να παραδίδει το κείμενο όσο το δυνατόν γρηγορότερα.
Το Δελφίνι προσφέρει πολύ υψηλή ακρίβεια, ενώ παραμένει πολύ γρήγορο. Χρειάζεται περίπου 3 λεπτά για να απομαγνητοφωνήσει 1 ώρα ήχου ή βίντεο.
Η Φάλαινα είναι ρυθμισμένη για μέγιστη ακρίβεια. Απομαγνητοφωνεί 1 ώρα ήχου ή βίντεο σε λιγότερο από 10 λεπτά.

Κατά τη μεταφόρτωση ενός αρχείου, μπορείτε να επιλέξετε μεταξύ οποιασδήποτε από αυτές τις 3 λειτουργίες (η Φάλαινα είναι η προεπιλογή).

Ποια λοιπόν πρέπει να επιλέξετε; Προτείνουμε να ξεκινήσετε με την προεπιλογή (Φάλαινα) για μέγιστη ακρίβεια και να αλλάξετε σε Δελφίνι ή Τσιτάχ όταν χρειάζεστε ακόμη πιο γρήγορη απομαγνητοφώνηση.

Για όσους από εσάς θέλετε να καταλάβετε καλύτερα τι συμβαίνει στο παρασκήνιο, συνεχίστε την ανάγνωση.

Whisper: Κάτι Παραπάνω από Αυτό που Φαίνεται

Ας ρίξουμε μια πιο προσεκτική ματιά στο Whisper, την τεχνολογία AI πίσω από την απομαγνητοφώνηση του TurboScribe.

Το Whisper δεν είναι απλώς ένα μοντέλο AI· στην πραγματικότητα είναι μια οικογένεια πέντε μοντέλων, το καθένα με διαφορετικές ισορροπίες μεταξύ ακρίβειας και ταχύτητας.

Στο χαμηλότερο άκρο, το Whisper ξεκινά με το μοντέλο "tiny" (με "μόλις" 39 εκατομμύρια παραμέτρους) και φτάνει μέχρι το "large" (με 1,55 δισεκατομμύρια παραμέτρους).

Το "tiny" είναι το ταχύτερο, αλλά κάνει τα περισσότερα λάθη. Τα "base" και "small" είναι καλύτερα από τους περισσότερους ανθρώπους. Το "large" είναι το πιο ακριβές (συγκρίσιμο με επαγγελματίες απομαγνητοφωνητές και μεταφραστές), αλλά απαιτεί πολλή μνήμη και ακριβό υλικό.

Τα 5 Μοντέλα του Whisper

Η οικογένεια Whisper περιέχει 5 διαφορετικά μοντέλα AI:

tiny — 39 εκατομμύρια παράμετροι
base — 74 εκατομμύρια παράμετροι (τροφοδοτεί τη λειτουργία Τσιτάχ του TurboScribe)
small — 244 εκατομμύρια παράμετροι (τροφοδοτεί τη λειτουργία Δελφίνι του TurboScribe)
medium — 769 εκατομμύρια παράμετροι
large — 1,55 δισεκατομμύρια παράμετροι (τροφοδοτεί τη λειτουργία Φάλαινα του TurboScribe)

Δυστυχώς, εκτός αν έχετε έναν ιδιαίτερα ισχυρό υπολογιστή ή έχετε πρόσβαση σε μια δυνατή GPU (μονάδα επεξεργασίας γραφικών), οι περισσότεροι άνθρωποι θα δυσκολευτούν να εκτελέσουν αποδοτικά τα περισσότερα μοντέλα μεγαλύτερα από το "base".

Οι GPUs είναι το μυστικό για γρήγορη απομαγνητοφώνηση ήχου. Δυστυχώς, είναι επίσης αρκετά ακριβές. Τη στιγμή που γράφεται αυτό, μία μόνο Nvidia A100 — το τσιπ που "τροφοδοτεί τον αγώνα για την AI" — κοστίζει $6.715,00 στο Amazon.

Το TurboScribe χρησιμοποιεί GPUs για να επιταχύνει σημαντικά την απομαγνητοφώνηση και να ολοκληρώνει περισσότερα, γρηγορότερα.

Σύγκριση Χρόνων Απομαγνητοφώνησης

Ας συγκρίνουμε κάθε λειτουργία του TurboScribe στη μηχανή απομαγνητοφώνησης που τροφοδοτείται από GPU απομαγνητοφωνώντας ένα αρχείο ήχου 1 ώρας για τον Β' Παγκόσμιο Πόλεμο.

Τσιτάχ

Η Τσιτάχ δίνει προτεραιότητα στην παράδοση ακριβών απομαγνητοφωνήσεων με μέγιστη ταχύτητα, τροφοδοτούμενη από το μοντέλο "base" των 74 εκατομμυρίων παραμέτρων. Δείτε πώς φαίνεται η απομαγνητοφώνηση του αρχείου ήχου 1 ώρας:

Αυτό πήρε μόλις 20 δευτερόλεπτα. Με άλλα λόγια, είναι γρήγορη.

Δελφίνι

Το Δελφίνι, με 244 εκατομμύρια παραμέτρους, χρειάζεται λίγο παραπάνω από το διπλάσιο χρόνο (που είναι ακόμα αρκετά γρήγορο):

Φάλαινα

Τέλος, η Φάλαινα χρειάζεται περίπου 3 λεπτά για να απομαγνητοφωνήσει το ίδιο αρχείο ήχου 1 ώρας (με το τεράστιο μοντέλο Whisper "large-v2" των 1,55 δισεκατομμυρίων παραμέτρων):

Να έχετε υπόψη ότι οι χρόνοι απομαγνητοφώνησης μπορεί να διαφέρουν ελαφρώς.

Για παράδειγμα, η απομαγνητοφώνηση ενός μεγάλου αρχείου βίντεο 4GB (με 2 ώρες ήχου) θα πάρει λίγο περισσότερο χρόνο από ένα μικρότερο αρχείο MP3 100MB με τις ίδιες 2 ώρες ήχου — αυτό οφείλεται κυρίως στο ότι πρέπει να ξοδέψουμε περισσότερο χρόνο στη μεταφορά, ανάλυση, προεπεξεργασία και μετατροπή του αρχείου πολυμέσων σας πριν ξεκινήσουμε την απομαγνητοφώνηση.

Τα αρχεία ήχου με λίγη ανιχνεύσιμη ανθρώπινη ομιλία (σκεφτείτε μια ηχογράφηση με πολλές περιόδους σιωπής) μπορούν συνήθως να απομαγνητοφωνηθούν γρηγορότερα. Επιπλέον, η απομαγνητοφώνηση πολλαπλών αρχείων είναι συνήθως γρηγορότερη από την απομαγνητοφώνηση ενός μόνο αρχείου.

Σύγκριση Ακρίβειας

Για πολλά συνηθισμένα αρχεία ήχου και βίντεο, δεν υπάρχει διαφορά μεταξύ Τσιτάχ, Δελφίνι, και Φάλαινα.

Όπου το Δελφίνι και η Φάλαινα πραγματικά λάμπουν είναι στις περιπτώσεις όπου απαιτούνται συμφραζόμενα στοιχεία για να διαχωριστούν λέξεις που ακούγονται παρόμοια.

Για παράδειγμα, σε μια κοφτή, γρήγορη νομική ηχογράφηση με υψηλά επίπεδα θορύβου υποβάθρου, ο όρος "Habeas Corpus" μεταφράστηκε λανθασμένα ως "happy is porpoise" με την Τσιτάχ. Ωστόσο, με βάση τα συμφραζόμενα της συνομιλίας (που περιελάμβανε άλλους νομικούς όρους), τόσο το Δελφίνι όσο και η Φάλαινα προσδιόρισαν σωστά ότι το "Habeas Corpus" είναι η πιο πιθανή απομαγνητοφώνηση.

Ιδού ένα άλλο παράδειγμα: σε μια ηχογράφηση, μια γυναίκα ονόματι Kristina Hernandez συστήνεται και συλλαβίζει το όνομά της.

Η Τσιτάχ απομαγνητοφωνεί λανθασμένα το όνομά της ως "Christina" (αντί για "Kristina"):

(Ομιλητής 1) Το όνομά μου είναι Christina Hernandez. Συλλαβίζεται K R I S T I N A H E R N A N D E Z. (Ομιλητής 2) Ευχαριστώ, Christina.

Το Δελφίνι απομαγνητοφωνεί λανθασμένα την πρώτη χρήση του ονόματός της, αλλά διορθώνει τη δεύτερη χρήση του όρου (αφού συλλαβίζει το όνομά της):

(Ομιλητής 1) Το όνομά μου είναι Christina Hernandez. Συλλαβίζεται K R I S T I N A H E R N A N D E Z. (Ομιλητής 2) Ευχαριστώ, Kristina.

Η Φάλαινα πετυχαίνει και τις δύο χρήσεις σωστά:

(Ομιλητής 1) Το όνομά μου είναι Kristina Hernandez. Συλλαβίζεται K R I S T I N A H E R N A N D E Z. (Ομιλητής 2) Ευχαριστώ, Kristina.

Βελτίωση της Ακρίβειας με Μεταδεδομένα

Υπάρχουν περιπτώσεις όπου ακόμη και ένας ανθρώπινος μεταφραστής δεν μπορεί να προσδιορίσει αδιαμφισβήτητα μια σωστή απομαγνητοφώνηση. Για παράδειγμα, αν η Kristina δεν είχε συλλαβίσει ποτέ το όνομά της, θα ήταν αδύνατο (με βάση μόνο τον ήχο) να προσδιοριστεί η σωστή ορθογραφία του ονόματός της.

Για να βελτιώσει την ακρίβεια ακόμη περισσότερο, το TurboScribe χρησιμοποιεί μεταδεδομένα που επισυνάπτονται στα αρχεία ήχου και βίντεο που ανεβάζετε (όπως το όνομα αρχείου, τίτλος και περιγραφή) για να βελτιώσει αυτόματα τις απομαγνητοφωνήσεις όρων που δεν μπορούν να προσδιοριστούν αδιαμφισβήτητα με βάση μόνο τον ήχο.

Για παράδειγμα, αν τα μεταδεδομένα του MP3 τίτλος, καλλιτέχνης ή σχόλιο αναφέρονται στην "Kristina Hernandez", και οι 3 λειτουργίες είναι πολύ πιθανότερο να απομαγνητοφωνήσουν σωστά το όνομά της.

Συμπέρασμα

Συνοψίζοντας, το TurboScribe προσφέρει τρεις λειτουργίες απομαγνητοφώνησης:

Η Τσιτάχ παρέχει ακριβείς απομαγνητοφωνήσεις όσο το δυνατόν γρηγορότερα.
Το Δελφίνι στοχεύει στην τέλεια ισορροπία μεταξύ ακρίβειας και ταχύτητας.
Η Φάλαινα μεγιστοποιεί την ακρίβεια, αλλά χρειάζεται λίγο περισσότερο χρόνο. Είναι η προεπιλεγμένη λειτουργία του TurboScribe.

Ο καλύτερος τρόπος για να κατανοήσετε πραγματικά τις δυνατότητές τους είναι να τις δοκιμάσετε μόνοι σας. Ξεκινήστε δωρεάν και απομαγνητοφωνήστε έως και 4 αρχεία ήχου ή βίντεο δωρεάν κάθε μέρα.

TurboScribe