Εισαγωγή
Το εργαλείο αναγνώρισης προφορικού λόγου είναι μια υπηρεσία που προσδιορίζει τη γλώσσα που ομιλείται σε ένα αρχείο καταγραφής ήχου.
Επί του παρόντος, το μοντέλο υποστηρίζει 8 γλώσσες: Αγγλικά, Ισπανικά, Ιταλικά, Γαλλικά, Γερμανικά, Πορτογαλικά, Ολλανδικά και Ρωσικά.
Υποστηριζόμενα αρχεία ήχου: WAV, FLAC, OGG.
Τεχνολογία
Το μοντέλο χρησιμοποιεί συνελικτικά και επαναλαμβανόμενα νευρωνικά δίκτυα, εκπαιδευμένα με δεκάδες ώρες δεδομένων ομιλίας. Πρόκειται για ένα ολοκληρωμένο μοντέλο που χρησιμοποιεί μια ακατέργαστη κυματομορφή ως δεδομένα εισαγωγής και δεν κάνει υποθέσεις σχετικά με τη φωνητική ή τη γραμματική της εκάστοτε γλώσσας που εξετάζεται. Αντίθετα, προσπαθεί να εξάγει όλα τα σχετικά χαρακτηριστικά του ήχου από τα δεδομένα. Παράγει την κατανομή πιθανότητας στις γλώσσες που αναγνωρίζονται από το μοντέλο ως δεδομένα εξαγωγής.
Μπορείτε να το χρησιμοποιήσετε για να ταξινομήσετε ηχογραφήσεις που διαρκούν από 1 δευτερόλεπτο έως και ένα λεπτό. Λάβετε υπόψη ότι όσο μεγαλύτερης διάρκειας είναι η ηχογράφηση, τόσο υψηλότερη θα είναι η ακρίβεια της πρόβλεψης. Για ηχογραφήσεις 20 δευτερολέπτων η ακρίβεια είναι περίπου 95%, ενώ για δείγματα 5 δευτερολέπτων είναι λίγο παραπάνω από 80%
Το θέλω
Εάν αυτή η τεχνολογία σάς ενδιαφέρει, ρίξτε μια ματιά στο API μας που είναι διαθέσιμο στο
Rapidapi