Einführung
Der Spracherkenner für gesprochene Texte ist ein Dienst, der versucht, die in einer Audioaufnahme gesprochene Sprache zu bestimmen.
Das Modell unterstützt derzeit acht Sprachen: Englisch, Spanisch, Italienisch, Französisch, Deutsch, Portugiesisch, Niederländisch und Russisch.
Unterstützte Audioformate: WAV, FLAC, OGG.
Technologie
Das Modell verwendet Faltungsnetzwerke und wiederkehrende neuronale Netze, die mit Dutzenden Stunden Sprachdaten trainiert wurden. Dies ist ein End-to-End-Modell, das eine rohe Wellenform als Eingabe verwendet und keine Annahmen über die Phonetik oder die Grammatik der betrachteten Sprachen trifft. Vielmehr wird versucht, alle relevanten Merkmale des Audios aus den Daten abzuleiten. Es erzeugt die Wahrscheinlichkeitsverteilung über die Sprachen, die vom Modell als Ausgabe erkannt werden.
Sie können damit Aufnahmen mit einer Länge von nur einer Sekunde bis zu einer Minute klassifizieren. Beachten Sie, dass die Genauigkeit der Vorhersage umso höher ist, je länger die Aufzeichnung dauert. Bei 20-Sekunden-Aufnahmen liegt die Genauigkeit bei etwa 95 %, bei 5-Sekunden-Samples bei etwas mehr als 80 %.
Ich will den Dienst nutzen
Wenn Sie diese Technologie interessiert, sehen Sie sich bitte unsere auf
Rapidapi verfügbare API an.