Introductie
De Identificator voor gesproken taal is een service die de taal in een audio-opname probeert te bepalen.
Het model ondersteunt momenteel 8 talen: Engels, Spaans, Italiaans, Frans, Duits, Portugees, Nederlands en Russisch.
Ondersteunde audioformaten: WAV, FLAC, OGG.
Technologie
Het model maakt gebruik van convolutionele en terugkerende neurale netwerken die op tientallen uren spraakgegevens zijn getraind. Dit is een end-to-end-model dat een ruwe golfvorm als invoer gebruikt en geen aannames doet over de fonetiek of de grammatica van de beschouwde talen. Het probeert eerder alle relevante kenmerken van de audio uit de gegevens af te leiden. Het produceert de kansverdeling over de talen die door het model als output worden herkend.
U kunt het gebruiken om opnames te classificeren van slechts 1 seconde tot een minuut. Hoe langer de opname, hoe hoger de nauwkeurigheid van de voorspelling. Voor opnames van 20 seconden is de nauwkeurigheid ongeveer 95%, terwijl het voor samples van 5 seconden iets meer dan 80% is
Ik wil het hebben
Als deze technologie u interesseert, kijk dan eens naar onze API die beschikbaar is op
Rapidapi