Introduksjon
Talespråkidentifikatoren er en tjeneste som prøver å fastsette talespråket i en lydinnspilling.
Modellen støtter foreløpig åtte språk: engelsk, spansk, italiensk, fransk, tysk, portugisisk, nederlandsk og russisk.
Støttede lydformater: WAV, FLAC, OGG.
Teknologi
Modellen bruker komplekse og periodiske nevrale nettverk som har blitt trent ved hjelp av flere titalls timer med taledata. Dette er en ende-til-ende-modell som bruker rå bølgeform som input, og den benytter seg ikke av fonetiske og grammatiske antakelser for de analyserte språkene. Snarere forsøker den å utlede alle de relevante funksjonene til dataens lyd. Den produserer sannsynlighetsfordelingen over språkene som modellen anerkjenner som output.
Du kan bruke den til å klassifisere innspillinger så korte som ett sekund og inntil ett minutt. Merk at jo lenger opptaket er, desto mer nøyaktig er prediksjonen. For 20 sekunder lange opptak er nøyaktigheten rundt 95 %, mens den er litt over 80 % for snutter på fem sekunder.
Jeg vil ha dette
Hvis du er interessert i denne teknologien, kan du ta en titt på API-en vår som er tilgjengelig på
Rapidapi.