Introducere
Identificatorul de limbă vorbită este un serviciu care încearcă să determine limba vorbită într-o înregistrare audio.
Modelul acceptă în prezent 8 limbi: engleză, spaniolă, italiană, franceză, germană, portugheză, olandeză și rusă.
Formate audio acceptate: WAV, FLAC, OGG.
Tehnologie
Modelul folosește rețele neuronale convoluționale și recurente antrenate pe zeci de ore de date de vorbire. Acesta este un model end-to-end care folosește o formă de undă brută ca intrare și nu face presupuneri despre fonetica sau gramatica limbilor luate în considerare. Mai degrabă, încearcă să deducă toate caracteristicile relevante ale textului audio din date. Produce distribuția de probabilitate pe limbile recunoscute de model ca rezultat.
Poți să îl utilizezi pentru a clasifica înregistrările cu o lungime de doar o secundă și până la un minut. Reține că, cu cât înregistrarea este mai lungă, cu atât precizia predicției este mai mare. Pentru înregistrări de 20 de secunde, precizia este de aproximativ 95%, în timp ce pentru mostrele de 5 secunde, este puțin peste 80%
Mă interesează
Dacă te interesează această tehnologie, consultă API-ul nostru disponibil pe
Rapidapi