Introduzione
L'identificatore della lingua parlata è un servizio che cerca di determinare la lingua parlata in una registrazione audio.
Attualmente il modello supporta 8 lingue: inglese, spagnolo, italiano, francese, tedesco, portoghese, olandese e russo.
Formati audio supportati: WAV, FLAC, OGG.
Tecnologia
Il modello utilizza reti neurali convoluzionali e ricorrenti, formate su decine di ore di dati vocali. Si tratta di un modello end-to-end che utilizza come input una forma d'onda non elaborata e non fa ipotesi su fonetica o grammatica delle lingue considerate. Cerca invece di dedurre tutte le caratteristiche rilevanti dell'audio dai dati. Produce la distribuzione di probabilità sulle lingue riconosciute dal modello come output.
Puoi usarlo per classificare le registrazioni a partire da 1 secondo e fino a un minuto. Ricorda che più lunga è la registrazione, maggiore è l'accuratezza della previsione. Per le registrazioni di 20 secondi l'accuratezza è di circa il 95%, mentre per i campioni di 5 secondi è poco più dell'80%
Lo voglio!
Se questa tecnologia ti interessa, dai un'occhiata alla nostra API disponibile su
Rapidapi