Introducción
El identificador de idioma hablado es un servicio que intenta determinar el idioma de una grabación de audio.
Actualmente, está disponible para 8 idiomas: inglés, español, italiano, francés, alemán, portugués, neerlandés y ruso.
Formatos de audio compatibles: WAV, FLAC, OGG.
Tecnología
El modelo utiliza redes neuronales convolucionales y recurrentes, formadas en decenas de horas de archivos de audio. Se trata de un modelo integral que emplea una forma de onda sin procesar como entrada y no realiza hipótesis sobre la fonética o las gramáticas de los idiomas en cuestión. Más bien, trata de inferir todas las características relevantes del audio a partir de los datos. Produce la distribución de probabilidad sobre los idiomas reconocidos por el modelo como salida.
Puedes utilizarlo para clasificar grabaciones de 1 segundo a 1 minuto. Cuanto más larga sea la grabación, más precisa será la predicción. En grabaciones de 20 segundos, la precisión es de aproximadamente un 95 %, mientras que en muestras de 5 segundos, apenas supera el 80 %.
Lo quiero
Si te interesa esta tecnología, echa un vistazo a nuestra API disponible en
Rapidapi