Introduction
L'identificateur de langue parlée est un service qui tente de déterminer la langue parlée dans un enregistrement audio.
Le modèle prend actuellement en charge 8 langues : anglais, espagnol, italien, français, allemand, portugais, néerlandais et russe.
Formats audio acceptés : WAV, FLAC, OGG.
Technologie
Le modèle utilise des réseaux de neurones convolutifs et récurrents entraînés sur des dizaines d'heures de données vocales. Il s'agit d'un modèle de bout en bout qui utilise en entrée une forme d'onde brute et ne fait aucune hypothèse sur la phonétique ou les grammaires des langues considérées. Il tente au contraire de déduire toutes les caractéristiques pertinentes de l'audio à partir des données. Il produit en sortie la distribution de probabilité sur les langues reconnues par le modèle.
Vous pouvez l'utiliser pour qualifier des enregistrements d'une durée aussi courte qu'une seconde et aussi longue qu'une minute. Notez que plus l'enregistrement est long, plus la précision de la prédiction est élevée. Pour des enregistrements de 20 secondes, la précision est d’environ 95 %, alors que pour des échantillons de 5 secondes, elle est légèrement supérieure à 80 %.
Je le veux
Si cette technologie vous intéresse, consultez notre API disponible sur
Rapidapi.