Introdução
O identificador do idioma falado é um serviço que tenta determinar o idioma falado em uma gravação de áudio.
Atualmente, o modelo é oferecido em 8 idiomas: inglês, espanhol, italiano, francês, alemão, português, holandês e russo.
Formatos de áudio compatíveis: WAV, FLAC, OGG.
Tecnologia
O modelo usa redes neurais convolucionais e recorrentes, treinadas em dezenas de horas de dados de fala. Este é um modelo de ponta a ponta que usa uma forma de onda bruta como entrada e não faz suposições sobre a fonética ou as gramáticas das línguas consideradas. Em vez disso, ele tenta deduzir todos os recursos relevantes do áudio a partir dos dados. Ele produz a distribuição de probabilidade nos idiomas reconhecidos pelo modelo como saída.
Você pode usá-lo para classificar gravações de 1 segundo e 1 minuto de duração. Observe que, quanto mais longa a gravação, maior será a precisão da previsão. Para gravações de 20 segundos, a precisão é de cerca de 95%, enquanto para amostras de 5 segundos, ela é de pouco mais de 80%
Eu quero
Se essa tecnologia interessa a você, consulte nossa API disponível no
Rapidapi