Описание
Инструмент определения языка произнесенного текста — это сервис, который определяет язык аудиозаписи.
В настоящее время модель поддерживает 8 языков: английский, испанский, итальянский, французский, немецкий, португальский, нидерландский и русский.
Поддерживаемые форматы аудио: WAV, FLAC, OGG.
Технология
Модель применяет свёрточные и рекуррентные нейронные сети, обученные на десятках часов речевых данных. Это сквозная модель, которая использует необработанный сигнал в качестве входных данных, не делая предположений о фонетике или грамматике того или иного языка. Скорее, она пытается сделать заключение обо всех соответствующих функциях аудиозаписи на основании данных. Сервис производит распределение вероятностей по языкам, распознаваемым моделью в качестве выходных данных.
Технология может использоваться для классификации записей длиной от 1 секунды до 1 минуты. Обратите внимание, что точность определения языка увеличивается при использовании более длинных записей. Для 20-секундной записи точность составляет около 95%, а для 5-секундных образцов — чуть более 80%.
Мне это нужно
Если технология вас заинтересовала, ознакомьтесь с нашим API, доступным на
Rapidapi