Wprowadzenie
Identyfikator języka mówionego to usługa, za pomocą której można określić język używany w nagraniu audio.
Model ten obsługuje obecnie 8 języków: angielski, hiszpański, włoski, francuski, niemiecki, portugalski, niderlandzki i rosyjski.
Obsługiwane formaty audio: WAV, FLAC, OGG.
Technologia
Model ten wykorzystuje splotowe i nawracające sieci neuronowe przetestowane na danych pochodzących z dziesiątków godzin nagrań mowy. Jest to kompleksowy model, który używa surowego przebiegu falowego jako danych wejściowych i nie przyjmuje żadnych założeń dotyczących fonetyki ani gramatyki analizowanych języków. Na podstawie danych próbuje określić wszystkie istotne cechy dźwięku. W rezultacie powstaje rozkład prawdopodobieństwa w funkcji języków rozpoznawanych przez model.
Można go używać do klasyfikowania nagrań trwających od 1 sekundy do 1 minuty. Im dłuższe jest nagranie, tym większa jest dokładność prognozy. W przypadku 20-sekundowych nagrań dokładność ta wynosi około 95%, natomiast dla 5-sekundowych próbek – nieznacznie ponad 80%.
Chcę z tego skorzystać
Jeśli ta technologia Cię interesuje, zapoznaj się z naszym interfejsem API dostępnym w
Rapidapi