Bevezetés
A Beszélt nyelv azonosítása egy olyan szolgáltatás, amely megpróbálja azonosítani, milyen nyelven beszélnek egy hangfelvételen.
A modell jelenleg 8 nyelvet támogat: angol, spanyol, olasz, francia, német, portugál, holland és orosz.
Támogatott audioformátumok: WAV, FLAC, OGG.
Technológia
A modell konvolúciós és ismétlődő neurális hálózatokat használ, amelyeket több tíz órányi beszédadattal tanítottunk be. Ez egy végpontok közötti modell, amely nyers hullámformát használ bemenetként, és nem tesz feltételezéseket a figyelembe vett nyelvek fonetikájára vagy nyelvtanára vonatkozóan. Ehelyett megpróbál a hanganyag összes releváns tulajdonságára következtetni az adatok alapján. Végeredményként a modell által felismert nyelvek valószínűség-eloszlását kínálja.
Legalább 1 másodperc és legfeljebb 1 perc hosszúságú felvételek besorolására használhatja. Vegye figyelembe, hogy minél hosszabb a felvétel, annál pontosabb a meghatározás. 20 másodperces felvételnél a pontosság körülbelül 95%-os, míg egy 5 másodperces mintánál alig több mint 80%-os.
Szeretném alkalmazni
Ha érdekli Önt ez a technológia, nézze meg a
Rapidapi oldalon elérhető API-nkat.