Introduktion
Muntlig språkidentifierare är en tjänst som försöker avgöra vilket språk som talas i en ljudinspelning.
Modellen stöder för närvarande 8 språk: engelska, spanska, italienska, franska, tyska, portugisiska, nederländska och ryska.
Ljudformat som stöds: WAV, FLAC, OGG.
Teknologi
Modellen använder ihoplänkade och återkommande neurala nätverk upplärda med hjälp av data bestående av tiotals timmars tal. Detta är en modell som använder en rå vågform som input och gör inga antaganden gällande fonetiken eller grammatiken för de språk som beaktas. Istället försöker den uppfatta alla relevanta egenskaper i ljudet från datan. Den producerar sannolikhetsfördelningen över de språk som igenkänns av modellen som output.
Du kan använda den för att klassificera inspelningar så korta som 1 sekund och så långa som en minut. Observera att ju längre inspelningen är, desto högre är förutsägelsens noggrannhet. För 20 sekunder långa inspelningar är noggrannheten cirka 95 %, medan den för 5 sekunder långa prov är drygt 80 %
Jag vill ha den
Om denna teknologi intresserar dig är du välkommen att ta en titt på vår API tillgänglig på
Rapidapi