Giriş
Konuşulan dil tanımlayıcısı, bir ses kaydında konuşulan dili belirlemeye çalışan bir hizmettir.
Model, şu anda 8 dili desteklemektedir: İngilizce, İspanyolca, İtalyanca, Fransızca, Almanca, Portekizce, Felemenkçe ve Rusça.
Desteklenen ses formatları: WAV, FLAC, OGG.
Teknoloji
Model, onlarca saatlik konuşma verileri konusunda eğitilmiş evrişimli ve tekrarlayan sinir ağlarını kullanır. Bu, girdi olarak ham bir dalga biçimi kullanan ve dikkate alınan dillerin fonetikleri veya gramerleri hakkında hiçbir varsayım yapmayan uçtan uca bir modeldir. Aksine, sesin tüm ilgili özelliklerini verilerden çıkarmaya çalışır. Model tarafından çıktı olarak tanınan diller üzerinde olasılık dağılımı üretir.
Kayıtları 1 saniye kadar kısa ve bir dakika kadar süreler halinde sınıflandırmak için kullanabilirsiniz. Kayıt ne kadar uzun olursa tahminin doğruluğu da o kadar yüksek olur. Doğruluk, 20 saniyelik kayıtlarda yaklaşık %95 olurken 5 saniyelik numunelerde % 80'in biraz üzerindedir
İstiyorum
Bu teknoloji sizi ilgilendiriyorsa lütfen şu adresteki API'mıza göz atın:
Rapidapi