مقدمة
مُعرّف اللغة المنطوقة عبارة عن خدمة تحاول تحديد اللغة المنطوقة في تسجيل صوتي.
يدعم النموذج حاليًا 8 لغات: الإنجليزية والإسبانية والإيطالية والفرنسية والألمانية والبرتغالية والهولندية والروسية.
تنسيقات الصوت المدعومة: WAV وFLAC وOGG.
التقنية
يستخدم النموذج شبكات عصبية ملتفة ومتكررة مدربة على عشرات الساعات من بيانات الكلام. وهذا نموذج من طرف إلى طرف يستخدم شكل موجة غير مُعالَجة كمدخلات ولا يقدم أي افتراضات حول الصوتيات أو القواعد النحوية للغات المعنية. وبدلاً من ذلك، يحاول استنتاج جميع ميزات الصوت ذات الصلة من البيانات. ويُنتج توزيع الاحتمالية عبر اللغات التي يميزها النموذج كمخرجات.
يمكنك استخدامه لتصنيف التسجيلات القصيرة التي تبلغ مدتها ثانية واحدة وبطول حتى دقيقة واحدة. ولاحظ أنه كلما طالت مدة التسجيل، زادت دقة التنبؤ. وبالنسبة للتسجيلات التي يبلغ طولها 20 ثانية، تبلغ الدقة حوالي 95%، بينما تزيد الدقة للعينات التي تبلغ مدتها 5 ثوانٍ قليلاً عن 80%
أريدها
إذا كانت هذه التقنية تهمك، فيُرجى إلقاء نظرة على واجهة برمجة التطبيقات المتاحة على
Rapidapi