מבוא
מזהה השפה המדוברת הוא שירות שמנסה לקבוע את השפה המדוברת בהקלטת שמע.
המודל תומך כיום בשמונה שפות: אנגלית, ספרדית, איטלקית, צרפתית, גרמנית, פורטוגזית, הולנדית ורוסית.
פורמטי השמע הנתמכים: WAV, FLAC, OGG.
טכנולוגיה
המודל עושה שימוש ברשתות עצביות חוזרות ומורכבות שהוכשרו בעשרות שעות של נתוני דיבור. זהו מודל מקצה לקצה העושה שימוש בצורת גל גולמי כקלט ואינו מניח הנחות לגבי הפונטיקה או הדקדוק של השפות שהוא מביא בחשבון. במקום זאת, הוא מנסה להסיק את כל התכונות הרלוונטיות של השמע מהנתונים. כך נוצרת התפלגות הסתברותית על פני השפות שזוהו על ידי המודל כפלט.
ניתן להשתמש בו כדי לסווג הקלטות קצרות משנייה אחת ועד דקה. שימו לב שככל שההקלטה ארוכה יותר, כך רמת הדיוק של התחזית גבוהה יותר. עבור הקלטות של 20 שניות הדיוק הוא בערך 95%, ואילו עבור דוגמאות של 5 שניות הוא קצת יותר מ-80%
אני רוצה את זה
אם טכנולוגיה זו מעניינת אתכם, אתם מוזמנים לעיין בממשק ה-API שלנו שזמין
ב-Rapidapi