音声言語識別

音声言語識別は、音声記録で話されている言語を特定しようというサービスです。
このモデルでは現在、英語、スペイン語、イタリア語、フランス語、ドイツ語、ポルトガル語、オランダ語、ロシア語の8言語に対応しています。

音声言語識別は、いくつかの方法でテストできます。たとえば、音声を録音して音声ファイルをアップロードする、または当社の例の1つを使用することもできます。

音声言語識別に関する情報

はじめに

音声言語識別は、音声録音で話されている言語を特定しようというサービスです。

このモデルでは現在、英語、スペイン語、イタリア語、フランス語、ドイツ語、ポルトガル語、オランダ語、ロシア語の8言語に対応しています。

サポートされているオーディオ形式：WAV、FLAC、OGG。

テクノロジー

このモデルは、数十時間の音声データでトレーニングされた、畳み込みニューラルネットワークと回帰型ニューラルネットワークを使用しています。これは、生の波形を入力として使用するエンドツーエンドのモデルで、考慮する言語の音声や文法についての仮定はありません。むしろ、データから音声のすべての関連する特徴を推測しようとします。そして、モデルが認識した言語について、出力として確率分布を生成します。

これを使用して、最短1秒、最長1分間の録音を分類できます。録音が長いほど、予測の精度は高くなります。録音時間20秒の場合の精度は約95%ですが、5秒のサンプルでは80%をわずかに超える程度となります。