自動言語識別
言語識別子に関する情報
はじめに
言語識別子は、自動分類子です。あるテキストと、以前に挿入した参照テキストとの類似性を計算します。
テクノロジー
これは、テキストに出現するバイトシーケンスの統計的特性を座標として使用して、テキストのn次元の表現を作りだします( ベクトル空間モデル)。以前に挿入した参照テキストに対して同じ操作を実行します。n次元空間では、挿入したテキストは正確な位置で示されます。それに最も近い参照テキストが、最もよく似ているということになります。
なぜこれを開発したのか?
このテクノロジーは、翻訳者にとって有用な情報をWebから抽出できるスパイダーの不可欠な部分です。
自動分類子として、サンプルドキュメントを提供することで、ドキュメントがどのカテゴリに属するかを簡単に示すことができます。このような機能により、メールなどのやり取りを分類し、理解できない言語で書かれたテキストのトピックを特定するためにも使用しています。
是非使用したい!
このテクノロジーにご興味を持ってくださった場合には、 Translated Labs と自然言語処理に関する当社のサービスの詳細をお読みください。
力をお貸しください!
Translatedでは、グローバルな視点を持つ優れたエンジニアを常時募集しています。
当社アプリのさらなる向上に貢献できるとお考えの方は、ぜひご応募ください。
私たちの実験をご覧ください
Translation Party
英文を日本語に翻訳し、それをまた英語に翻訳し直す。それが無限ループのように続くとどうなるでしょう?ぜひ、お試しを!面白い結末を、ぜひお友達にシェアしてくださいね。
もっと詳しく