用語抽出

用語とは、特定のトピックを識別する言葉を合わせたものです。用語抽出は、テキストから用語を抽出するプロセスです。

考え方としては、特定のドキュメント内の単語の頻度と言語での頻度を比較します。ドキュメントには頻繁に出現する一方で、言語にはほとんど出現しない単語は、おそらく用語です。

与えられた文書中の単語の頻度と1言語に対して1億単語のコーパスの間のポアソン統計、最尤推定、および対数逆文書頻度を使用します。単語が特定の順序で出現してある用語となる可能性を考慮するため、確率的な品詞タガーを使用しています。相対エントロピーを最小限に抑えることで、単語のn-gramを作り出します。

Translatedはこのテクノロジーを開発して、翻訳者がドキュメントの難関点を認識し、用語集の作成プロセスを簡略化できるようにしました。

また、これを使用すると、キーワードがドキュメントにどれだけ関連しているかをより正確に推定することによって、従来の検索エンジン（Googleなど）での検索結果の向上にも役立ちます。

このテクノロジーにご興味を持ってくださった場合には、 Translated Labs と自然言語処理に関する当社のサービスの詳細をお読みください。

Translatedでは、グローバルな視点を持つ優れたエンジニアを常時募集しています。
当社アプリのさらなる向上に貢献できるとお考えの方は、ぜひご応募ください。

音声言語識別は、音声として発せられた言語の種類を自動的に判定します。1秒から1分までの録音を分類することができます。現在8言語に対応しています。

専門的な内容の文書から専門用語を自動的に抽出するツールです。翻訳者が文書内の難関点を特定し、用語集をスムーズに作成するのに役立ちます。

ウェブサイトをはじめとする書面情報は、読みやすく、すっきりとした構成が求められます。可読性アナライザーは、テキストの読みやすさや改善の必要性を教えてくれます。

言語識別は、書面に記載された文章の言語を自動的に判定します。また、理解できない言語で書かれた文章のトピックを識別するのにも役立ちます。

飛行機、鳥、ヘリコプターという単語の共通点は何か？このアプリケーションは、単語の統計的性質を分析することで、文中の単語どうしの意味的関係を検索します。

英文を日本語に翻訳し、それをまた英語に翻訳し直す。それが無限ループのように続くとどうなるでしょう？ぜひ、お試しを！面白い結末を、ぜひお友達にシェアしてくださいね。