Извлечение терминологии

Информация об извлечении терминологии

Описание

Терминология — это сумма терминов, которые определяют конкретную тему. Извлечение терминологии — это процесс извлечения терминологии из текста.

Идея состоит в том, чтобы сравнить частоту использования слов в том или ином документе с их частотой в языке. Слова, которые встречаются в документе очень часто, но редко в языке, вероятно, являются терминами.

Технология

Применяется статистика Пуассона, оценка максимального правдоподобия и обратная частота документа между частотой слов в том или ином документе и общим объемом в 100 миллионов слов на каждый язык. Применяется вероятностное средство частеречной разметки для учета вероятности того, что определенная последовательность слов может составлять термин. С помощью минимизации относительной энтропии создаются n-граммы слов.

Почему мы разработали это приложение?

Translated разработала эту технологию, чтобы помочь переводчикам в определении трудностей текста и упростить процесс создания глоссариев.

Мы также используем ее для улучшения результатов поиска в традиционных поисковых системах (например, Google), давая более точную оценку степени, в которой ключевое слово имеет отношение к документу.

Мне это нужно!

Если вас заинтересовала эта технология, узнайте больше о Translated Labs и наших услугах по обработке естественного языка.

Я могу лучше!

Мы находимся в постоянном поиске первоклассных инженеров, мыслящих глобально.
Свяжитесь с нами, если считаете, что можете улучшить любое из этих приложений.

Свяжитесь с нами

Ознакомьтесь с нашими экспериментами

Spoken Language Identifier

Spoken Language Identifier автоматически определяет язык произнесенного текста. Технология может использоваться для классификации записей длиной от 1 секунды до 1 минуты. В настоящее время поддерживается 8 языков.

Узнайте больше или получите API
Terminology Extractor

Этот инструмент автоматически извлекает техническую терминологию из письменного текста.Он помогает переводчикам выявлять трудности в документе и упрощает процесс создания глоссариев.

Узнайте больше или получите API
Readability Analyzer

Письменная информация, особенно в Интернете, должна быть легко читаемой и хорошо структурированной.Это приложение поможет вам понять степень удобочитаемости текста и при необходимости внести изменения.

Узнайте больше или получите API
Language Identifier

Language Identifier автоматически определяет язык письменного текста. Его также можно использовать для определения темы письменного текста на языке, который вы не понимаете.

Узнайте больше
Semantic Relationships

Что общего у слов "самолет", "птица" и "вертолет"?Это приложение осуществляет поиск семантических связей в тексте, анализируя статистические свойства слов.

Узнайте больше
Translation Party

Что произойдет, если вы переведете английское предложение на японский, а затем снова на английский, как если бы это был бесконечный цикл? Попробуйте прямо сейчас! И не забудьте поделиться забавными фразами с друзьями.

Узнайте больше