용어 추출

용어는 특정 주제를 식별하는 단어를 총칭합니다. 용어 추출은 텍스트에서 용어를 추출하는 프로세스입니다.

문서에서의 해당 단어의 빈도와 특정 언어에서의 빈도를 비교하는 것이 원리입니다. 문서에서 자주 사용되지만 해당 언어에서는 거의 사용되지 않는 단어는 아마도 용어일 가능성이 높습니다.

문서의 포아송 통계, 최대 우도 추정, 문서의 단어 빈도와 언어 당 1억 단어로 이루어진 말뭉치 간의 역문서 빈도를 사용합니다. 특정 순서의 단어가 용어일 확률을 고려하기 위해 확률론적 품사 태깅을 사용합니다. 상대 엔트로피를 최소화하여 단어의 n-그램을 생성합니다.

Translated는 번역가가 문서의 난이도를 파악하고 용어집을 만드는 과정을 단순화할 수 있도록 이 기술을 개발했습니다.

또한, 키워드와 문서 간의 관련성을 더 잘 추정하여 기존 검색 엔진(예: Google)에서의 검색 결과를 개선하기 위해서도 사용합니다.

이 기술에 관심이 있으시면 Translated Labs에서 자세히 알아보고 자연어 처리에 관한 당사의 서비스를 확인하세요.

당사는 글로벌 마인드를 지닌 뛰어난 엔지니어를 상시 채용하고 있습니다.
이러한 애플리케이션을 개선할 능력이 있다고 생각한다면 연락해주세요.

음성 언어 식별기는 자동으로 음성 텍스트의 언어를 감지합니다. 1초-1분 분량의 녹음 파일을 분류하는 데 사용할 수 있습니다. 현재 8개 언어를 지원합니다.

이 도구는 서면 텍스트에서 기술 주제의 용어를 자동으로 추출합니다. 이 기술은 번역가가 문서의 난이도를 파악하고 용어집을 만드는 과정을 단순화할 수 있게 해줍니다.

서면 정보는 특히 인터넷에서 읽기 쉽게 구성이 잘되어 있어야 합니다. 이 애플리케이션을 사용하면 텍스트가 쉽게 읽히는지 또는 개선해야 할 부분이 있는지 알 수 있습니다.

언어 식별기는 서면 텍스트의 언어를 자동으로 감지합니다. 또한 사용자가 알지 못하는 언어로 작성된 텍스트의 주제를 식별하는 데 사용할 수도 있습니다.

비행기와 새, 헬리콥터라는 단어의 공통점은 무엇일까요? 이 애플리케이션은 단어의 통계적 속성을 분석하여 텍스트의 의미론적 관계를 찾습니다.

무한 루프처럼, 영어 문장을 일본어로 번역한 다음 다시 영어로 번역하면 어떻게 될까요? 한 번 해보세요! 그리고, 잊지 말고 재미있는 결과를 친구들과 꼭 공유해보세요.