용어 추출
용어 추출에 대한 정보
소개
용어는 특정 주제를 식별하는 단어를 총칭합니다. 용어 추출은 텍스트에서 용어를 추출하는 프로세스입니다.
문서에서의 해당 단어의 빈도와 특정 언어에서의 빈도를 비교하는 것이 원리입니다. 문서에서 자주 사용되지만 해당 언어에서는 거의 사용되지 않는 단어는 아마도 용어일 가능성이 높습니다.
기술
문서의 포아송 통계, 최대 우도 추정, 문서의 단어 빈도와 언어 당 1억 단어로 이루어진 말뭉치 간의 역문서 빈도를 사용합니다. 특정 순서의 단어가 용어일 확률을 고려하기 위해 확률론적 품사 태깅을 사용합니다. 상대 엔트로피를 최소화하여 단어의 n-그램을 생성합니다.
왜 이것을 개발했을까요?
Translated는 번역가가 문서의 난이도를 파악하고 용어집을 만드는 과정을 단순화할 수 있도록 이 기술을 개발했습니다.
또한, 키워드와 문서 간의 관련성을 더 잘 추정하여 기존 검색 엔진(예: Google)에서의 검색 결과를 개선하기 위해서도 사용합니다.
사용해보고 싶어요!
이 기술에 관심이 있으시면 Translated Labs에서 자세히 알아보고 자연어 처리에 관한 당사의 서비스를 확인하세요.
더 잘 할 수 있습니다!
당사는 글로벌 마인드를 지닌 뛰어난 엔지니어를 상시 채용하고 있습니다.
이러한 애플리케이션을 개선할 능력이 있다고 생각한다면 연락해주세요.
당사의 실험을 확인하세요
Translation Party
무한 루프처럼, 영어 문장을 일본어로 번역한 다음 다시 영어로 번역하면 어떻게 될까요? 한 번 해보세요! 그리고, 잊지 말고 재미있는 결과를 친구들과 꼭 공유해보세요.
더 알아보기