术语提取
关于提取术语
简介
术语是标识特定主题的专有名词。提取术语是从文本中将术语提取出来的过程。
该技术的思路是将给定文档中的词汇频率与该语言中相应词汇的频率进行比较。如果某些词汇在该文档中为高频词,在相应的语言中却很少出现,这些词语就很有可能是术语。
技术
该技术使用泊松统计、 最大似然估计和逆文本频率指数在既定文档词汇频率和相应语言的 1 亿字通用语料库之间进行比较。该技术还使用概率词性标注来考量特定词语序列是术语的概率。它通过最小化 相对熵来形成 N 元字节(n-grams)。
开发该技术的理由?
Translated 开发这项技术帮助译者了解文本的难易程度,并简化术语表的创建过程。
我们还使用该技术优化关键字与文档相关度的评估,改善传统搜索引擎(例如 Google)的搜索结果。
我希望使用该技术!
如果您对此技术感兴趣,请参阅有关 Translated Labs 以及自然语言处理服务的更多信息。
我也能行!
我们一直在寻找具有全球思维的优秀工程师。
如果您认为自己有能力改善这些应用程序,欢迎与我们联系。