Extraktion av terminologi

Information om extraktion av terminologi

Introduktion

Terminologi är summan av termer som identifierar ett specifikt ämne. Extraktion av terminologi är processen för att extrahera terminologi från en text.

Tanken är att jämföra frekvensen av ord i ett givet dokument med deras frekvens i språket. Ord som förekommer mycket ofta i dokumentet men sällan i språket är förmodligen termer.

Teknologi

Den använder Poisson-statistik, uppskattning av maximal sannolikhet och omvänd dokumentfrekvens mellan ordfrekvensen i ett givet dokument och ett generiskt korpus på 100 miljoner ord per språk. Den använder en probabilistisk ordklasstaggare för att ta hänsyn till sannolikheten för att en viss sekvens kan vara en term. Det skapar n-gram av ord genom att minimera den relativa entropin.

Varför har vi utvecklat detta?

Translated har utvecklat denna teknologi för att hjälpa sina översättare att bli medvetna om svårigheterna i ett dokument och förenkla processen för att skapa ordlistor.

Vi använder den också för att förbättra sökresultaten i traditionella sökmotorer (t.ex. Google) genom att tillhandahålla en bättre uppskattning av hur pass relevant ett sökord är för ett dokument.

Jag vill ha den!

Om du är intresserad av den här teknologin får du gärna läsa mer om Translated Labs och våra tjänster för naturlig språkbearbetning.

Jag kan göra detta bättre!

Vi är alltid intresserade av att anställa duktiga utvecklare med ett globalt tankesätt.
Hör av dig om du tror att du kan förbättra någon av dessa applikationer.

Kontakta oss

Utforska våra experiment

Spoken Language Identifier

Spoken Language Identifier fastställer automatiskt språket i en talad text. Du kan använda detta verktyg för att klassificera inspelningar på mellan 1 sekund och 1 minut. Det stöder för närvarande 8 språk.

Läs mer eller skaffa API
Terminology Extractor

Detta verktyg extraherar automatiskt terminologin för ett tekniskt ämne från en skriven text.Det kan hjälpa översättare att identifiera svårigheter i ett dokument och förenkla processen för att skapa ordlistor.

Läs mer eller skaffa API
Läsbarhetsanalysator

Skriftlig information, särskilt på Internet, måste vara välstrukturerad och enkel att läsa.Denna applikation hjälper dig att förstå huruvida en text är lättläst eller om den behöver förbättras.

Läs mer eller skaffa API
Language Identifier

Language Identifier upptäcker automatiskt språket i en skriven text. Verktyget kan även användas för att identifiera ämnet i en text som är skriven på ett språk du inte förstår.

Läs mer
Semantiska relationer

Vad har orden flygplan, fågel och helikopter gemensamt?Denna applikation söker efter semantiska relationer i en text genom att analysera ordens statistiska egenskaper.

Läs mer
Translation Party

Vad händer när du översätter en mening på engelska till japanska, och sedan tillbaka till engelska, som om det vore en oändlig cirkel? Tja, prova! Och glöm inte att dela de roligaste resultaten med dina vänner.

Läs mer