Terminologie-extractie

Informatie over het extraheren van terminologie

Introductie

Terminologie is de som van de termen die een specifiek onderwerp identificeren. Terminologie extraheren is het proces waarbij terminologie uit een tekst wordt gehaald.

Het idee is om de frequentie van woorden in een bepaald document te vergelijken met hun frequentie in de taal. Woorden die zeer vaak in het document voorkomen, maar zelden in de taal, zijn waarschijnlijk termen.

Technologie

Het maakt gebruik van Poisson-statistieken, de maximale waarschijnlijkheidsschatting en de inverse documentfrequentie tussen de frequentie van woorden in een bepaald document en een algemene corpus van 100 miljoen woorden per taal. Het gebruikt een probabilistische part-of-speech-tagger om rekening te houden met de waarschijnlijkheid dat een bepaalde reeks woorden een term zou kunnen zijn. Het creëert n-gram woorden door de relatieve entropie te minimaliseren.

Waarom hebben we dit ontwikkeld?

Translated heeft deze technologie ontwikkeld om haar vertalers te helpen zich bewust te zijn van de uitdagingen in een document en om het proces van het maken van woordenlijsten te vereenvoudigen.

We gebruiken het ook om zoekresultaten te verbeteren in traditionele zoekmachines (vooral Google) door een betere schatting te geven van in welke mate een zoekwoord relevant is voor een document.

Ik wil het hebben!

Als u geïnteresseerd bent in deze technologie, lees dan meer over Translated Labs en onze diensten voor natuurlijke taalverwerking.

Dit kan ik beter!

We zijn voortdurend op zoek naar geweldige ontwikkelaars met een wereldwijde oriëntatie.
Neem contact op als u denkt dat u een van deze applicaties kunt verbeteren.

Neem contact op

Bekijk onze experimenten

Spoken Language Identifier

Spoken Language Identifier detecteert automatisch de taal van een gesproken tekst. U kunt het gebruiken om opnames van 1 seconde tot 1 minuut te classificeren. Het ondersteunt momenteel 8 talen.

Meer informatie of de API kopen
Terminologie Extractor

Dit programma haalt automatisch de terminologie van een technisch onderwerp uit een geschreven tekst. Het kan vertalers helpen problemen in een document te identificeren en het proces van woordenlijsten maken vereenvoudigen.

Meer informatie of de API kopen
Leesbaarheidsanalysator

Schriftelijke informatie, vooral op het internet, moet gemakkelijk leesbaar en goed gestructureerd zijn. Deze applicatie helpt u te begrijpen of een tekst gemakkelijk leesbaar is of verbeterd moet worden.

Meer informatie of de API kopen
Language Identifier

Language Identifier detecteert automatisch de taal van een geschreven tekst. Het kan ook worden gebruikt om het onderwerp van een geschreven tekst te identificeren in een taal die u niet begrijpt.

Meer informatie
Semantische relaties

Wat hebben de woorden vliegtuig, vogel en helikopter met elkaar gemeen? Deze applicatie zoekt naar semantische relaties in een tekst door de statistische eigenschappen van woorden te analyseren.

Meer informatie
Translation Party

Wat gebeurt er wanneer je een Engelse zin vertaalt naar het Japans en vervolgens terug naar het Engels, als in een oneindige lus? Probeer het maar eens! Vergeet niet om de grappigste resultaten met uw vrienden te delen.

Meer informatie