Wydobywanie terminologii

Informacje o wydobywaniu terminologii

Wprowadzenie

Terminologia to zbiór terminów określających dany temat. Wydobywanie terminologii to proces wyszukiwania terminów w tekście.

Chodzi o porównanie częstotliwości słów występujących w danym dokumencie z częstotliwością używania ich w konkretnym języku. Terminami są prawdopodobnie wyrazy bardzo często pojawiające się w dokumencie, natomiast rzadko w języku.

Technologia

Technologia ta wykorzystuje rozkład Poissona, ocenę maksymalnej wiarygodności i odwrotną proporcjonalność pomiędzy częstotliwością występowania słów w danym dokumencie a częstotliwością ich występowania w ogólnym korpusie językowym, liczącym po 100 milionów słów na dany język. Wykorzystuje ona probabilistyczny moduł tagujący części mowy, który pozwala uwzględnić prawdopodobieństwo, że określona sekwencja słów może być traktowana jako termin. Tworzy n-gramy słów, minimalizując entropię względną.

W jakim celu opracowaliśmy tę funkcję?

Firma Translated opracowała tę technologię, aby pomóc tłumaczom zidentyfikować trudne partie dokumentu i uprościć proces tworzenia glosariuszy.

Używamy go również do poprawy wyników wyszukiwania w tradycyjnych wyszukiwarkach (np. Google), lepiej szacując, w jakim stopniu słowo kluczowe jest istotne dla danego dokumentu.

Chcę z tego skorzystać

Jeśli interesuje Cię ta technologia, przeczytaj więcej o Translated Labs i naszych usługach przetwarzania języka naturalnego.

Potrafię zrobić to lepiej!

Ciągle poszukujemy uzdolnionych, globalnie myślących inżynierów.
Skontaktuj się z nami, jeśli uważasz, że możesz udoskonalić którąś z tych aplikacji.

Skontaktuj się z nami

Poznaj nasze eksperymenty

Identyfikator języka mówionego

Identyfikator języka mówionego automatycznie wykrywa język wypowiadanego tekstu. Możesz go użyć do klasyfikowania nagrań trwających od 1 sekundy do 1 minuty. Obecnie obsługuje 8 języków.

Dowiedz się więcej lub pobierz interfejs API
Ekstraktor terminologii

Narzędzie to automatycznie wyodrębnia terminologię techniczną z tekstu pisanego. Może pomóc tłumaczom identyfikować trudniejsze partie dokumentu i uprościć proces tworzenia glosariuszy.

Dowiedz się więcej lub pobierz interfejs API
Analizator czytelności

Pisemne informacje – szczególnie te zamieszczane w internecie – muszą być łatwe w odbiorze i powinny być prawidłowo skonstruowane. Ta aplikacja pomaga sprawdzić, czy tekst jest w pełni czytelny, czy też wymaga udoskonalenia.

Dowiedz się więcej lub pobierz interfejs API
Identyfikator języka

Identyfikator języka automatycznie wykrywa język tekstu pisanego. Może również służyć do zidentyfikowania tematu tekstu napisanego w niezrozumiałym dla Ciebie języku.

Dowiedz się więcej
Relacje semantyczne

Co mają ze sobą wspólnego słowa samolot, ptak i śmigłowiec? Ta aplikacja wyszukuje związki semantyczne w tekście, analizując statystyczne właściwości wyrazów.

Dowiedz się więcej
Zabawa w tłumaczenia

Jak wyglądałoby zdanie przetłumaczone z angielskiego na japoński, następnie znów na angielski, a potem ponownie z angielskiego na japoński i tak dalej? Warto spróbować! Najzabawniejszymi wynikami koniecznie podziel się z przyjaciółmi.

Dowiedz się więcej