kurator: Eneko Agirre
Eugeniusz M. Iżykiewicz
Ke CHEN
Philip Edmonds
w przetwarzaniu języka naturalnego disambiguation word sense (WSD) jest problemem określenia, który „sens” (Znaczenie) słowa jest aktywowany przez użycie słowa w określonym kontekście, proces, który u ludzi wydaje się być nieświadomy. WSD jest naturalnym problemem klasyfikacyjnym: dane słowo i jego możliwe sensy, zdefiniowane przez słownik, klasyfikują wystąpienie słowa w kontekście na jedną lub więcej jego senseklas. Cechy kontekstu (takie jak sąsiednie słowa)dostarczają dowodów na klasyfikację.
słynnym przykładem jest określenie sensu pióra w następnym fragmencie (Bar-Hillel 1960):
Mały John szukał swojego pudełka na zabawki. W końcu go znalazł. Pudełko było w długopisie. John był bardzo szczęśliwy.
WordNet wymienia pięć znaczeń dla słowa pióro:
- pióro-przyrząd do pisania z punktem, z którego wypływa tusz.
- pióro-obudowa do zamykania zwierząt gospodarskich.
- kojec, długopis-przenośna obudowa, w której można pozostawić dzieci do zabawy.
- zakład karny, pen — Zakład Karny dla osób skazanych za ciężkie przestępstwa.
- długopis – samica łabędzia.
badania posunęły się stopniowo do tego stopnia, że systemy WSD osiągają stały poziom dokładności w odniesieniu do różnych typów słów i różnych ich odmian. Zbadano bogatą różnorodność technik, od metod opartych na słownikach, które wykorzystują wiedzę zakodowaną w zasobach leksykalnych, przez nadzorowane metody uczenia maszyn, w których klasyfikator jest szkolony dla każdego wyrazu odrębnego na korpusie ręcznych przykładów z adnotacjami zmysłowymi, po całkowicie nienadzorowane metody, które skupiają wystąpienia słów, a tym samym ograniczają zmysły słowa. Wśród nich, nadzorowane metody uczenia się były najbardziej skuteczne algorytmy do tej pory.
aktualna dokładność jest trudna do określenia bez wielu zastrzeżeń. W języku angielskim dokładność na poziomie gruboziarnistym (homograf) rutynowo przekracza 90%, przy czym niektóre metody na poszczególnych homografach osiągają ponad 96%. W ostatnich ćwiczeniach ewaluacyjnych (SemEval-2007, Senseval-2) odnotowano najwyższe dokładności od 59,1% do 69,0%, gdzie podstawowa dokładność najprostszego możliwego algorytmu zawsze wybierającego najbardziej częsty sens wynosiła odpowiednio 51,4% i 57%.
- spis treści
- Historia
- Aplikacje
- użyteczność WSD
- tłumaczenie maszynowe
- wyszukiwanie informacji
- information extraction and knowledge acquisition
- metody
- metody oparte na słownikach i wiedzy
- metody nadzorowane
- metody pół-nadzorowane
- metody bez nadzoru
- Ewaluacja
- dlaczego WSD jest twarde?
- inwentaryzacja zmysłów nie może być niezależna od zadania
- różne algorytmy dla różnych aplikacji
- Znaczenie słowa Nie dzieli się na dyskretne zmysły
- Zobacz też
spis treści
- 1 Historia
- 2 aplikacje
- 2.1 użyteczność WSD
- 2.2 tłumaczenie maszynowe
- 2.3 wyszukiwanie informacji
- 2.4 pozyskiwanie informacji i zdobywanie wiedzy
- 3 metody
- 3.1 metody oparte na słownikach i wiedzy
- 3.2 metody nadzorowane
- 3.3 metody częściowo nadzorowane
- 3.4 metody nienadzorowane
- 4 Ocena
- 5 Dlaczego WSD jest trudne?
- 5.1 inwentaryzacja sense nie może być niezależna od zadania
- 5.2 różne algorytmy dla różnych aplikacji
- 5.3 Znaczenie słowa Nie dzieli się na dyskretne zmysły
- 6 odnośniki
- 7 odnośniki
- 8 Zobacz też
Historia
WSD zostało po raz pierwszy sformułowane jako odrębne zadanie obliczeniowe podczas ostatnich dni tłumaczenia maszynowego w 1940 roku, co czyni je jednym z największych problemów w lingwistyce obliczeniowej. Warren Weaver, w swoim słynnym memorandum o tłumaczeniu z 1949 roku, po raz pierwszy przedstawił problem w kontekście obliczeniowym. Pierwsi badacze dobrze zrozumieli znaczenie i trudność WSD. W rzeczywistości Bar-Hillel (1960) użył powyższego przykładu,aby argumentować, że WSD nie może być rozwiązane przez „komputer elektroniczny” ze względu na ogólną potrzebę modelowania całej wiedzy o świecie.
w latach 70. WSD było podzadaniem semantycznych systemów interpretacji opracowanych w dziedzinie sztucznej inteligencji, ale ponieważ systemy WSD były w dużej mierze oparte na regułach i kodowane ręcznie, były podatne na wąskie gardło zdobywania wiedzy.
w latach 80. XX wieku stały się dostępne duże zasoby leksykalne, takie jak Oxford Advanced Learner ’ s Dictionary of Current English (OALD): ręczne kodowanie zostało zastąpione wiedzą automatycznie wyekstrahowaną z tych zasobów, ale nadal disambiguacja była oparta na wiedzy lub słowniku.
w latach 90.rewolucja statystyczna przetoczyła się przez informatykę, a WSD stało się problemem paradygmatu, który stosował nadzorowane techniki uczenia maszynowego.
w 2000 roku techniki nadzorowane osiągnęły plateau dokładności,więc uwaga przeniosła się na grubsze ziarniste zmysły, domainadaptację, pół-nadzorowane i nienadzorowane systemy oparte na ciele,kombinacje różnych metod i powrót systemów opartych na wiedzy za pomocą metod opartych na wykresach. Mimo to nadzorowane systemy kontynuują najlepszą formę.
Aplikacje
tłumaczenie maszynowe jest oryginalną i najbardziej oczywistą aplikacją forWSD, ale WSD zostało faktycznie uwzględnione w prawie każdym zastosowaniu technologii językowych,w tym wyszukiwania informacji, leksykografii, eksploracji wiedzy/akwizycji i interpretacji semantycznej, andis staje się coraz ważniejsze w nowych obszarach badawczych, takich jak bioinformatyka i sieć semantyczna.
użyteczność WSD
nie ma wątpliwości, że powyższe aplikacje wymagają i używają dwuznaczności word sense w takiej czy innej formie. Nie wykazano jednak, aby WSD jako oddzielny moduł stanowił decydującą różnicę w żadnej aplikacji. Istnieje kilka ostatnich wyników, które wykazują niewielkie pozytywne efekty, na przykład w tłumaczeniu maszynowym, ale wykazano również, że WSD szkodzi wydajności, jak ma to miejsce w przypadku dobrze znanych osiągnięć w wyszukiwaniu informacji.
istnieje kilka możliwych powodów. Po pierwsze, domena aplikacji często ogranicza liczbę zmysłów, które może mieć słowo (np., nie można by się spodziewać, że „brzeg rzeki” ma sens w aplikacji finansowej), a więc Leksykony mogą I zostały odpowiednio skonstruowane. Po drugie, WSD może nie być wystarczająco dokładne, aby pokazać efekt, a ponadto używany inwentarz zmysłów jest mało prawdopodobny, aby dopasować konkretne rozróżnienia zmysłów wymagane przez zastosowanie. Po trzecie, traktowanie WSD jako osobnego komponentu lub modułu może być mylone, ponieważ może być ściślej zintegrowane jako proces pośredni (tj. jako wzajemna disambiguacja, poniżej).
tłumaczenie maszynowe
WSD jest wymagane do wyboru leksykalnego w MT dla słów, które mają różne tłumaczenia dla różnych zmysłów. Na przykład, w angielsko-francuskim tłumaczeniu wiadomości, angielski rzeczownik change może tłumaczyć albo changement („transformation”), albo monnaie („pocketmoney”). Jednak większość systemów tłumaczeniowych nie używa oddzielnego modułu WSD. Leksykon jest często wstępnie dezambigowany dla danej dziedziny, lub opracowywane są ręcznie reguły, lub WSD jest składany w statystyczny model tłumaczenia, w którym słowa są tłumaczone w frazach, które w ten sposób dostarczają kontekstu.
wyszukiwanie informacji
niejednoznaczność musi zostać rozwiązana w niektórych zapytaniach. Na przykład, biorąc pod uwagę „depresję”, czy system powinien zwracać dokumenty dotyczące choroby, systemów pogodowych lub ekonomii? Obecne systemy IR (takie jak Web searchengines), takie jak MT, nie używają modułu WSD; polegają one na użyciu odpowiedniego kontekstu w zapytaniu, aby pobrać tylko dokumenty odpowiednie do zamierzonego sensu (np. „depresja tropikalna”). W procesie zwanym wzajemną disambiguacją, przypominającym metodę Leska (poniżej), wszystkie słowa niejednoznaczne są niejednoznaczne ze względu na intencje współwystępujące w tym samym dokumencie.
information extraction and knowledge acquisition
w information extraction and text mining, WSD jest wymagane do dokładnej analizy tekstu w wielu aplikacjach. Na przykład system gromadzenia informacji może wymagać oznaczania odniesień do, powiedzmy, nielegalnych narkotyków, a nie leków medycznych. Badania bioinformatyczne wymagają skatalogowania związków między genami i produktami genowymi z rozległej literatury naukowej, jednak geny i ich białka często mają tę samą nazwę. Ogólniej, SemanticWeb wymaga automatycznej adnotacji dokumentów zgodnie z ontologią referencji. WSD dopiero zaczyna być stosowane w tych obszarach.
metody
istnieją cztery konwencjonalne podejścia do WSD:
- metody oparte na słownikach i wiedzy: opierają się one głównie na słownikach, tezauriach i leksykalnych bazach wiedzy, bez użycia jakichkolwiek dowodów korpusowych.
- nadzorowane metody: wykorzystują one sensowne korpusy do treningu.
- metody pół-nadzorowane lub minimalnie nadzorowane: wykorzystują one wtórne źródło wiedzy, takie jak mały korpus z adnotacjami jako dane nasienne w procesie bootstrappingu lub Dwujęzyczny korpus dopasowany do słowa.
- metody bez nadzoru: Unikają one (prawie) całkowicie zewnętrznych informacji i działają bezpośrednio z surowych, nieanonitowanych korpusów. Metody te znane są również pod nazwą rozróżnienia słowotwórczego.
metody oparte na słownikach i wiedzy
metoda Leska (Lesk 1986) jest przełomową metodą opartą na słownikach. Opiera się on na hipotezie, że słowa używane razem w tekście są ze sobą powiązane i że związek ten można zaobserwować w definicjach słów i ich sensów. Dwa (lub więcej) wyrazów określa się poprzez znalezienie pary słownikowych znaczeń z większymi wyrazami nakładającymi się na siebie w ich słownikowych definicjach. Np. przy dezambigu wyrazów w stożku, definicje odpowiednich znaczeń obejmują zarówno słowo „drzewo”, jak i „drzewo” (przynajmniej w jednym słowniku).
alternatywą dla stosowania definicji jest rozważenie ogólnej zależności zmysłu słowa i obliczenie podobieństwa semantycznego każdego zmysłu słowa w oparciu o daną leksykalną bazę wiedzy, taką jak WordNet. Metody oparte na wykresach przypominające rozsiewanie-aktywacjabadania z pierwszych dni badań nad sztuczną inteligencją zostały zastosowane z pewnym sukcesem.
przydatne są również preferencje wyboru (lub ograniczenia wyboru). Na przykład, wiedząc, że zwykle gotuje się jedzenie, można dezambigować słowo bas w I am cooking bass (tj. nie jest to instrument muzyczny).
metody nadzorowane
metody nadzorowane opierają się na założeniu, że kontekst może sam w sobie dostarczyć wystarczających dowodów, aby rozróżnić słowa (stąd znajomość świata i rozumowanie są uważane za niepotrzebne). Prawdopodobnie algorytm uczenia się każdej maszyny został zastosowany w WSD, w tym powiązane techniki, takie jak wybór funkcji, parametroptymizacja i uczenie się w zespole. Maszyny wektorowe wspomagające iuczenie oparte na pamięci okazały się do tej pory najbardziej skuteczne, prawdopodobnie dlatego, że radzą sobie z wysokimi wymiarami przestrzeni funkcji. Jednakże metody nadzorowane podlegają nowemu wąskiemu gardłu nabywania wiedzy, ponieważ polegają one na znacznych ilościach ręcznie oznakowanych korpusów do szkolenia, które są trudne i kosztowne w tworzeniu.
metody pół-nadzorowane
podejście bootstrapping rozpoczyna się od niewielkiej ilości danych na temat nasion dla każdego słowa: albo ręcznie oznakowanych przykładów szkoleniowych, albo niewielkiej liczby niezawodnych zasad decyzyjnych (np. gra w kontekście basu prawie zawsze wskazuje na instrument muzyczny). Nasiona stosuje się do wstępnego klasyfikatora, przy użyciu dowolnej nadzorowanej metody. Thisclassifier jest następnie używany na nieoznaczonej części korpusu, aby uzyskać większy zestaw treningowy, w którym zawarte są tylko najwierniejsze klasyfikacje. Proces ten powtarza się, każdy nowy klasyfikator jest szkolony na sukcesywnie większym korpusie treningowym, aż do wyczerpania całego korpusu lub do osiągnięcia określonej maksymalnej liczby iteracji.
inne techniki pół-nadzorowane wykorzystują duże ilości nieoznaczonej skorup do dostarczania informacji o współistnieniu, które uzupełniają oznakowane korpusy. Techniki te mogą pomóc w dostosowaniu nadzorowanych modeli do różnych dziedzin.
również wieloznaczne słowo w jednym języku jest często tłumaczone na różne słowa w drugim języku w zależności od sensu słowa. Dwujęzyczne korpusy dopasowane do wyrazów były używane do rozróżniania między językowymi rozróżnieniami zmysłów, rodzajem systemu pół-nadzorowanego.
metody bez nadzoru
nauka bez nadzoru jest największym wyzwaniem dla badaczy WSD. Podstawowym założeniem jest to, że podobne zmysły występują w podobnych kontekstach, a zatem zmysły mogą być indukowane z tekstu przez kasowanie zdarzeń słownych przy użyciu pewnej miary podobieństwa kontekstu. Następnie nowe wystąpienia słowa można zaklasyfikować do najbliżej wywołanych słów / zmysłów. Wydajność jest niższa niż w innych metodach, ale porównania są trudne,ponieważ wywołane zmysły muszą być odwzorowane do znanego słownika zmysłów słowa. Alternatywnie, jeśli mapowanie do zestawu słownikowych zmysłów nie jest pożądane, można przeprowadzić oceny oparte na klastrach (w tym pomiary entropii i czystości). Wydaje się, że uczenie się bez nadzoru przezwycięży wąskie gardło nabywania wiedzy, ponieważ nie są one zależne od wysiłku ręcznego.
Ewaluacja
ewaluacja systemów WSD wymaga wykonania korpusu testowego ręcznie oznaczonego celem lub prawidłowym zmysłem i zakłada, że taki korpus może być skonstruowany. Stosuje się dwa główne miary wydajności:
- precyzja: ułamek wykonanych przydziałów systemowych, które są poprawne
- : ułamek wszystkich wystąpień programu word prawidłowo przypisany przez system
jeśli system wykonuje przypisanie dla każdego słowa, To precision andrecall są takie same i można je nazwać dokładnością. Model ten został opracowany w celu uwzględnienia systemów, które zwracają zestaw zmysłów z uwzględnieniem każdego wystąpienia.
istnieją dwa rodzaje korpusów testowych:
- próbka leksykalna: wystąpienia małej próbki słów docelowych muszą być niejednoznaczne, a
- wszystkie słowa: Wszystkie słowa w kawałku tekstu uruchomionego muszą być niejednoznaczne.
ten ostatni jest uważany za bardziej realistyczną formę oceny, ale korpus jest droższy w produkcji, ponieważ ludzkie adnotatory za każdym razem muszą czytać definicje każdego słowa w sekwencji, a nie raz dla bloku okoliczności dla tego samego słowa docelowego. W celu zdefiniowania wspólnych zestawów danych i procedur oceny zorganizowano publiczne kampanie ewaluacyjne. Senseval był prowadzony trzy razy: Senseval – 1 (1998), Senseval-2 (2001), Senseval-3 (2004) i jego następca, SemEval (2007), raz.
dlaczego WSD jest twarde?
Ten artykuł omawia powszechną i tradycyjną charakterystykę WSD jako wyraźnego i oddzielnego procesu ambiguacji w odniesieniu do stałego spisu znaczeń słów. Zazwyczaj zakłada się, że słowa mają skończony i dyskretny zestaw zmysłów, grosssimplification złożoności znaczenia słowa, jak badane w semantyce leksykalnej.Chociaż ta charakterystyka była owocna dla badań nad WSD per se, jest ona nieco sprzeczna z tym, co wydaje się być potrzebne w rzeczywistych zastosowaniach, jak omówiono powyżej.
WSD jest trudne z wielu powodów, z których trzy są omawiane tutaj.
inwentaryzacja zmysłów nie może być niezależna od zadania
inwentaryzacja zmysłów niezależna od zadania nie jest spójną koncepcją:każde zadanie wymaga własnego podziału znaczenia słowa na sensy odpowiadające zadaniu. Na przykład dwuznaczność myszy (zwierzęcia lub urządzenia) nie ma znaczenia w angielsko-francuskim traktowaniu maszyn, ale ma znaczenie w wyszukiwaniu informacji. Przeciwieństwem jest rzeka, która wymaga wyboru w języku francuskim (fleuve „płynie do morza”, lub rivière „płynie do rzeki”).
różne algorytmy dla różnych aplikacji
całkowicie różne algorytmy mogą być wymagane przez różne aplikacje. W tłumaczeniu maszynowym problem przybiera formę doboru słów. W języku docelowym „sensami” są słowa, które często odpowiadają znaczącym znaczeniom w języku źródłowym (bank mógłby przetłumaczyć na Francuski banque’ Financial bank 'lub rive’edge of river’). W informacjiretrieval, spis sensów niekoniecznie jest wymagany, ponieważ jest to wystarczające, aby wiedzieć, że słowo jest używane w tym samym znaczeniu w zapytaniu i pobranym dokumencie; jaki to sens jest nieistotny.
Znaczenie słowa Nie dzieli się na dyskretne zmysły
wreszcie samo pojęcie „sensu słowa” jest śliskie i niekonwencjonalne. Większość ludzi może zgadzać się w rozróżnieniach na poziomie homografu gruboziarnistego (np. pióro jako instrument do pisania lub obudowa), ale zejść o jeden poziom do polisemy drobnoziarnistej i pojawiają się nieporozumienia. Na przykład w Senseval-2, który korzystał z drobnoziarnistych rozróżnień znaczeniowych, ludzie zgadzali się tylko w 85% wystąpień słów. Znaczenie słowa jest z zasady nieskończenie zmienne i wrażliwe na kontekst. Nie dzieli się łatwo na odrębne lub dyskretne pod-znaczenia.Leksykograficy często odkrywają w korpusach luźne i nakładające się znaczenia słów, a standardowe lub konwencjonalne znaczenia rozszerzone, modulowane i eksploatowane w oszałamiający sposób. Sztuką leksykografii jest uogólnianie z korpusu definicji określających i wyjaśniających pełen zakres znaczeń słowa, sprawiając, że wydaje się, iż słowa są dobrze zachowywane semantycznie. Nie jest jednak w ogóle jasne, czy te same rozróżnienia znaczeniowe mają zastosowanie w zastosowaniach niezrozumiałych, ponieważ decyzje leksykografów są zwykle napędzane innymi względami.
Sugerowana lektura
- Bar-Hillel, Yehoshua. 1964. Język i informacje. Addison-Wesley
- Edmonds, Philip & Adam Kilgarriff. 2002. Wprowadzenie do wydania specjalnego poświęconego ocenie systemów dysambiguacji word sense. Journal of Natural Language Engineering, 8(4):279-291.
- Ide, Nancy & Jean Véronis. 1998. Disambiguation Word sense: the state of the art. Computational Linguistics, 24(1): 1-40.
- Jurafsky Daniel & James H. Martin. 2000. Przetwarzanie mowy i języka. New Jersey, USA: Prentice Hall.
- Lesk Michał 1986. Automatyczna dysambiguacja zmysłów za pomocą czytelnych maszynowo słowników: jak odróżnić Szyszkę od stożka lodowego. Proceedings of SIGDOC-86: 5th International Conference on Systems Documentation, Toronto, Kanada, 24-26.
- Mihalcea, Rada. 2007. Disambiguation Word sense. Encyklopedia uczenia maszynowego. Springer-Verlag.
- Schütze, Hinrich. 1998. Automatyczna dyskryminacja słowna. Computational Linguistics, 24 (1): 97-123.
- Jarowski Dawid 1995. Unsupervised Word sense disambiguation rywalizacja nadzorowane metody. Obrady 33. dorocznego spotkania Stowarzyszenia lingwistyki komputerowej, 189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps
- Tomasz Downarowicz (2007) Entropia. Scholarpedia, 2 (11): 3901.
- Mark Aronoff (2007) Scholarpedia, 2 (5): 3175.
- strona Senseval
- strona SemEval
- WSD tutorial
Zobacz też
Lingwistyka, przetwarzanie języka naturalnego
sponsorowany przez: Prof. Ke CHEN, School of Computer Science, University of Manchester, Wielka Brytania
Zrecenzowany przez: Anonymous
Zrecenzowany przez: Dr Rada Mihalcea, University of North Texas
zaakceptowane dnia: 2008-05-23 17:13:44 GMT