Dezambiguizare sens cuvânt

activitate Post-publicare

Curator: Eneko Agirre

colaboratori:

0.50 –

Eugene M. Izhikevich

0.25 –

ke CHEN

0.25 –

Philip Edmonds

în procesarea limbajului natural, dezambiguizarea sensului cuvântului (WSD) este problema determinării „sensului” (sens) unui cuvânt este activat de utilizarea cuvântului într-un anumit context, proces care pare să fie inconștient la oameni. WSD este o problemă de clasificare naturală: dat un cuvânt și posibilele sale simțuri, așa cum sunt definite de un dicționar,clasifică o apariție a cuvântului în context într-una sau mai multe dintre clasele sale de sens. Caracteristicile contextului (cum ar fi cuvintele vecine)oferă dovezi pentru clasificare.

un exemplu celebru este de a determina simțul stiloului înurmătorul pasaj (Bar-Hillel 1960):

Micul John își căuta cutia de jucării. În cele din urmă a găsit-o. Cutia era în stilou. John era foarte fericit.

WordNet listează cinci simțuri pentru cuvântul stilou:

stilou — un instrument de scriere cu un punct din care curge cerneala.
pen — o incintă pentru limitarea animalelor.
țarc, stilou-o incintă portabilă în care bebelușii pot fi lăsați să se joace.
penitenciar, pen — o instituție corecțională pentru cei condamnați pentru infracțiuni majore.
pen — lebădă de sex feminin.

cercetarea a progresat constant până la punctul în care sistemele WSD ating niveluri consistente de precizie pe o varietate de tipuri de cuvinte și ambiguități. Au fost cercetate o bogată varietate de tehnici, de la metode bazate pe dicționar care utilizează cunoștințele codificate în resurse lexicale, până la metode de învățare a mașinilor supravegheate în care un clasificator este instruit pentru fiecare cuvânt distinct pe un corpus de exemple adnotate manual,până la metode complet nesupravegheate care grupează aparițiile cuvintelor, prin acestea inducând simțurile cuvintelor. Dintre acestea, abordările de învățare supravegheate au fost cei mai de succes algoritmi până în prezent.

precizia actuală este dificil de afirmat fără o serie de avertismente. Onengleză, precizia la nivelul cu granulație grosieră (omograf) este în mod obișnuit peste 90%, unele metode pe omografe particulare atingând peste 96%. În ceea ce privește distincțiile de simț mai fine, au fost raportate precizii de top de la 59,1% la 69,0% în exercițiile recente de evaluare (SemEval-2007, Senseval-2), unde precizia de bază a celui mai simplu algoritm posibil de a alege întotdeauna cel mai frecvent sens a fost de 51,4% și, respectiv, 57%.

cuprins
istoria
Aplicații
utilitatea WSD
traducere automată
regăsirea informațiilor
extragerea informațiilor și dobândirea cunoștințelor
metode
metode bazate pe dicționar și cunoștințe
metode supravegheate
metode semi-supravegheate
metode nesupravegheate
evaluare
de ce este greu WSD?
un inventar de simț nu poate fi independent de sarcină
algoritmi diferiți pentru diferite aplicații
sensul cuvântului nu se împarte în simțuri discrete
a se vedea, de asemenea,

cuprins

1 Istorie
2 Aplicații
- 2.1 utilitatea WSD
- 2.2 traducere automată
- 2.3 recuperarea informațiilor
- 2.4 extragerea informațiilor și dobândirea de cunoștințe
3 metode
- 3.1 metode bazate pe dicționar și cunoștințe
- 3.2 metode supravegheate
- 3.3 metode semi – supravegheate
- 3.4 metode nesupravegheate
4 evaluare
5 de ce este greu WSD?
- 5.1 un inventar sens nu poate fi independent de sarcină
- 5.2 algoritmi diferiți pentru diferite aplicații
- 5.3 sensul cuvântului nu se împarte în simțuri discrete
6 referințe
7 legături externe
8 A se vedea, de asemenea

istoria

WSD a fost formulată pentru prima dată ca o sarcină computațională distinctă în primele zile de traducere automată în anii 1940, făcându-l una dintre cele mai vechi probleme din lingvistica computațională. Warren Weaver, în celebrul său memorandum din 1949 privind traducerea, a introdus pentru prima dată problema într-un context computațional. Cercetătorii timpurii au înțeles bine semnificația și dificultatea WSD. De fapt, Bar-Hillel (1960) a folosit exemplul de mai sus pentru a argumenta că WSD nu a putut fi rezolvat de „computer electronic” din cauzanevoia generală de a modela toate cunoștințele mondiale.

în anii 1970, WSD era o subtască a sistemelor de interpretare semantică dezvoltate în domeniul inteligenței artificiale, dar din moment ce sistemele WSD erau în mare parte bazate pe reguli și codificate manual, erau predispuse la un blocaj de achiziție a cunoștințelor.

în anii 1980, resursele lexicale pe scară largă, cum ar fi Oxford Advanced Learner ‘ s Dictionary of Current English (OALD), au devenitdisponibil: codificarea manuală a fost înlocuită cu cunoașterea extrasă automat din aceste resurse, dar dezambiguizarea era încă bazată pe cunoaștere sau bazată pe dicționar.

în anii 1990, Revoluția statistică a trecut prin computationallingvistică, iar WSD a devenit o problemă de paradigmă care să aplice tehnici de învățare automată supravegheate.

în anii 2000,tehnicile supravegheate au atins un platou în precizie și, prin urmare, atenția s-a mutat către simțurile cu granulație mai grosieră,adaptarea domeniului, sistemele bazate pe corpus semi-supravegheate și nesupravegheate, combinații de metode diferite și revenirea sistemelor bazate pe cunoștințe prin metode bazate pe grafice. Totuși, sistemele supravegheate continuăcele mai bune performanțe.

Aplicații

traducerea automată este aplicația originală și cea mai evidentă pentrusd, dar WSD a fost de fapt luată în considerare în aproape fiecare aplicație a tehnologiei limbajului,inclusiv recuperarea informațiilor, lexicografia, extragerea/achiziția de cunoștințe și interpretarea semantică și devine din ce în ce mai importantă în noi domenii de cercetare, cum ar fi Bioinformatica și Web-ul Semantic.

utilitatea WSD

nu există nicio îndoială că aplicațiile de mai sus necesită și utilizează dezambiguizarea sensului wordîntr-o formă sau alta. Cu toate acestea, WSD ca modul separat nu a fost încă demonstrat că faceo diferență decisivă în orice aplicație. Există câteva rezultate recentecare arată mici efecte pozitive, de exemplu, în traducerea automată, dar s-a demonstrat că WSD afectează performanța, așa cum este cazul experimentelor bine cunoscute în recuperarea informațiilor.

există mai multe motive posibile pentru acest lucru. În primul rând, domeniul unei aplicații constrânge adesea numărul de simțuri pe care le poate avea un cuvânt (de ex., nu ne-am aștepta să vedem sensul ‘river side’ al băncii într-o aplicație financiară), astfel încât lexicoanele pot și au fost construite în consecință. În al doilea rând, WSD ar putea să nu fie suficient de precis pentru a arăta un efect și, în plus, inventarul de simț utilizat este probabil să se potrivească cu distincțiile specifice de simț cerute de aplicație. În al treilea rând, tratarea WSD ca o componentă sau modul separatpoate fi greșită, deoarece ar putea fi mai strâns integrată ca proces animplicit (adică, ca dezambiguizare reciprocă, mai jos).

traducere automată

WSD este necesar pentru alegerea lexicală în MT pentru cuvinte care au diferitetraduceri pentru diferite simțuri. De exemplu, într-un traducător de știri financiare englezo-Franceze, schimbarea substantivului Englez ar putea traduce fie la schimbare (‘transformare’), fie la monnaie (‘pocketmoney’). Cu toate acestea, majoritatea sistemelor de traducere nu utilizează un wsdmodule separat. Lexiconul este adesea pre-dezambiguat pentru un anumit domeniu sau sunt concepute reguli artizanale sau WSD este pliat într-un model de traducere statistică,unde cuvintele sunt traduse în fraze care oferă astfel context.

regăsirea informațiilor

ambiguitatea trebuie rezolvată în unele întrebări. De exemplu, având în vedere” depresia”, sistemul ar trebui să returneze documente despre boală, sisteme meteorologice sau economie? Sistemele IR actuale (cum ar fi motoarele de căutare Web), cum ar fi MT, nu utilizează un modul WSD; acestea se bazează pe introducerea de către utilizator a unui context suficient în interogare pentru a prelua doar documente relevante în sensul dorit (de exemplu, „depresie tropicală”). Într-un proces numit dezambiguizare reciprocă, care amintește de metoda Lesk (de mai jos),toate cuvintele ambigue sunt dezambiguizate în virtutea intenționatăsenses co-care apar în același document.

extragerea informațiilor și dobândirea cunoștințelor

în extragerea informațiilor și extragerea textului, WSD este necesar pentruanaliza exactă a textului în multe aplicații. De exemplu, sistemul de colectare a informațiilor ar putea avea nevoie să semnaleze referințe la,să zicem, droguri ilegale, mai degrabă decât medicamente. Cercetarea bioinformatică necesită ca relațiile dintre gene și produsele genetice să fie catalogate din vasta literatură științifică; cu toate acestea, genele și proteinele lor au adesea același nume. Mai general, SemanticWeb necesită adnotarea automată a documentelor în funcție de ontologia areference. WSD începe să fie aplicat în acesteadomenii.

metode

există patru abordări convenționale pentru WSD:

metode bazate pe dicționare și cunoștințe: acestea se bazează în primul rând pe Dicționare, tezaure și baze de cunoștințe lexicale, fără a utiliza dovezi corpus.

metode supravegheate: acestea folosesc corpusuri adnotate de sens pentru a se antrena.

metode semi-supravegheate sau minim-supravegheate: acestea folosesc o sursă secundară de cunoștințe, cum ar fi un mic corpus adnotat ca date de semințe într-un proces de bootstrapping sau un corpus bilingv aliniat la cuvinte.

metode nesupravegheate: Acestea evită informații (aproape) complet externe și funcționează direct din corpusuri brute neanotate. Aceste metode sunt cunoscute și sub numele de discriminare a sensului cuvântului.

metode bazate pe dicționar și cunoștințe

metoda Lesk (Lesk 1986) este metoda bazată pe dicționar seminal. Se bazează pe ipoteza că cuvintele folosite împreună în text sunt corelate între ele și că relația poate fi observată în definițiile cuvintelor și ale simțurilor lor. Două (sau mai multe) cuvinte suntdisambiguate prin găsirea perechii de simțuri de dicționar cu cele mai mari suprapuneri de cuvinte în definițiile dicționarului lor. De exemplu, atunci când dezambiguizați cuvintele dincon pin, definițiile simțurilor corespunzătoare includ ambele cuvintevergreen și copac (cel puțin într-un dicționar).

o alternativă la utilizarea definițiilor este de a lua în considerare legătura generalword-sens și de a calcula similitudinea semantică a fiecărei perechi de simțuri de cuvinte pe baza unei baze de cunoștințe lexicale date, cum ar fiwordnet. Metode bazate pe grafice care amintesc de răspândirea-activarecercetarea primelor zile ale cercetării AI a fost aplicată cu un anumit succes.

utilizarea preferințelor selective (sau a restricțiilor selective) sunt, de asemenea, utile. De exemplu, știind că cineva gătește de obicei mâncare, se poate dezambigua cuvântul bas în I am cooking bass (adică nu este un instrument muzical).

metode supravegheate

metodele supravegheate se bazează pe presupunerea că contextul poate furniza suficiente dovezi pe cont propriu pentru a dezambigua cuvintele (prin urmare, cunoașterea lumii și raționamentul sunt considerate inutile). Probabil că algoritmul de învățare everymachine going a fost aplicat la WSD, inclusivtehnici asociate, cum ar fi selectarea caracteristicilor, parametroptimizarea și învățarea ansamblului. Mașini vectoriale de sprijin șiînvățarea bazată pe memorie s-au dovedit a fi cele mai de succesabordări, până în prezent, probabil pentru că pot face fațădimensionalitatea spațiului de caracteristici. Cu toate acestea, aceste metode supravegheate sunt supuse unui nou blocaj de achiziție de cunoștințe, deoarece se bazează pe cantități substanțiale de corpusuri marcate manual pentru formare, care sunt laborioase și costisitoare de creat.

metode semi-supravegheate

abordarea bootstrapping pornește de la o cantitate mică de date de semințe pentru fiecare cuvânt: fie Exemple de formare etichetate manual, fie un număr mic de reguli de decizie sigure (de exemplu, jocul în contextul basului indică aproape întotdeauna instrumentul muzical). Semințele sunt folositetrenați un clasificator inițial, folosind orice metodă supravegheată. Acest clasificator este apoi utilizat pe porțiunea neetichetată a corpusului pentru a extrage un set de antrenament mai mare, în care sunt incluse doar cele mai confidențiale clasificări. Procesul se repetă, fiecare nou clasificatorfiind antrenat pe un corpus de antrenament succesiv mai mare, până când corpul întreg este consumat sau până când se atinge un număr maxim dat de iterații.

alte tehnici semi-supravegheate utilizează cantități mari de untagedcorpora pentru a furniza informații de co-apariție care completează corpusurile etichetate. Aceste tehnici au potențialul de a ajuta la adaptarea modelelor supravegheate la diferite domenii.

de asemenea, un cuvânt ambiguu într-o limbă este adesea tradus în cuvinte diferite într-o a doua limbă, în funcție de sensul cuvântului. Corpurile bilingve aliniate la cuvinte au fost folosite pentru a deduce distincții de sens transversal, un fel de sistem semi-supravegheat.

metode nesupravegheate

învățarea nesupravegheată este cea mai mare provocare pentru cercetătorii WSD. Presupunerea de bază este că simțurile similare apar în contexte similare și, prin urmare, simțurile pot fi induse din text prin apariția cuvintelor cluster folosind o anumită măsură de similitudine a textului. Apoi, noi apariții ale cuvântului pot fi clasificate în cele mai apropiate induseclusters/simțuri. Performanța a fost mai mică decât alte metode, de mai sus,dar comparațiile sunt dificile, deoarece simțurile induse trebuie mapate la un dicționar cunoscut de simțuri de cuvinte. Alternativ, dacă nu se dorește o mapare la un set de simțuri de dicționar, se pot efectua evaluări bazate pe cluster (inclusiv măsurători ale entropiei și purității). Se așteaptă ca învățarea nesupravegheată să depășească blocajul cunoașterii, deoarece acestea nu depind de efortul manual.

evaluare

evaluarea sistemelor WSD necesită un corpus de testare adnotat manual cu simțurile țintă sau corecte și presupune că un astfel de corpus poate fi construit. Sunt utilizate două măsuri principale de performanță:

precizie: fracțiunea de sarcini de sistem efectuate care sunt corecte
rechemare: fracția din totalul instanțelor de cuvinte atribuite corect de un sistem

dacă un sistem face o atribuire pentru fiecare cuvânt, atunci precision andrecall sunt aceleași și pot fi numite precizie. Acest model a fostextins să ia în considerare sistemele care returnează un set de simțuri cugreutăți pentru fiecare apariție.

există două tipuri de corpusuri de testare:

exemplu Lexical: aparițiile unui mic eșantion de cuvinte țintă trebuie să fie dezambiguate și
toate cuvintele: toate cuvintele dintr-o bucată de text care rulează trebuie să fie dezambiguate.

acesta din urmă este considerat o formă mai realistă de evaluare, dar corpul este mai scump de produs, deoarece adnotatoarele umane trebuie să citească definițiile pentru fiecare cuvânt din secvență de fiecare dată când trebuie să facă o judecată de etichetare, mai degrabă decât o dată pentru un bloc deinstanțe pentru același cuvânt țintă. Pentru a defini seturi de date și proceduri comune de evaluare, au fost organizate campanii publice de evaluare. Senseval a fost rulat de trei ori: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) și succesorul său, SemEval (2007), o dată.

de ce este greu WSD?

acest articol discută caracterizarea comună și tradițională a WSD ca un proces explicit și separat de dezambiguizare în ceea ce privește un inventar fix al simțurilor cuvintelor. Cuvintele sunt de obicei presupuse a avea un set finit și discret de simțuri, o simplificare grosolană a complexității sensului cuvântului, așa cum a fost studiat în semantica lexicală.În timp ce această caracterizare a fost fructuoasă pentru cercetarea WSD în sine, este oarecum în contradicție cu ceea ce pare a fi necesar în aplicații reale, așa cum sa discutat mai sus.

WSD este greu din mai multe motive, dintre care trei sunt discutate aici.

un inventar de simț nu poate fi independent de sarcină

un inventar de simț independent de sarcină nu este un concept coerent:fiecare sarcină necesită propria sa împărțire a sensului cuvântului în sensurirelevante sarcinii. De exemplu, ambiguitatea mouse-ului(animal sau dispozitiv) nu este relevantă în mașina engleză-francezătraducere, dar este relevantă în recuperarea informațiilor. Opusul este adevărul râului, care necesită o alegere în limba franceză (fleuve’ curge în mare’, sau Rivi otrivre’se varsă într-un râu’).

algoritmi diferiți pentru diferite aplicații

algoritmi complet diferiți ar putea fi solicitați de differentapplications. În traducerea automată, problema ia formațintă selecție de cuvinte. Aici „simțurile” sunt cuvinte în limba țintă, care corespund adesea distincțiilor semnificative de semnificațieîn limba sursă (banca ar putea traduce în franceză banque „bancă financiară” sau rive „marginea râului”). În informationretrival, un inventar sens nu este neapărat necesară, pentru că este suficient pentru a ști că un cuvânt este folosit în același sens în interogyand un document recuperat; ce sens care este, este lipsit de importanță.

sensul cuvântului nu se împarte în simțuri discrete

în cele din urmă, însăși noțiunea de „sens al cuvântului” este alunecoasă și contradictorie. Majoritatea oamenilor pot fi de acord în distincții la nivelul omografului cu granulație grosieră (de exemplu,stilou ca instrument de scris sau incintă), dar coboară un nivel lapolisemie cu granulație fină și apar dezacorduri. De exemplu, în Senseval-2, carea folosit distincții de sens cu granulație fină, umanannotatorii au fost de acord în doar 85% din aparițiile cuvintelor. Sensul cuvântului este înprincipiul infinit variabil și sensibil la context. Nu se împarte ușor în sub-semnificații distincte sau discrete.De asemenea, este important să se ia în considerare faptul că, în cazul în care nu există nici un motiv să se ia în considerare acest lucru, este necesar să se ia în considerare faptul că, în cazul în care nu există nici un motiv să se ia în considerare acest lucru. Arta lexicografiei este de a generaliza de la corpus la definiții care evocă și explică întreaga gamă de semnificații a unui cuvânt, făcând să pară că cuvintele se comportă bine semantic. Cu toate acestea, nu este deloc clar dacă aceleași distincții de semnificație sunt aplicabile înaplicații de comunicare, deoarece deciziile lexicografilor sunt de obicei conduse de alte considerente.

a sugerat citirea

Bar-Hillel, Yehoshua. 1964. Limbă și informații. New York: Addison-Wesley.

Edmonds, Philip & Adam Kilgarriff. 2002. Introducere în problema specială privind evaluarea sistemelor de dezambiguizare a sensului cuvântului. Jurnalul de Inginerie a limbajului Natural, 8 (4):279-291.

IDE, Nancy & Jean V Unixtronis. 1998. Dezambiguizarea sensului cuvântului: stadiul tehnicii. Lingvistică Computațională, 24 (1): 1-40.

Jurafsky, Daniel & James H. Martin. 2000. Procesarea vorbirii și a limbajului. New Jersey, Statele Unite ale Americii: Prentice Hall.

Lesk, Michael. 1986. Dezambiguizare automată a sensului folosind dicționare care pot fi citite de mașină: cum să distingi un con de pin de un con de înghețată. Lucrările SIGDOC-86: a 5-a Conferință Internațională privind documentarea sistemelor, Toronto, Canada, 24-26.

Mihalcea, Rada. 2007. Dezambiguizare sens cuvânt. Enciclopedia învățării automate. Springer-Verlag.

Hinrich. 1998. Discriminare automată a sensului cuvântului. Lingvistică Computațională, 24 (1): 97-123.

Yarowsky, David. 1995. Dezambiguizare sens cuvânt nesupravegheat rivalizând metode supravegheate. Lucrările celei de-a 33-a reuniuni anuale a Asociației pentru lingvistică computațională, 189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps

referințe interne

Tomasz Downarowicz (2007) entropie. Scholarpedia, 2 (11):3901.

Mark Aronoff (2007) Limba. Scholarpedia, 2 (5):3175.

site-ul Senseval
site-ul SemEval
tutorial WSD

a se vedea, de asemenea,

lingvistică, prelucrarea limbajului Natural

sponsorizat de: Prof. ke CHEN, școala de Informatică, Universitatea din Manchester, Marea Britanie

revizuit de: Anonim

revizuit de: Dr. Rada Mihalcea, Universitatea din North Texas

acceptat pe: 2008-05-23 17: 13: 44 GMT