Word sense disambiguation

Post-publicatie-activiteit

Curator: Eneko Agirre

Medewerkers:
0.50 –

Eugene M. Izhikevich

0.25 –

Ke CHEN

0.25 –

Philip Edmonds

In de verwerking van natuurlijke taal, word sense disambiguation (WSD) is theproblem van het bepalen van het “gevoel” (betekenis) van een woord wordt geactiveerd door de useof het woord in een bepaalde context, een proces dat lijkt belargely onbewust in mensen. WSD is een natuurlijk classificatieprobleem: gegeven een woord en zijn mogelijke zintuigen, zoals gedefinieerd door een woordenboek,classificeren een voorkomen van het woord in context in een of meer van zijn senseclasses. De kenmerken van de context (zoals naburige woorden)leveren het bewijs voor classificatie.

een beroemd voorbeeld is het bepalen van de Betekenis van pen in de volgende passage (Bar-Hillel 1960):

Little John was op zoek naar zijn speelgoeddoos. Eindelijk vond hij het. De doos zat in de pen. John was erg blij.

WordNet geeft vijf zintuigen voor het woord pen:

  1. pen-een schrijfgereedschap met een punt waaruit inkt vloeit.
  2. hok – een leefruimte voor het beperken van vee.
  3. box, pen – een draagbare behuizing waarin baby ‘ s kunnen worden gelaten om te spelen.
  4. penitentiary, pen – een gevangenis voor personen die veroordeeld zijn voor zware misdrijven.
  5. pen-vrouwelijke zwaan.

het onderzoek is gestaag gevorderd tot het punt waarop WSD-systemen consistente nauwkeurigheidsniveaus voor een verscheidenheid aan woordtypen en-figuren bereiken. Een rijke verscheidenheid aan technieken is onderzocht, van op woordenboek gebaseerde methoden die gebruik maken van de kennis gecodeerd in lexicale middelen, om supervisedmachine leermethoden waarin een classifier wordt getraind voor elk onderscheidwoord op een corpus van handmatig zin-geannoteerde voorbeelden,om volledig zonder toezicht methoden die voorkomen dat woorden clusterengeïnduceerde, dus woord zintuigen. Onder deze, begeleid leren benaderingen zijn de meest succesvolle algoritmen tot nu toe.

de huidige nauwkeurigheid is moeilijk te bepalen zonder een groot aantal kanttekeningen. In het Engels ligt de nauwkeurigheid op het niveau van de grofkorrelige (homografie) routinematig boven 90%, waarbij sommige methoden op bepaalde homografen meer dan 96% bereiken. Bij fijnere betekenisonderscheidingen zijn topnauwkeurigheden van 59,1% tot 69,0% gemeld in recente evaluatie-oefeningen (SemEval-2007, Senseval-2), waar de basisnauwkeurigheid van het eenvoudigste algoritme om altijd de meest frequente zin te kiezen respectievelijk 51,4% en 57% was.

  • 1 Geschiedenis
  • 2 toepassingen
    • 2.1 het nut van WSD
    • 2.2 Machine vertaling
    • 2.3 Informatie ophalen
    • 2.4 Informatie-extractie en de verwerving van kennis
  • 3 Methoden
    • 3.1 Woordenboek – en kennis-gebaseerde methoden
    • 3.2 Toezicht methoden
    • 3.3 Semi-begeleid methoden
    • 3.4 Toezicht methoden
  • 4 Evaluatie
  • 5 Waarom is WSD moeilijk?
    • 5.1 Een sense inventory kan niet taakonafhankelijk zijn
    • 5.2 verschillende algoritmen voor verschillende toepassingen
    • 5.3 woord betekenis verdeelt zich niet in discrete zintuigen
  • 6 Referenties
  • 7 Externe links
  • 8 zie ook

geschiedenis

WSD werd voor het eerst geformuleerd als een aparte computationele taak tijdens de vroege dagen van de automatische vertaling in de jaren 1940, waardoor het een van de oudste problemen in de computationele taalkunde. Warren Weaver introduceerde het probleem in zijn beroemde memorandum over Vertaling uit 1949 voor het eerst in een computationele context. Vroege onderzoekers ondersten goed de betekenis en moeilijkheid van WSD. In feite gebruikte Bar-Hillel (1960) het bovenstaande voorbeeld om te betogen dat WSD niet kon worden opgelost door “elektronische computer” vanwege de noodzaak om in het algemeen alle wereldkennis te modelleren.

in de jaren zeventig was WSD een subtaak van semantische interpretatiesystemen die werden ontwikkeld op het gebied van kunstmatige intelligentie, maar aangezien WSD-systemen grotendeels op regels waren gebaseerd en handgecodeerd, waren ze gevoelig voor een knelpunt bij kennisverwerving.

in de jaren tachtig werden grootschalige lexicale bronnen, zoals het Oxford Advanced Learner ‘ s Dictionary of Current English (OALD), beschikbaar: hand-codering werd vervangen door kennis die automatisch uit deze bronnen werd gehaald, maar disambiguation was nog steeds op kennis of woordenboek gebaseerd.

In de jaren negentig werd de statistische revolutie door de computerlinguïstiek getransporteerd en werd WSD een paradigmaprobleem voor het toepassen van automatische leertechnieken onder toezicht.

de technieken met saw-toezicht bereiken een plateau in nauwkeurigheid,en dus is de aandacht verschoven naar grovere zintuigen, domeinadaptatie, semi-bewaakte en zonder toezicht corpusgebaseerde systemen,combinaties van verschillende methoden en de terugkeer van kennisgebaseerde systemen via grafische methoden. Toch blijven Bewaakte Systemen het best functioneren.

toepassingen

automatische vertaling is de oorspronkelijke en meest voor de hand liggende toepassing voorsd, maar WSD is in bijna elke toepassing van taaltechnologie in aanmerking genomen,waaronder informatieontvangst, Lexicografie, kenniswinning/verwerving en semantische interpretatie, en wordt steeds belangrijker in nieuwe onderzoeksgebieden zoals bioinformatica en het semantische Web.

het nut van WSD

het lijdt geen twijfel dat de bovenstaande toepassingen woordzin disambiguatie in een of andere vorm vereisen en gebruiken. Het is echter nog niet aangetoond dat WSD als afzonderlijke module een beslissend verschil maakt in elke toepassing. Er zijn een paar recente resultaten die kleine positieve effecten laten zien in bijvoorbeeld automatische vertaling, maar WSD is ook aangetoond dat het de prestaties schaadt, zoals het geval is bij bekende experimenten in het ophalen van informatie.

hiervoor zijn verschillende redenen mogelijk. Ten eerste beperkt hetdomein van een toepassing vaak het aantal zintuigen dat een woord kan hebben (bijv., men zou niet verwachten dat de “rivierzijde” gevoel van bank in een financiële applicatie te zien), en dus lexicons kunnen en zijn dienovereenkomstig geconstrueerd. Ten tweede is WSD misschien niet voldoende nauwkeurig om een effect aan te tonen en bovendien is de gebruikte sense inventory waarschijnlijk niet in overeenstemming met de specifieke sense onderscheid vereist door de toepassing. Ten derde, het behandelen van WSD als een afzonderlijke component of modulemiek kan misplaatst zijn, omdat het strakker moet worden geïntegreerd als een plicit proces (dat wil zeggen, als Wederzijdse disambiguatie, hieronder).

automatische vertaling

WSD is vereist voor lexicale keuze in MT voor woorden met verschillende vertalingen voor verschillende zintuigen. Bijvoorbeeld, in een Engels-Frans vertaler van Financieel nieuws, kan de Engelse naamwoordswijziging zich vertalen naar verandering (’transformatie’) of munt (‘pocketmoney’). De meeste vertaalsystemen maken echter geen gebruik van een aparte WSDmodule. Het lexicon wordt vaak voorgesambigueerd voor een bepaald domein,of handgemaakte regels worden bedacht, of WSD wordt gevouwen in een statistisch vertaalmodel, waar woorden worden vertaald binnen zinnen die daarmee context bieden.

het opzoeken van informatie

in sommige vragen moet dubbelzinnigheid worden opgelost. Bijvoorbeeld, gezien de vraag “depressie” moet het systeem documenten terug te geven over ziekte,weer systemen, of economie? Huidige IR-systemen (zoals webzoekmachines), zoals MT, gebruiken geen WSD-module; ze vertrouwen op het gebruik van het type voldoende context in de query om alleen documenten op te halen die relevant zijn voor de beoogde zin (bijvoorbeeld “tropische depressie”). In een proces genaamd Wederzijdse disambiguation, die doet denken aan de Lesk methode (hieronder),worden alle dubbelzinnige woorden disambiguated op grond van de intendedsenses co-voorkomende in hetzelfde document.

informatie-extractie en kennisverwerving

bij informatie-extractie en text mining is WSD vereist voor de juiste analyse van tekst in veel toepassingen. Bijvoorbeeld,een systeem voor het verzamelen van inlichtingen zou verwijzingen naar, Laten we zeggen, illegale drugs moeten markeren, in plaats van medische drugs. Bioinformaticsresearch vereist dat de relaties tussen genen en genproducten worden gecatalogiseerd uit de uitgebreide wetenschappelijke literatuur; nochtans, genen en hun proteã nen hebben vaak dezelfde naam. Meer in het algemeen vereist het SemanticWeb automatische annotatie van documenten volgens een conferentie ontologie. WSD begint pas op deze gebieden te worden toegepast.

methoden

er zijn vier conventionele benaderingen voor WSD:

  • Dictionary-and knowledge-based methods: deze berusten voornamelijk op woordenboeken, thesauri en lexicale kennisbases, zonder enig corpus-bewijs te gebruiken.
  • begeleide methoden: deze maken gebruik van zintuiglijke corpora om vanaf te trainen.
  • Semi-gecontroleerde of minimaal-gecontroleerde methoden: deze maken gebruik van een secundaire bron van kennis, zoals een klein geannoteerd corpus als seed data in een bootstrapping proces, of een woord-uitgelijnd tweetalig corpus.
  • methoden zonder toezicht: Deze schuwen (bijna) volledig externe informatie en werken direct vanuit onbewerkte ongeannoteerde corpora. Deze methoden zijn ook bekend onder de naam van word sense discriminatie.

Dictionary-and knowledge-based methods

de Lesk method (Lesk 1986) is de op het woordenboek gebaseerde methode. Het is gebaseerd op de hypothese dat woorden die samen in de tekst worden gebruikt aan elkaar zijn gerelateerd en dat de relatie kan worden waargenomen in dedefinities van de woorden en hun zintuigen. Twee (of meer) woorden worden gedesambigueerd door het vinden van het paar woordenses met de grootste woordoverlapping in hun woordenboekdefinities. Bijvoorbeeld, bij het disambigueren van de woorden inpine kegel, de definities van de juiste zintuigen zowel het woordsevergreen en boom (ten minste in één woordenboek).

een alternatief voor het gebruik van de definities is het in aanmerking nemen van algemene verwantschap tussen woorden en zinnen en het berekenen van de semantische gelijkenis van elk paar woordzintuigen op basis van een bepaalde lexicale Kennisbasis zoalswordnet. Grafisch-gebaseerde methoden die doen denken aan het verspreiden-activatieonderzoek van de vroege dagen van AI-onderzoek zijn met enig succes toegepast.

het gebruik van selectionele voorkeuren (of selectionele beperkingen) is ook nuttig. Bijvoorbeeld, wetende dat men meestal koken voedsel, kan men disambiguate het woord bas in I am cooking bass (dat wil zeggen, het is geen muziekinstrument).

onder toezicht staande methoden

onder toezicht staande methoden zijn gebaseerd op de aanname dat de context op zich voldoende bewijs kan leveren om woorden te disambigueren (daarom worden kennis en redenering van de wereld onnodig geacht). Waarschijnlijk is elke machine learning algoritme gaan is toegepast op WSD, met inbegrip van geassocieerde technieken zoals functie selectie, parameteroptimalisatie, en ensemble leren. Ondersteuning vector machines en memory-based leren is aangetoond dat de meest succesvolle benaderingen, tot op heden, waarschijnlijk omdat ze kunnen omgaan met de hoge-dimensionaliteit van de functie ruimte. Deze beheersmethoden zijn echter onderhevig aan een nieuw knelpunt voor kennisverwerving, omdat zij voor de opleiding afhankelijk zijn van aanzienlijke hoeveelheden handmatig getagde corpora, die verdienstelijk en duur zijn om te creëren.

Halfgecontroleerde methoden

de bootstrapping-benadering begint met een kleine hoeveelheid zaadgegevens voor elk woord: ofwel handmatig getagde trainingsvoorbeelden of een klein aantal betrouwbare beslissingsregels (bijvoorbeeld, spelen in de context van bassalmost geeft altijd het muziekinstrument aan). De zaden worden gebruikt om een eerste classificeerder te trainen, met behulp van een gecontroleerde methode. Deze klassificatie wordt vervolgens gebruikt op het niet-ingedeelde gedeelte van het corpus om een grotere trainingsset uit te trekken, waarin alleen de meest betrouwbare classificaties zijn opgenomen. Het proces herhaalt zich, elke nieuwe classificeerder wordt getraind op een opeenvolgend groter trainingscorpus, totdat het hele corpus is verbruikt, of totdat een bepaald maximumaantal iteraties is bereikt.

andere technieken onder semi-toezicht maken gebruik van grote hoeveelheden ongeaggregeerde corpora om informatie te verstrekken over het gelijktijdig voorkomen van corpora, die een aanvulling vormt op de getagged corpora. Deze technieken kunnen helpen bij de aanpassing van onder toezicht staande modellen aan verschillende domeinen.

ook wordt een dubbelzinnig woord in één taal vaak vertaald in verschillende woorden in een tweede taal, afhankelijk van de Betekenis van het woord. Woord-uitgelijnde tweetalige corpora zijn gebruikt om kruislinguale zinsverschillen af te leiden, een soort semi-gecontroleerd systeem.

unsupervised methods

Unsupervised learning is de grootste uitdaging voor WSD-onderzoekers. De onderliggende aanname is dat soortgelijke zintuigen voorkomen in vergelijkbare contexten, en dus zintuigen kunnen worden afgeleid uit tekst door het cyclusteren van woordvoorvallen met behulp van een bepaalde mate van gelijkenis ofcontext. Dan kunnen nieuwe gebeurtenissen van het woord worden geclassificeerd in de dichtstbijzijnde geïnduceerde clusters / zintuigen. Prestaties zijn lager dan andere methoden, hierboven, maar vergelijkingen zijn moeilijk omdat zintuigen geïnduceerde moeten worden in kaart gebracht aan een bekende woordenboek van woord zintuigen. Als alternatief, als een mapping naar een set van woordenboek zintuigen niet gewenst is, cluster-gebaseerde evaluaties (met inbegrip van metingen van entropie en zuiverheid) kunnen worden uitgevoerd. Het is de bedoeling dat zonder toezicht leren het knelpunt van kennisverwerving zal overwinnen, omdat ze niet afhankelijk zijn van handmatige inspanningen.

evaluatie

de evaluatie van WSD-systemen vereist een testcorpus met de hand geannoteerd met de doel-of correcte zintuigen, en veronderstelt dat een dergelijk corpus kan worden geconstrueerd. Twee belangrijkste prestatiemetingen worden gebruikt:

  • precisie: het deel van de systeemtoewijzingen dat correct is
  • terugroepen: de fractie van het totale aantal woorden dat correct is toegewezen door een systeem

als een systeem een toewijzing maakt voor elk woord, dan zijn precisie en recall hetzelfde, en kunnen nauwkeurigheid worden genoemd. Dit model is uitgebreid om rekening te houden met systemen die voor elke gebeurtenis een aantal zintuigen metgewichten retourneren.

er zijn twee soorten testcorpora:

  • lexicale steekproef: de exemplaren van een kleine steekproef van doelwoorden moeten worden disambigueerd, en
  • alle woorden: alle woorden in een stuk lopende tekst moeten worden disambigueerd.

deze laatste wordt beschouwd als een realistischer vorm van evaluatie, maar de corpus is duurder om te produceren omdat menselijke annotatoren de definities voor elk woord in de volgorde moeten lezen elke keer dat ze een tag-oordeel moeten geven, in plaats van één keer voor een blok van omstandigheden voor hetzelfde doelwoord. Om gemeenschappelijke datasets en procedures voor evaluatie vast te stellen, zijn er openbare evaluatiecampagnes georganiseerd. Senseval is drie keer gedraaid: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), en zijn opvolger, SemEval (2007), een keer.

Waarom is WSD hard?

dit artikel bespreekt de gemeenschappelijke en traditionele karakterisering van WSD als een expliciet en afzonderlijk proces van disambiguatie met betrekking tot een vaste inventaris van woordzintuigen. Wordsworden meestal verondersteld om een eindige en discrete set van zintuigen, een grosssimplificatie van de complexiteit van woord betekenis, zoals bestudeerd in lexicale semantiek.Hoewel deze karakterisering vruchtbaar is geweest voor onderzoek naar WSD per se, is het enigszins in tegenspraak met wat nodig lijkt te zijn in echte toepassingen, zoals hierboven besproken.

WSD is moeilijk om vele redenen, waarvan er drie hier worden besproken.

een zintuiginventaris kan niet taakonafhankelijk zijn

een taakonafhankelijke zintuiginventaris is geen samenhangend concept:elke taak vereist zijn eigen verdeling van de woord betekenis in sensesrelevant voor de taak. Bijvoorbeeld, de dubbelzinnigheid van muis (dier of apparaat) is niet relevant in het Engels-franse machinetranslation, maar is relevant in informatie retrieval. De tegenovergestelde istrue van de rivier, die een keuze in het Frans vereist (fleuve ‘stroomt in de zee’ , of rivière ‘stroomt in een rivier’).

verschillende algoritmen voor verschillende toepassingen

bij verschillende toepassingen kunnen totaal verschillende algoritmen nodig zijn. In automatische vertaling neemt het probleem de vorm aan van doelwoordselectie. Hier zijn de “zintuigen” woorden in de doeltaal, die vaak overeenkomen met belangrijke betekenisonderscheidingen in de brontaal (bank zou kunnen vertalen naar Franse banque’ financiele bank ‘of rive’edge of river’). In informationretrieval is een betekenisinventaris niet noodzakelijk nodig, omdat het voldoende is om te weten dat een woord in dezelfde zin wordt gebruikt in de vraag en een opgevraagd document; welke betekenis Dat is, is onbelangrijk.

woord betekent niet opgesplitst in afzonderlijke zintuigen

ten slotte is het begrip “woordzin” glibberig en controversieel. De meeste mensen kunnen het eens zijn in verschillen op het grofkorrelige homografeniveau (bijvoorbeeld pen als schrijfinstrument of behuizing), maar gaan één niveau naar beneden om de fijnkorrelige polysemie, en meningsverschillen ontstaan. Bijvoorbeeld, in Senseval-2, die gebruikt fijnkorrelige zinsverschillen, humanannotators overeengekomen in slechts 85% van de woordvoorvallen. Woord betekenis is in principe oneindig variabel en context gevoelig. Het is niet gemakkelijk te verdelen in verschillende of discrete sub-betekenissen.Lexicografen ontdekken vaak in corpora losse en overlappende betekenissen, en standaard of conventionele betekenissen uitgebreid, gemoduleerd, en geëxploiteerd in een verbijsterende verscheidenheid van manieren. De kunst van de Lexicografie is om van het corpus te veralgemenen tot definities die het volledige bereik van de Betekenis van een woord verklaren en verklaren, waardoor het lijkt alsof woorden zijn goedgemanierd semantisch. Het is echter helemaal niet duidelijk of deze zelfde betekenisverschillen ook van toepassing zijn op andere toepassingen, aangezien de beslissingen van lexicografen gewoonlijk door andere overwegingen worden ingegeven.

voorgestelde lezing

  • Bar-Hillel, Yehoshua. 1964. Taal en informatie. New York: Addison-Wesley.
  • Edmonds, Philip & Adam Kilgarriff. 2002. Inleiding tot het speciale nummer over het evalueren van woordzin disambiguatiesystemen. Journal of Natural Language Engineering, 8 (4): 279-291.
  • IDE, Nancy & Jean Véronis. 1998. Word sense disambiguation: de stand van de techniek. Computational Linguistics, 24 (1): 1-40.
  • Jurafsky, Daniel & James H. Martin. 2000. Spraak-en taalverwerking. New Jersey, USA: Prentice Hall.
  • Lesk, Michael. 1986. Automatische zin disambiguation met behulp van machine leesbare woordenboeken: hoe een dennenappel van een ijsje te onderscheiden. Proceedings of SIGDOC-86: 5th International Conference on Systems Documentation, Toronto, Canada, 24-26.
  • Mihalcea, Rada. 2007. Woord betekenis disambiguatie. Encyclopedie van Machine Learning. Springer-Verlag.
  • Schütze, Hinrich. 1998. Automatische woordzin discriminatie. Computational Linguistics, 24 (1): 97-123.
  • Yarowsky, David. 1995. Unsupervised woord zin disambiguation rivaliserende bewaakte methoden. Verslag van de 33e jaarvergadering van de Vereniging voor computationele taalkunde, 189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps

interne referenties

  • Tomasz Downarowicz (2007) entropie. Scholarpedia, 2 (11): 3901.
  • Mark Aronoff (2007) Taal. Scholarpedia, 2 (5):3175.

  • Senseval website
  • SemEval website
  • WSD tutorial

Zie ook

Taalkunde,de Verwerking van Natuurlijke Taal

Gesponsord door: Prof. Ke CHEN, School of Computer Science van De Universiteit van Manchester, Verenigd koninkrijk

Beoordeeld door: Anonieme

Beoordeeld door: Dr. Rada Mihalcea, University of North Texas

geaccepteerd op: 2008-05-23 17: 13: 44 GMT

You might also like

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.