Curator: Eneko Agirre
Eugene M. Izhikevich
Ke CHEN
Philip Edmonds
i naturlig språkbehandling, ordkänsla disambiguation (WSD) är problemet med att bestämma vilken ”mening” (mening) av ett ord aktiveras av användningen av ordet i ett visst sammanhang, en process som verkar vara omedvetet hos människor. WSD är ett naturligtklassificeringsproblem: givet ett ord och dess möjliga sinnen, som definieras av en ordbok,klassificerar en förekomst av ordet i sammanhang i en eller flera av dess sensklasser. Funktionerna i sammanhanget (som angränsande ord)ger bevis för klassificering.
ett känt exempel är att bestämma känslan av penna iföljande passage (Bar-Hillel 1960):
Little John letade efter sin leksakslåda. Till slut hittade han den. Lådan låg i pennan. John var väldigt glad.
WordNet listar fem sinnen för ordet penna:
- penna-ett skrivverktyg med en punkt från vilken bläck flyter.
- penna — ett hölje för att begränsa boskap.
- lekhage, penna — en bärbar låda där spädbarn kan lämnas att leka.
- penitentiary, pen — en korrectionell institution för dem som dömts för stora brott.
- penna — kvinnlig svan.
forskning har utvecklats stadigt till den punkt där WSD-system uppnår konsekventa nivåer av noggrannhet på en mängd olika ordtyper och tvetydigheter. Ett rikt utbud av tekniker har undersökts, från ordboksbaserade metoder som använder kunskapen kodad i lexikala resurser, till övervakade maskininlärningsmetoder där en klassificerare utbildas för varje distinctword på en korpus av manuellt avkänna annoterade exempel,till helt oövervakade metoder som kluster förekomster av ord, därmed inducing ord sinnen. Bland dessa har övervakade inlärningsmetoder varit de mest framgångsrika algoritmerna hittills.
nuvarande noggrannhet är svår att ange utan en mängd varningar. På engelska är noggrannheten vid grovkornig (homograf) nivå rutinmässigt över 90%, med vissa metoder på särskilda homografer som uppnår över 96%. På finkorniga sinnesskillnader har toppnoggrannheter från 59,1% till 69,0% rapporterats i de senaste utvärderingsövningarna (SemEval-2007, Senseval-2), där baslinjenoggrannheten för den enklaste möjliga algoritmen för att alltid välja den vanligaste känslan var 51,4% respektive 57%.
- innehåll
- historia
- applikationer
- nyttan av WSD
- maskinöversättning
- informationssökning
- informationsutvinning och kunskapsförvärv
- metoder
- ordbok – och kunskapsbaserade metoder
- övervakade metoder
- Halvövervakade metoder
- oövervakade metoder
- utvärdering
- Varför är WSD svårt?
- en sinnesinventering kan inte vara uppgiftsoberoende
- olika algoritmer för olika applikationer
- Ordbetydelse delas inte upp i diskreta sinnen
- Se även
innehåll
- 1 Historia
- 2 applikationer
- 2.1 nyttan av WSD
- 2.2 maskinöversättning
- 2.3 informationssökning
- 2.4 informationsextraktion och kunskapsinhämtning
- 3 metoder
- 3.1 ordbok – och kunskapsbaserade metoder
- 3.2 övervakade metoder
- 3.3 Halvövervakade metoder
- 3.4 oövervakade metoder
- 4 utvärdering
- 5 Varför är WSD svårt?
- 5.1 en sense-inventering kan inte vara uppgiftsoberoende
- 5.2 olika algoritmer för olika applikationer
- 5.3 Ordbetydelse delas inte upp i diskreta sinnen
- 6 Referenser
- 7 Externa länkar
- 8 Se även
historia
WSD formulerades först som en distinkt beräkningsuppgift under de tidiga dagarna av maskinöversättning på 1940-talet, vilket gör det till ett av de äldsta problemen inom beräkningslingvistik. Warren Weaver, i sitt berömda memorandum om översättning från 1949, introducerade först problemet i ett beräkningskontext. Tidiga forskareförstod väl betydelsen och svårigheten med WSD. Faktum är att Bar-Hillel (1960) använde ovanstående exempel för att hävda att WSD inte kunde lösas av ”elektronisk dator” på grund avBehovet i allmänhet att modellera all världskunskap.
på 1970-talet var WSD en deluppgift av semantiska tolkningssystem som utvecklats inom området artificiell intelligens, men eftersom WSD-system till stor del var regelbaserade och handkodade var de benägna att få en flaskhals för kunskapsinhämtning.
vid 1980-talet blev storskaliga lexikala resurser, såsom Oxford Advanced Learner ’ s Dictionary of Current English (OALD), tillgängliga: handkodning ersattes med kunskap automatisktextraheras från dessa resurser, men disambiguation var fortfarandekunskapsbaserad eller ordboksbaserad.
på 1990-talet svepte den statistiska revolutionen genom beräkningslingvistik, och WSD blev ett paradigmproblem för att tillämpa övervakad maskininlärningsteknik.
2000-talet såg övervakade tekniker nå en platå i noggrannhet, och så har uppmärksamheten skiftats till grovkorniga sinnen, domänadaptation,halvövervakade och oövervakade korpusbaserade system, kombinationer av olika metoder och återlämnande av kunskapsbaserade system via grafbaserade metoder. Ändå fortsätter övervakade system attutföra bäst.
applikationer
maskinöversättning är den ursprungliga och mest uppenbara applikationen försd, men WSD har faktiskt beaktats i nästan alla tillämpningar av språkteknologi, inklusive informationshämtning, lexikografi, kunskapsutvinning/förvärv och semantisk tolkning, och blir allt viktigare inom nya forskningsområden sombioinformatik och semantisk webb.
nyttan av WSD
det råder ingen tvekan om att ovanstående program kräver och använda ordet sense disambiguationi en eller annan form. WSD som en separat modul har dock ännu inte visat sig göraen avgörande skillnad i någon applikation. Det finns några nya resultat som visar små positiva effekter i till exempel maskinöversättning, men WSD har också visat sig skada prestanda, vilket är fallet i välkända experiment i informationssökning.
det finns flera möjliga orsaker till detta. För det första begränsar en applikationsdomän ofta antalet sinnen som ett ord kan ha (t. ex., man skulle inte förvänta sig att se ’flodsidan’ känsla avbank i en finansiell ansökan), och så lexikon kan och har konstruerats i enlighet därmed. För det andra kanske WSD inte är tillräckligt exakt för att visa en effekt och dessutom används den använda sinnesinventariet för att matcha de specifika sinnesskillnader som krävs av ansökan. För det tredje kan behandling av WSD som en separat komponent eller modulkan vara missvisad, eftersom den kan behöva integreras mer tätt som animplicit process (dvs. som ömsesidig disambiguation, nedan).
maskinöversättning
WSD krävs för lexiskt val i MT för ord som har olikaöversättningar för olika sinnen. Till exempel i en engelsk-Franskfinansiell nyhetsöversättare kan den engelska substantivförändringen översättastill antingen changement (’transformation’) eller monnaie (’pocketmoney’). De flesta översättningssystem använder emellertid inte en separat WSDmodule. Lexikonet är ofta Pre-disambiguated för en given domän,eller handgjorda regler utformas, eller WSD viks in i en statisticaltranslation modell, där ord aretranslated inom fraser som därigenom ger sammanhang.
informationssökning
tvetydighet måste lösas i vissa frågor. Till exempel,med tanke på thequery ”depression” ska systemet returnera dokument om sjukdom, vädersystem eller ekonomi? Nuvarande IR-system (som Webbsökningsmotorer), som MT, använder inte en WSD-modul; de förlitar sig på att användaren skriver tillräckligt med sammanhang i frågan för att bara hämta dokument som är relevanta för den avsedda meningen (t.ex. ”tropisk depression”). I en processkallad ömsesidig disambiguation, som påminner om Lesk-metoden (nedan),är alla tvetydiga ord disambiguerade på grund av de avsedda sinnena som förekommer i samma dokument.
informationsutvinning och kunskapsförvärv
i informationsutvinning och textutvinning krävs WSD för noggrann analys av text i många applikationer. Till exempel,anintelligence gathering system kan behöva flagga upp referenser till, säg, illegala droger, snarare än medicinska droger. Bioinformatikresearch kräver sambanden mellan gener och genprodukter Tobe katalogiseras från den stora vetenskapliga litteraturen; dock, gener och deras proteiner har ofta samma namn. Mer allmänt kräver SemanticWeb automatisk annotering av dokument enligt areference ontologi. WSD börjar bara tillämpas i dessaområden.
metoder
det finns fyra konventionella metoder för WSD:
- ordbok – och kunskapsbaserade metoder: dessa förlitar sig främst på ordböcker, tesaurier och lexikala kunskapsbaser, utan att använda några korpusbevis.
- övervakade metoder: dessa använder sig av sense-annotated corpora att träna från.
- Halvövervakade eller minimalt övervakade metoder: dessa använder sig av en sekundär kunskapskälla som en liten kommenterad korpus som frödata i en bootstrapping-process eller ett ordjusterat tvåspråkigt korpus.
- oövervakade metoder: Dessa undviker (nästan) helt extern information och arbetar direkt från raw unannotated corpora. Dessa metoder är också kända under namnet word sense discrimination.
ordbok – och kunskapsbaserade metoder
Lesk-metoden (Lesk 1986) är den banbrytande ordboksbaserade metoden. Det är baserat på hypotesen att ord som används tillsammans i text ärrelaterade till varandra och att förhållandet kan observeras idefinitioner av orden och deras sinnen. Två (eller fler) ord ärdisambiguerade genom att hitta paret av ordbokskänslor med det största ordet överlappar varandra i deras ordboksdefinitioner. Till exempel, när man disambiguerar orden itallkon, definitionerna av lämpliga sinnen inkluderar båda ordenvintergröna och träd (åtminstone i en ordbok).
ett alternativ till användningen av definitionerna är att överväga generalword-sense relatedness och att beräkna den semantiska likheten hos eachpair of word senses baserat på en given lexikal kunskapsbas somwordnet. Grafbaserade metoder som påminner om spridningsaktiveringforskning från de tidiga dagarna av AI-forskning har tillämpats med viss framgång.
användningen av selektionsinställningar (eller selektionsbegränsningar) är också användbara. Till exempel, att veta att man vanligtvis lagar mat, kan man disambiguera ordet bas I Jag lagar bas (dvs det är inte ett musikinstrument).
övervakade metoder
övervakade metoder bygger på antagandet att sammanhanget kan ge tillräckligt med bevis på egen hand för att disambiguera ord (därför anses världskunskap och resonemang onödigt). Förmodligen har everymachine learning algorithm going tillämpats på WSD, inklusiveassocierade tekniker som funktions val, parameteroptimering och ensembleinlärning. Stödvektormaskiner och minnesbaserat lärande har visat sig vara de mest framgångsrika tillvägagångssätten hittills, förmodligen för att de kan klara av högdimensionaliteten i funktionsutrymmet. Dessa övervakade metoder är emellertid föremål för en ny kunskapsinhämtningsflaskhals, eftersom de förlitar sig på betydande mängder manuellt avkända korpusar för utbildning, som är mödosamma och dyra att skapa.
Halvövervakade metoder
bootstrapping-metoden börjar från en liten mängd frödata för varje ord: antingen manuellt taggade träningsexempel eller ett litet antal säkerhetsbestämningsregler (t.ex. spelar i samband med bas indikerar nästan alltid musikinstrumentet). Fröna är vana vidträna en initial klassificerare, med hjälp av någon övervakad metod. Thisclassifier används sedan på den untagged delen av corpus toextract en större träningssats, där endast de mest konfidentiella klassifikationerna ingår. Processen upprepas, varje ny klassificerare tränas på en successivt större träningskorpus, tills hela korpusen konsumeras, eller tills ett givet maximalt antal iterationer uppnås.
andra halvövervakade tekniker använder stora mängder untaggedcorpora för att ge information om samtidig förekomst som kompletterar dentaggade corpora. Dessa tekniker har potential att hjälpa till ianpassning av övervakade modeller till olika domäner.
dessutom översätts ett tvetydigt ord på ett språk ofta tillolika ord på ett andra språk beroende på betydelsen avordet. Ordjusterade tvåspråkiga korpusar har använts för att infercross-lingual sense distinktioner, ett slags halvövervakat system.
oövervakade metoder
oövervakat lärande är den största utmaningen för Wsdforskare. Det underliggande antagandet är att liknande sinnen förekommer iliknande sammanhang, och därmed kan sinnen induceras från text genom att koppla ordhändelser med hjälp av ett visst mått på likhet med context. Därefter kan nya förekomster av ordet klassificeras i närmaste inducerade clusters / sinnen. Prestanda har varit lägre än andra metoder, ovan,men jämförelser är svåra eftersom sinnena induceras måste mappas till aknown dictionary of word senses. Alternativt, om en kartläggning till en uppsättning ordbokskänslor inte önskas, kan klusterbaserade utvärderingar (inklusive åtgärder för entropi och renhet) utföras. Det är tänkt att oövervakat lärande kommer att övervinna flaskhalsen för kunskapsförvärv eftersom de inte är beroende av manuell ansträngning.
utvärdering
utvärderingen av WSD-system kräver en testkorpus handannoterad med målet eller korrekta sinnen och antar att en sådan corpus kan konstrueras. Två huvudsakliga prestandamått används:
- Precision: den bråkdel av systemtilldelningar som gjorts som är korrekta
- minns: fraktionen av totala ord instanser korrekt tilldelas av ett system
om ett system gör en uppgift för varje ord, då precision andrecall är densamma, och kan kallas noggrannhet. Denna modell har varitförlängas för att ta hänsyn till system som returnerar en uppsättning sinnen medvikter för varje händelse.
det finns två typer av testkorpusar:
- Lexical sample: förekomsten av ett litet urval av målord måste vara disambiguated, och
- All-words: alla ord i en bit löpande text måste vara disambiguated.
den senare anses vara en mer realistisk form av utvärdering, menkorpus är dyrare att producera eftersom mänskliga annotatorermåste läsa definitionerna för varje ord i sekvensen varje gångde behöver göra en märkningsbedömning, snarare än en gång för ett block avinstanser för samma målord. För att definiera gemensamma utvärderingsdatauppsättningar och förfaranden har offentliga utvärderingskampanjer organiserats. Senseval har körts tre gånger: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) och dess efterträdare, SemEval (2007), en gång.
Varför är WSD svårt?
denna artikel diskuterar den gemensamma och traditionella karakteriseringen avwsd som en explicit och separat process av disambiguation med avseende på en fast inventering av ordsensor. Ord antas vanligtvis ha en ändlig och diskret uppsättning sinnen, en grov förenkling av komplexiteten i ordets betydelse, som studerats i lexisk semantik.Även om denna karaktärisering har varit fruktbar för forskning om WSD i sig, är det något i strid med vad som verkar behövas i verkliga applikationer, som diskuterats ovan.
WSD är svårt av många skäl, varav tre diskuteras här.
en sinnesinventering kan inte vara uppgiftsoberoende
en uppgiftsoberoende sinnesinventering är inte ett sammanhängande begrepp:varje uppgift kräver sin egen uppdelning av ordbetydelse i sinnenrelevant för uppgiften. Till exempel är tvetydigheten hos mus(djur eller enhet) inte relevant i engelsk-fransk maskinöversättning, men är relevant vid informationshämtning. Det motsatta ärsann av floden, vilket kräver ett val på franska (fleuve ’strömmar ut i havet’ , eller Riviera auguire ’rinner ut i en flod’).
olika algoritmer för olika applikationer
helt olika algoritmer kan krävas av olika applikationer. I maskinöversättning har problemet formen avmålordval. Här är” sinnena ”ord i målspråket, som ofta motsvarar betydande meningsskillnader på källspråket (bank kan översättas till franska banque’ Financial bank ’eller rive’edge of river’). I informationretrieval, en sinnesinventering krävs inte nödvändigtvis, för detär tillräckligt för att veta att ett ord används i samma mening i fråganoch ett hämtat dokument; vilken mening det är, är oväsentligt.
Ordbetydelse delas inte upp i diskreta sinnen
slutligen är själva begreppet” ordsinne ” halt ochkontroversiellt. De flesta kan komma överens om skillnader på grovkornig homografnivå (t.ex. penna som skrivinstrument eller hölje), men gå ner en nivå tillfinkornig polysemi, och oenigheter uppstår. Till exempel i Senseval-2, vilkenanvände finkorniga meningsskillnader, kom humanannotators överens om endast 85% av ordhändelser. Ordet mening är iprincip oändligt variabel och kontextkänslig. Det skiljer sig inte lätt i distinkta eller diskreta underbetydelser.Lexikografer upptäcker ofta i corpora lösa och överlappandeordbetydelser, och standard eller konventionella betydelser utvidgas,moduleras, och utnyttjas i en förvirrande mängd olika sätt. Konsten attlexikografi är att generalisera från corpus till definitioner som åberopa och förklara hela ordets betydelse, vilket gör att det verkar som om ord är väluppfostrade semantiskt. Det är emellertid inte alls klart om samma meningsskillnader är tillämpliga i inputationella tillämpningar, eftersom lexikografernas beslut vanligtvis drivs av andra överväganden.
föreslagen läsning
- Bar-Hillel, Yehoshua. 1964. Språk och Information. New York: Addison-Wesley.
- Edmonds, Philip & Adam Kilgarriff. 2002. Introduktion till specialutgåvan om utvärdering av ordförståelse disambiguationssystem. Journal of Natural Language Engineering, 8 (4): 279-291.
- Ide, Nancy & Jean V. 1998. Ord sense disambiguation: den senaste tekniken. Beräkningslingvistik, 24 (1): 1-40.
- Jurafsky, Daniel & James H. Martin. 2000. Tal-och språkbehandling. New Jersey, USA: Prentice Hall.
- Lesk, Michael. 1986. Automatisk känsla disambiguation använder maskinläsbara ordböcker: hur man berättar en kotte från en glasskotte. Proceedings of SIGDOC-86: 5: e internationella konferensen om systemdokumentation, Toronto, Kanada, 24-26.
- Mihalcea, Rada. 2007. Ord sense disambiguation. Encyclopedia of Machine Learning. Springer-Verlag.
- Schuxtilltze, Hinrich. 1998. Automatisk ordkänsla diskriminering. Beräkningslingvistik, 24 (1): 97-123.
- Yarowsky, David. 1995. Oövervakad ordsinne disambiguation rivaliserande övervakade metoder. Förfaranden vid det 33: e årsmötet för Föreningen för Beräkningslingvistik, 189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps
interna referenser
- Tomasz Downarowicz (2007) entropi. Scholarpedia, 2(11): 3901.
- Mark Aronoff (2007) Språk. Scholarpedia, 2 (5): 3175.
- Senseval webbplats
- SemEval webbplats
- WSD handledning
Se även
lingvistik, naturligt språk bearbetning
sponsrat av: Prof. Ke CHEN, School of Computer Science, University of Manchester, Storbritannien
recenserat Av: Anonym
recenserat av: Dr. Rada Mihalcea, University of North Texas
accepterad den: 2008-05-23 17:13:44 GMT