Kurator: Eneko Agirre
Eugene M. Izhikevich
Ke CHEN
Philip Edmonds
i naturlig språkbehandling er ordsansens disambiguation (WSD) problemet med å bestemme hvilken » mening «(mening) av et ord som aktiveres av bruken av ordet i en bestemt kontekst, en prosess som synes å være ubevisst i mennesker. WSD er et naturligklassifiseringsproblem: Gitt et ord og dets mulige sanser, som definert av en ordbok,klassifiserer en forekomst av ordet i sammenheng i en eller flere av dens sanseklasser. Funksjonene i konteksten (for eksempel naboord)gir bevis for klassifisering.
et kjent eksempel er å bestemme følelsen av penn i den etterfølgende passasjen (Bar-Hillel 1960):
Lille John lette etter sin toy box. Til slutt fant han det. Esken lå i pennen. John var veldig glad.
WordNet viser fem sanser for ordet penn:
- pen-en skriftlig implementere med et punkt som blekket flyter.
- penn-et kabinett for å begrense husdyr.
- lekegrind, penn – et bærbart kabinett der babyer kan bli igjen for å spille.
- penitentiary, pen — en korrigerende institusjon for de dømt for store forbrytelser.
- penn — kvinnelig svane.
Forskning har utviklet seg jevnt til DET punktet DER WSD-systemeroppnå konsistente nivåer av nøyaktighet på en rekke ordtyper ogtydigheter. Et rikt utvalg oftechniques har blitt undersøkt, fra ordboksbaserte metoder som bruker kunnskapen kodet i leksikalske ressurser, til tilsynsmaskinlæringsmetoder der en klassifikator er opplært for hvert distinctword på et korpus av manuelt sense-annoterte eksempler, til helt uovervåkede metoder som klynger forekomster av ord, dervedinducerende ord sanser. Blant disse, veiledet læring tilnærminger har vært de mest vellykkede algoritmer til dags dato.
Nåværende nøyaktighet er vanskelig å angi uten en rekke advarsler. OnEnglish, nøyaktighet på grovkornet (homograph) nivå er rutinemessig over 90%, withsome metoder på bestemte homographs oppnå over 96%. På finere kornet sanseforskjeller har toppnøyaktigheter fra 59,1% til 69,0% blitt rapportert i nyere evalueringsøvelser (SemEval-2007, Senseval-2), hvor baseline-nøyaktigheten av den enkleste mulige algoritmen for alltid å velge hyppigste forstand var henholdsvis 51,4% og 57%.
- Innhold
- Historie
- Applikasjoner
- nytten AV WSD
- maskinoversettelse
- innhenting av Informasjon
- informasjon utvinning og kunnskapsinnhenting
- Metoder
- Ordbok – og kunnskapsbaserte metoder
- Overvåkede metoder
- Semi-overvåket metoder
- Metoder Uten Tilsyn
- Evaluering
- Hvorfor ER WSD vanskelig?
- en sansebeholdning kan ikke være oppgaveuavhengig
- Ulike algoritmer for forskjellige applikasjoner
- Ordbetydning deler seg ikke opp i diskrete sanser
- Se også
Innhold
- 1 Historie
- 2 Programmer
- 2.1 nytten AV WSD
- 2.2 Maskinoversettelse
- 2.3 innhenting av Informasjon
- 2.4 informasjonsutvinning og kunnskapsinnhenting
- 3 Metoder
- 3.1 Ordbok-og kunnskapsbaserte metoder
- 3.2 Veiledet metoder
- 3.3 Semi-veiledet metoder
- 3.4 metoder Uten Tilsyn
- 4 Evaluering
- 5 HVORFOR ER WSD vanskelig?
- 5.1 en sense-beholdning kan ikke være oppgaveuavhengig
- 5.2 forskjellige algoritmer for forskjellige applikasjoner
- 5.3 Ord betyr ikke dele opp i diskrete sanser
- 6 Referanser
- 7 Eksterne lenker
- 8 Se også
Historie
WSD ble først formulert som en distinkt beregningsoppgave i løpet av de tidlige dagene av maskinoversettelse på 1940-tallet, noe som gjør DET til et av de eldste problemene i datalingvistikk. Warren Weaver, i sin berømte 1949 memorandum on translation, introduserte først problemet i en beregningskontekst. Tidlige forskereforstod godt betydningen OG vanskeligheten AV WSD. Faktisk Brukte Bar-Hillel (1960) eksemplet ovenfor for å hevde AT WSD ikke kunne løses av «elektronisk datamaskin» på grunn avbehovet generelt for å modellere all verdens kunnskap.
PÅ 1970-tallet var WSD en deloppgave av semantisktolkningssystemer utviklet innen kunstig intelligens, men SIDEN wsd-systemer i stor grad var regelbaserte og håndkodede, var de utsatt for en flaskehals for kunnskapsoppkjøp.
på 1980-tallet ble store leksikalske ressurser, som Oxford Advanced Learner ‘ S Dictionary Of Current English (OALD), bletilgjengelig: hånd-koding ble erstattet med kunnskap automaticallyextracted fra disse ressursene, men disambiguation var fortsatt knowledge-basert eller ordbok-basert.
på 1990-tallet feide den statistiske revolusjonen gjennom beregningsallingvistikk, OG WSD ble et paradigmeproblem for å anvende overvåkede maskinlæringsteknikker.
på 2000-tallet har overvåkede teknikker nådd et platå i nøyaktighet, og oppmerksomheten har derfor skiftet til grovkornede sanser, domainadaptation,semi-overvåket og unsupervised corpus-baserte systemer, kombinasjoner av forskjellige metoder og retur av kunnskapsbaserte systemer via grafbaserte metoder. Likevel fortsetter overvåkede systemer åutføre seg best.
Applikasjoner
Maskinoversettelse er den opprinnelige og mest åpenbare søknaden forWSD, MEN WSD har faktisk blitt vurdert i nesten alleanvendelse av språkteknologi, inkludert informasjonsinnhenting, leksikografi, kunnskapsutvinning/oppkjøp og semantisk tolkning, og blir stadig viktigere i nye forskningsområder som bioinformatikk og Semantisk Web.
nytten AV WSD
det er ingen tvil om at de ovennevnte programmene krever og bruke ordet forstand disambiguati en eller annen form. IMIDLERTID HAR WSD som en separat modul ennå ikke vist seg å gjøreen avgjørende forskjell i enhver applikasjon. Det er noen få nylige resultatersom viser små positive effekter i for eksempel maskinoversettelse, MEN WSD har også vist seg å skade ytelsen, som det er tilfelle i kjente eksperimenter i informasjonsinnhenting.
det er flere mulige årsaker til dette. For det første begrenser domenet til et program ofte antall sanser et ord kan ha (f. eks., ville man ikke forvente å se ‘river side’ følelse avbank i en økonomisk søknad), og så leksika kan og havebeen konstruert tilsvarende. For DET andre KAN WSD ikke være nøyaktig nok til å vise en effekt, og i tillegg er sansebeholdningen brukt for å matche de spesifikke sanseforskjellene som kreves av søknaden. For det tredje kan behandling AV WSD som en separat komponent eller modul bli misforstått, da DET kanskje må være tettere integrert som animplicit prosess (dvs.som gjensidig disambiguasjon, nedenfor).
maskinoversettelse
WSD er nødvendig for leksikalske valg I MT for ord som har forskjelligoversettelser for ulike sanser. For eksempel, i en Engelsk-Franskfinancial news translator, kan det engelske substantivet change translate enten changement (‘transformation’) eller monnaie (‘pocketmoney’). Imidlertid bruker de fleste oversettelsessystemer ikke en separat WSDmodule. Leksikonet er ofte pre-disambiguated for et gitt domene,eller håndlagde regler er utarbeidet, ELLER WSD er brettet inn i en statistiskoversettelsesmodell, hvor ord er oversatt innenfor setninger som dermed gir kontekst.
innhenting av Informasjon
Tvetydighet må løses i noen spørsmål. For eksempel, gitt spørsmålet» depresjon » skal systemet returnere dokumenter om sykdom, værsystemer eller økonomi? Nåværende IR-systemer (For Eksempel Web searchengines), som MT, bruker ikke EN wsd-modul; de stole på usertyping nok kontekst i spørringen for å bare hente dokumenter som er relevante for den tiltenkte følelsen(f. eks. «tropisk depresjon»). I en prosess kalt gjensidig disambiguation, som minner Om Lesk-metoden (under),er alle de tvetydige ordene disambiguert i kraft av de tiltenkte sens som forekommer i samme dokument.
informasjon utvinning og kunnskapsinnhenting
I informasjon utvinning og tekst mining, er WSD nødvendig fornøyaktig analyse av tekst i mange programmer. For eksempel kan anintelligence gathering system trenge å flagge opp referanser til, si, ulovlige rusmidler, snarere enn medisinske stoffer. Bioinformaticsforskning krever forholdet mellom gener og genprodukter som katalogiseres fra den enorme vitenskapelige litteraturen; gener og deres proteiner har imidlertid ofte samme navn. Mer generelt Krever SemanticWeb automatisk annotering av dokumenter i henhold til areference ontology. WSD begynner bare å bli brukt i disseområder.
Metoder
det er fire konvensjonelle tilnærminger TIL WSD:
- Ordbok – og kunnskapsbaserte metoder: Disse er hovedsakelig avhengige av ordbøker, tesauri og leksikalske kunnskapsbaser, uten å bruke noen corpus bevis.
- Overvåket metoder: Disse gjør bruk av sense-annotated corpora å trene fra.
- Semi-overvåket eller minimalt overvåket metoder: Disse gjør bruk av en sekundær kilde til kunnskap som en liten annotert corpus som frø data i en bootstrapping prosess, eller et ord-justert tospråklig corpus.
- Unsupervised metoder: Disse eschew (nesten) helt ekstern informasjon og arbeider direkte fra rå unannotated corpora. Disse metodene er også kjent under navnet ordet sense diskriminering.
Ordbok – og kunnskapsbaserte metoder
Lessk-metoden (Lesk 1986) er den seminal ordbokbaserte metoden. Det er basert på hypotesen om at ord som brukes sammen i tekst er relatert til hverandre og at forholdet kan observeres i definisjonen av ordene og deres sanser. To (eller flere) ord aredisambiguated ved å finne par ordbok sanser med thegreatest ord overlapping i sine ordbok definisjoner. For eksempel, når disambiguating ordene ifuru kjegle, definisjonene av de aktuelle sansene begge inkluderer ordeteviggrønn og tre (minst i en ordbok).
et alternativ til bruken av definisjonene er å vurdere generalord-sense relatedness og å beregne den semantiske likheten til eachpair av ordfølelser basert på en gitt leksikalsk kunnskapsbase som wordnet. Grafbaserte metoder som minner om spredningsaktiveringforskning av DE tidlige DAGENE AV AI-forskning har blitt brukt med noen suksess.
bruk av valginnstillinger (eller valgbegrensninger) er også nyttig. For eksempel, å vite at man vanligvis kokker mat, kan man disambiguere ordet bass i jeg lager bass (dvs. det er ikke et musikkinstrument).
Overvåkede metoder
Overvåkede metoder er basert på antagelsen om at konteksten kan gi nok bevis på egen hånd til å disambiguere ord(derfor anses verdenskunnskap og resonnement unødvendig). Sannsynligvis har everymachine – læringsalgoritmen blitt brukt PÅ WSD, inkludert assosierte teknikker som funksjonsvalg, parameteroptimalisering og ensemble læring. Støtte vektormaskiner ogminnebasert læring har vist seg å være den mest vellykkedetilnærminger, til dags dato, sannsynligvis fordi de kan taklehøydimensjonalitet av funksjonsområdet. Disse tilsynsmetodene er imidlertid gjenstand for en ny flaskehals for kunnskapsoppkjøp, siden de stole på betydelige mengder manuelt følelsesmerkede korpus for opplæring, som er slitsomme og dyre å skape.
Semi-overvåket metoder
bootstrapping tilnærming starter fra en liten mengde frø data for hvert ord: enten manuelt merkede treningseksempler eller et lite nummer av surefire beslutningsregler (f.eks. Frøene er vant tiltren en første klassifikator, ved hjelp av en overvåket metode. Thisclassifier brukes deretter på den ukodede delen av corpus toextract et større treningssett, der bare de mest confidentclassifications er inkludert. Prosessen gjentar, hver ny klassifiseringblir trent på et suksessivt større treningskorpus, til hele korpuset blir konsumert, eller til et gitt maksimalt antall iterasjoner er nådd.
Andre semi-overvåket teknikker bruke store mengder untaggedcorpora å gi co-forekomst informasjon som supplerer thetagged corpora. Disse teknikkene har potensial til å hjelpe inthe tilpasning av veiledet modeller til ulike domener.
også et tvetydig ord på ett språk blir ofte oversatt tilforskjellige ord på et annet språk avhengig av betydningen av ordet. Ord-justert tospråklige korpora har blitt brukt til å infercross-lingual sense distinksjoner, en slags semi-overvåket system.
Metoder Uten Tilsyn
Læring uten Tilsyn er Den største utfordringen For WSDresearchers. Den underliggende antakelsen er at lignende sanser forekommer i lignende sammenhenger, og dermed sanser kan bli indusert fra tekst ved å kluste ord forekomster ved hjelp av en viss grad av likhet ofcontext. Deretter kan nye forekomster av ordet klassifiseres i de nærmeste induserteklynger / sanser. Ytelsen har vært lavere enn andre metoder, ovenfor, men sammenligninger er vanskelig siden sanser indusert må kartlegges til aknown ordbok av ord sanser. Alternativt, hvis en tilordning til et sett med ordbokssanser ikke er ønsket, kan klyngebaserte evalueringer (inkludert mål for entropi og renhet) utføres. Det ishoped at unsupervised læring vil overvinne knowledgeacquisition flaskehals fordi de ikke er avhengige av manualeffort.
Evaluering
evalueringen AV wsd-systemer krever et testkorpus håndmerketmed målet eller korrekte sanser, og antar at et slikt corpus kan konstrueres. To hovedprestasjonsmålinger brukes:
- Presisjon: brøkdel av systemtildelinger som er riktige
- Tilbakekalling: fraksjonen av totale ord forekomster riktig tildelt av et system
hvis et system gjør en oppgave for hvert ord, så presisjon ogrecall er de samme, og kan kalles nøyaktighet. Denne modellen har værtutvidet til å ta hensyn til systemer som returnerer et sett med sanser medvekter for hver forekomst.
det finnes to typer testkorpus:
- Lexical sample: forekomsten av et lite utvalg av målord må disambigueres, og
- All-words: alle ordene i et stykke løpende tekst må disambigueres.
sistnevnte anses som en mer realistisk form for evaluering, men corpus er dyrere å produsere fordi menneskelige merknader må lese definisjonene for hvert ord i sekvensen hver gang de trenger å gjøre en tagging dom, snarere enn en gang for en blokk av forekomster for det samme målordet. For å definere fellesevalueringsdatasett og prosedyrer, har offentlige evalueringskampanjer organisert seg. Senseval har blitt kjørt tre ganger: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), og etterfølgeren, SemEval (2007), en gang.
Hvorfor ER WSD vanskelig?
denne artikkelen diskuterer den vanlige og tradisjonelle karakteriseringen avwsd som en eksplisitt og separat prosess med uenighet med hensyn til en fast oversikt over ordfølelser. Wordsare vanligvis antas å ha en endelig og diskret sett av sanser, en gross simplification av kompleksiteten i ord mening, som studert i leksikalsk semantikk.Selv om denne karakteriseringen har vært fruktbar for forskning PÅ WSD per se, er det noe i strid med det som synes å være nødvendig i virkelige applikasjoner,som diskutert ovenfor.
WSD er vanskelig av mange grunner, hvorav tre er diskutert her.
en sansebeholdning kan ikke være oppgaveuavhengig
en oppgaveuavhengig sansebeholdning er ikke et sammenhengende konsept:hver oppgave krever sin egen oppdeling av ordbetydning i sanserelevant for oppgaven. For eksempel er tvetydigheten av mus (dyr eller enhet) ikke relevant på engelsk-fransk maskinoversettelse, men er relevant i informasjonsinnhenting. Det motsatte er elven, som krever et valg på fransk (fleuve’ strømmer inn i havet’, eller riviè’strømmer inn i en elv’).
Ulike algoritmer for forskjellige applikasjoner
Helt forskjellige algoritmer kan kreves av forskjellige applikasjoner. I maskinoversettelse tar problemet form formmål ordvalg. Her er» sansene «ord i måletspråk, som ofte tilsvarer betydelige meningsforskjeller i kildespråket(bank kunne oversette til fransk banque ‘financial bank’ eller rive ‘edge of river’). I informationretrieval, en følelse inventar er ikke nødvendigvis nødvendig, fordi det er nok til å vite at et ord er brukt i samme forstand i queryand et hentet dokument; hva forstand det er, er uviktig.
Ordbetydning deler seg ikke opp i diskrete sanser
Til Slutt er selve begrepet «ordfølelse» glatt ogkontroversielt. De fleste kan bli enige om forskjeller på grovkornet homografnivå (f. eks. penn som skriveinstrument eller kabinett), men gå ned ett nivå tofinkornet polysemi, og uenigheter oppstår. For Eksempel, I Senseval-2, sombrukte finkornede sanseforskjeller, humanannotators enige i bare 85% av ordforekomster. Ordet mening er iprinsippet uendelig variabel og kontekstsensitiv. Det gjør notdivide opp lett i distinkte eller diskrete sub-betydninger.Leksikografer oppdager ofte i korpusene løse og overlappende ord betydninger, og standard eller konvensjonelle betydninger utvidet, modulert og utnyttet på en forvirrende rekke måter. Kunsten oflexicography er å generalisere fra corpus til definisjoner thatevoke og forklare hele spekteret av betydningen av et ord, noe som gjør det virke som ord er veloppdragen semantisk. Det er imidlertid ikke klart om disse samme betydningsforskjellene gjelder ikomputasjonsapplikasjoner, da leksikografers beslutninger vanligvis drives av andre hensyn.
Foreslått lesing
- Bar-Hillel, Yehoshua. 1964. Språk Og Informasjon. New York: Addison-Wesley (Engelsk).
- Edmonds, Philip & Adam Kilgarriff. 2002. Introduksjon til det spesielle spørsmålet om evaluering av ordforståelsessystemer. Tidsskrift For Naturlig Språkteknikk, 8(4):279-291.
- Ide, Nancy & Jean Vé. 1998. Ord følelse disambiguation: state of the art. Computational Lingvistikk, 24(1):1-40.
- Jurafsky, Daniel & James H. Martin. 2000. Tale-Og Språkbehandling. New Jersey, USA: Prentice Hall.
- Lesk, Michael. 1986. Automatisk sense disambiguation bruke maskinlesbare ordbøker: Hvordan fortelle en pine cone fra en iskrem Proceedings OF SIGDOC-86: 5th International Conference on Systems Documentation, Toronto, Canada, 24-26.
- Mihalcea, Rada. 2007. Word sense disambiguation. Encyclopedia Av Maskinlæring. Springer-Verlag.
- Schü, Hinrich. 1998. Automatisk ord forstand diskriminering. Computational Lingvistikk, 24 (1): 97-123.
- Yarowsky, David. 1995. Unsupervised ord forstand disambiguation rivaling overvåket metoder. Proceedings av Det 33. Årlige Møtet I Foreningen for Computational Lingvistikk, 189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps
Interne referanser
- Tomasz Downarowicz (2007) Entropi. Scholarpedia, 2 (11): 3901.
- Mark Aronoff (2007) Språk. Scholarpedia, 2 (5): 3175.
- Senseval website
- SemEval website
- wsd tutorial
Se også
Lingvistikk, Naturlig Språkbehandling
Sponset av: Prof. Ke CHEN, School Of Computer Science, University Of Manchester, STORBRITANNIA
Anmeldt Av: Anonym
Anmeldt Av: Dr. Rada Mihalcea, Universitetet I Nord-Texas
Akseptert på: 2008-05-23 17:13:44 GMT