Ord fornuft disambiguation

aktivitet efter offentliggørelse

kurator: Enko Agirre

bidragydere:

0.50 –

Eugene M. Ijikevich

0.25 –

Ke CHEN

0.25 –

Philip Edmonds

i naturlig sprogbehandling, ord sense disambiguation (VSD) er problemet med at bestemme, hvilken “sans” (Betydning) af et ord aktiveres ved brug af ordet i en bestemt sammenhæng, en proces, der ser ud til at være Hviderussisk bevidstløs hos mennesker. VSD er et naturligtklassificeringsproblem: givet et ord og dets mulige sanser, som defineret af en ordbog,klassificer en forekomst af ordet i sammenhæng i en eller flere af dets sanseklasser. Funktionerne i konteksten (såsom naboord)giver bevis for klassificering.

et berømt eksempel er at bestemme følelsen af pen ifølgende passage (Bar-Hillel 1960):

Lille John ledte efter sin legetøjskasse. Endelig fandt han det. Kassen var i pennen. John var meget glad.

ordnet lister fem sanser for ordet pen:

pen — et skriveredskab med et punkt, hvorfra blæk strømmer.
pen — et kabinet til indeslutning af husdyr.
kravlegård, pen — en bærbar kabinet, hvor babyer kan overlades til at spille.
penitentiary, pen — en korrigerende institution for dem, der er dømt for større forbrydelser.
pen — Kvindelig svane.

forskningen har udviklet sig støt til det punkt, hvor VSD-systemer opnår ensartede niveauer af nøjagtighed på en række ordtyper og tvetydigheder. Et rigt udvalg af teknikker er blevet undersøgt, fra ordbogsbaserede metoder, der bruger den viden, der er kodet i leksikale ressourcer,til overvågede maskinindlæringsmetoder, hvor en klassifikator trænes for hvert tydeligt ord på et korpus af manuelt sanse-kommenterede eksempler, til fuldstændigt uovervåget metoder, der klynger forekomster af ord, der derved reducerer ordsanser. Blandt disse har overvågede læringsmetoder været de mest succesrige algoritmer til dato.

nuværende nøjagtighed er vanskelig at angive uden et væld af advarsler. På engelsk er nøjagtigheden på grovkornet (homograf) niveau rutinemæssigt over 90%, hvor nogle metoder på bestemte homografier opnår over 96%. På finkornede sanseforskelle er topnøjagtigheder fra 59,1% til 69,0% blevet rapporteret i de seneste evalueringsøvelser (SemEval-2007, Senseval-2), hvor baselinenøjagtigheden af den enkleste mulige algoritme til altid at vælge den mest hyppige sans var henholdsvis 51,4% og 57%.

indhold
historie
applikationer
nytteværdien af VSD
maskinoversættelse
informationssøgning
informationsekstraktion og videnindsamling
metoder
ordbog – og videnbaserede metoder
overvågede metoder
Semi-overvågede metoder
ikke-overvågede metoder
evaluering
Hvorfor er VSD hårdt?
en sanseopgørelse kan ikke være opgaveuafhængig
forskellige algoritmer til forskellige applikationer
ordbetydning opdeles ikke i diskrete sanser
Se også

indhold

1 Historie
2 applikationer
- 2.1 nytten af VSD
- 2.2 maskinoversættelse
- 2.3 informationssøgning
- 2.4 informationsudtræk og videnindsamling
3 metoder
- 3.1 ordbog – og videnbaserede metoder
- 3.2 overvågede metoder
- 3.3 Semi-overvågede metoder
- 3.4 uovervåget metoder
4 evaluering
5 Hvorfor er VSD svært?
- 5.1 en sense inventory kan ikke være opgaveuafhængig
- 5.2 forskellige algoritmer til forskellige applikationer
- 5.3 ordbetydning opdeles ikke i diskrete sanser
6 referencer
7 Eksterne links
8 Se også

historie

VSD blev først formuleret som en særskilt beregningsopgave i de tidlige dage af maskinoversættelse i 1940 ‘ erne, hvilket gør det til et af deoldeste problemer inden for Datalingvistik. I sit berømte memorandum om oversættelse fra 1949 introducerede han først problemet i en beregningsmæssig sammenhæng. Tidlige forskere forstod godt betydningen og vanskeligheden ved VSD. Faktisk brugte Bar-Hillel (1960) ovenstående eksempel til at hævde, at VSD ikke kunne løses af “elektronisk computer” på grund afbehovet generelt at modellere al verdens viden.

i 1970 ‘ erne var VSD en underopgave af semantiskfortolkningssystemer udviklet inden for kunstig intelligens, men da VSD-systemer stort set var regelbaserede og håndkodede, var de tilbøjelige til en flaskehals til erhvervelse af viden.

i 1980 ‘ erne blev store leksikale ressourcer, som f. eks.: håndkodning blev erstattet med viden automatiskudtræk fra disse ressourcer, men flertydig var stadigviden-baseret eller ordbog-baseret.

i 1990 ‘ erne fejede den statistiske revolution gennem computationallingvistik, og VSD blev et paradigmeproblem, som man skulle anvende overvågede maskinlæringsteknikker.

i 2000 ‘ erne nåede overvågede teknikker et plateau i nøjagtighed,og opmærksomheden er derfor skiftet til grovere kornede sanser, domainadaptation, semi-overvågede og uovervåget corpus-baserede systemer,kombinationer af forskellige metoder og tilbagevenden af videnbaserede systemer via grafbaserede metoder. Stadig fortsætter overvågede systemer tiludføre bedst.

applikationer

maskinoversættelse er den originale og mest oplagte anvendelse af sprogteknologi, men VSD er faktisk blevet overvejet i næsten alleanvendelse af sprogteknologi,herunder informationsindhentning, leksikografi, vidensudvinding/erhvervelse og semantisk fortolkning, og bliver stadig vigtigere inden for nye forskningsområder som bioinformatik og det semantiske Net.

nytteværdien af VSD

der er ingen tvivl om, at ovenstående applikationer kræver og bruger ordfornemmelse tvetydighedi en eller anden form. VSD som et separat modul har dog endnu ikke vist sig at gøreen afgørende forskel i enhver applikation. Der er et par nylige resultater, der viser små positive effekter i f.eks. maskinoversættelse, men VSD har også vist sig at skade ydeevnen, som det er tilfældet i velkendte eksperimenter i informationsindhentning.

der er flere mulige årsager til dette. For det første begrænser domænet for en applikation ofte antallet af sanser, et ord kan have (f. eks., man ville ikke forvente at se ‘flodsiden’ følelse af Bank i en finansiel ansøgning), og så leksikoner kan og har været konstrueret i overensstemmelse hermed. For det andet er VSD muligvis ikke korrekt nok til at vise en effekt, og desuden er den anvendte sanseopgørelse sandsynligvis til at matche de specifikke sanseforskelle, der kræves af ansøgningen. For det tredje kan behandling af VSD som en separat komponent eller modul blive vildledt, da det muligvis skal integreres mere tæt som en implicit proces (dvs.som gensidig disambiguation nedenfor).

maskinoversættelse

VSD er påkrævet for leksikalsk valg i MT for ord, der har forskelligeoversættelser til forskellige sanser. For eksempel i en engelsk-Franskøkonomisk nyhedsoversætter kunne den engelske navneordsændring oversætte til enten ændring (‘transformation’) eller monnaie (‘pocketmoney’). De fleste oversættelsessystemer bruger dog ikke en separat Vsdmodul. Leksikonet er ofte foruddisambigueret for et givet domæne,eller håndlavede regler udtænkes, eller VSD foldes ind i en statistisk translationsmodel, hvor ord oversættes inden for sætninger, som derved giver kontekst.

informationssøgning

tvetydighed skal løses i nogle forespørgsler. I betragtning af spørgsmålet om” depression ” skal systemet for eksempel returnere dokumenter om sygdom,vejrsystemer eller økonomi? Aktuelle ir-systemer (f. eks. søgemaskiner), som MT, må ikke bruge et VSD-modul; de er afhængige af brugertyping nok kontekst i forespørgslen til kun at hente dokumenter, der er relevante for den tilsigtede forstand (f.eks. “tropisk depression”). I en proceskaldet gensidig disambiguation, der minder om Lesk-metoden (nedenfor),er alle de tvetydige ord disambigueret i kraft af de intendedsenses, der forekommer i samme dokument.

informationsekstraktion og videnindsamling

i informationsekstraktion og tekstminedrift kræves VSD tilnøjagtig analyse af tekst i mange applikationer. For eksempel,anintelligensindsamlingssystem skal muligvis markere henvisninger til, sige, ulovlige stoffer, snarere end medicinske stoffer. Bioinformatikforskning kræver, at forholdet mellem gener og genprodukter katalogiseres fra den store videnskabelige litteratur; gener og proteiner har dog ofte samme navn. Mere generelt kræver semantikken automatisk annotering af dokumenter i henhold til areference ontologi. VSD er kun begyndt at blive anvendt i disseområder.

metoder

der er fire konventionelle tilgange til VSD:

ordbog – og videnbaserede metoder: Disse er primært afhængige af ordbøger, thesauri og leksikalske vidensbaser uden brug af corpus-bevis.

overvågede metoder: disse gør brug af sense-annoteret corpora at træne fra.

Semi-overvågede eller minimalt overvågede metoder: disse gør brug af en sekundær kilde til viden, såsom et lille kommenteret korpus som frødata i en bootstrapping-proces, eller et ordjusteret tosproget korpus.

ikke-overvågede metoder: Disse undgår (næsten) fuldstændig ekstern information og arbejder direkte fra rå unannoterede corpora. Disse metoder er også kendt under navnet ord sense diskrimination.

ordbog – og videnbaserede metoder

leskmetoden (Lesk 1986) er den sædvanlige ordbogsbaserede metode. Det er baseret på hypotesen om, at ord, der bruges sammen i tekst, er relateret til hinanden, og at forholdet kan observeres i definitionen af ordene og deres sanser. To (eller flere) ord erdisambigueret ved at finde paret af ordbogssanser med den største ordoverlapning i deres ordbogsdefinitioner. For eksempel, når man disambiguerer ordene ipine kegle, definitionerne af de relevante sanser inkluderer begge ordenevergreen og træ (i det mindste i en ordbog).

et alternativ til brugen af definitionerne er at overveje generelord-sense-tilknytning og at beregne den semantiske lighed mellem hvert par af ordsanser baseret på en given leksikalsk videnbase som f.eksordnet. Grafbaserede metoder, der minder om spredning-aktiveringforskning fra de tidlige dage af AI-forskning er blevet anvendt med en vis succes.

brug af valgpræferencer (eller valgbegrænsninger) er også nyttige. For eksempel ved at vide, at man typisk laver mad, kan man disambiguere ordet bas I Jeg laver bas (dvs.det er ikke et musikinstrument).

overvågede metoder

overvågede metoder er baseret på antagelsen om, at konteksten kangive tilstrækkeligt bevis på egen hånd til at disambiguere ord (derfor anses verdensviden og ræsonnement for unødvendige). Sandsynligvis er hver maskinlæringsalgoritme, der går, blevet anvendt på VSD, herunder tilknyttede teknikker såsom funktionsvalg, parameteroptimering og ensemblelæring. Støtte vektor maskiner oghukommelsesbaseret læring har vist sig at være den mest succesrigetilgange, til dato, sandsynligvis fordi de kan klare denhøj dimensionalitet af funktionen plads. Disse overvågede metoder er imidlertid underlagt en ny flaskehals til erhvervelse af viden, da de er afhængige af betydelige mængder manuelt sansemærkede virksomheder til træning, som er besværlige og dyre at skabe.

Semi-overvågede metoder

bootstrapping-metoden starter fra en lille mængde frødata for hvert ord: enten manuelt mærkede træningseksempler eller et lille antal sikkerhedsregler (f.eks. spiller i forbindelse med bas angiver næsten altid musikinstrumentet). Frøene bruges tiltræne en indledende klassifikator ved hjælp af en hvilken som helst overvåget metode. Denne klassificering bruges derefter på den ikke-taggede del af corpus til at udtrække et større træningssæt, hvor kun de mest fortrolige klassifikationer er inkluderet. Processen gentages, hver ny klassifikator bliver trænet på et successivt større træningskorpus, indtil hele corpus forbruges, eller indtil et givet maksimalt antal iterationer er nået.

andre semi-overvågede teknikker bruger store mængder untaggedcorpora til at give oplysninger om samtidig forekomst, der supplerer den taggede korpora. Disse teknikker har potentiale til at hjælpe medtilpasningen af overvågede modeller til forskellige domæner.

også et tvetydigt ord på et sprog oversættes ofte tilforskellige ord på et andet sprog afhængigt af betydningen aford. Ordjusteret tosprogede korpora er blevet brugt til at udlede tværsprogede sanseforskelle, en slags semi-overvåget system.

ikke-overvågede metoder

uovervåget læring er den største udfordring for forskere. Den underliggende antagelse er, at lignende sanser forekommer ilignende sammenhænge, og således kan sanser induceres fra tekst ved at skjule ordforekomster ved hjælp af en vis grad af lighed mellem kontekst. Derefter kan nye forekomster af ordet klassificeres i de nærmeste inducerede klynger/sanser. Ydeevnen har været lavere end andre metoder ovenfor, men sammenligninger er vanskelige, da inducerede sanser skal kortlægges til en kendt ordbog med ordsanser. Alternativt, hvis en kortlægning til et sæt ordbogssanser ikke ønskes, kan klyngebaserede evalueringer (inklusive målinger af entropi og renhed) udføres. Det er muligt, at uovervåget læring vil overvinde flaskehalsen for erhvervelse af viden, fordi de ikke er afhængige af manuel indsats.

evaluering

evalueringen af VSD-systemer kræver en testkorpus hånd kommenteret med målet eller korrekte sanser og antager, at et sådant korpus kan konstrueres. To vigtigste præstationsmål anvendes:

præcision: den brøkdel af systemopgaver, der er foretaget, der er korrekte
tilbagekaldelse: den brøkdel af de samlede ordforekomster, der er korrekt tildelt af et system

hvis et system foretager en opgave for hvert ord, er præcision ogminder det samme og kan kaldes nøjagtighed. Denne model har væretudvidet for at tage hensyn til systemer, der returnerer et sæt sanser medvægte for hver forekomst.

der er to slags test korpora:

leksikalsk prøve: forekomsterne af en lille prøve af målord skal disambigueres, og
alle ord: alle ordene i et stykke løbende tekst skal disambigueres.

sidstnævnte anses for at være en mere realistisk form for evaluering, men korpus er dyrere at producere, fordi menneskelige kommentatorer skal læse definitionerne for hvert ord i sekvensen hver gang, de skal lave en tagging dom, snarere end en gang for en blok af forekomster for det samme målord. For at definere fælles evalueringsdatasæt og-procedurer er offentlige evalueringskampagner blevet organiseret. Senseval er blevet kørt tre gange: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) og dens efterfølger, SemEval (2007), en gang.

Hvorfor er VSD hårdt?

denne artikel diskuterer den fælles og traditionelle karakterisering af VSD som en eksplicit og separat proces meddisambiguation med hensyn til en fast opgørelse over ordsanser. Ord antages typisk at have et endeligt og diskret sæt sanser, en grosssimplification af kompleksiteten af ordbetydning, som studeret i leksikalsk semantik.Mens denne karakterisering har været frugtbar for forskning i VSD i sig selv, det er noget i strid med, hvad der synes at være nødvendigt i reelle applikationer, som diskuteret ovenfor.

VSD er svært af mange grunde, hvoraf tre diskuteres her.

en sanseopgørelse kan ikke være opgaveuafhængig

en opgaveuafhængig sanseopgørelse er ikke et sammenhængende koncept:hver opgave kræver sin egen opdeling af ordbetydning i sanserrelevant for opgaven. For eksempel er tvetydigheden af mus(dyr eller enhed) ikke relevant i engelsk-fransk maskinetranslation, men er relevant i informationssøgning. Det modsatte istrue af floden, som kræver et valg på fransk (fleuve’ strømmer ud i havet’, eller rivius Larre’strømmer ud i en flod’).

forskellige algoritmer til forskellige applikationer

helt forskellige algoritmer kan kræves af differentapplications. I maskinoversættelse tager problemet form afmålordvalg. Her er” sanserne “ord i målsproget, som ofte svarer til betydelige meningsforskelle i kildesproget (bank kunne oversætte til fransk bank “finansiel bank” eller rive “kanten af floden”). I informationretrieval, en sanseopgørelse er ikke nødvendigvis påkrævet, fordi deter nok til at vide, at et ord bruges i samme forstand i forespørgslenog et hentet dokument; hvilken forstand det er, er uvigtigt.

ordbetydning opdeles ikke i diskrete sanser

endelig er selve begrebet “ordfølelse” glat ogkontroversiel. De fleste mennesker kan være enige i sondringer på grovkornet homografniveau (f.eks. pen som skriveinstrument eller kabinet), men gå ned et niveau tilfinkornet polysemi, og uenigheder opstår. For eksempel i Senseval-2, sombrugte finkornede sanseforskelle, var humanannotatorer enige om kun 85% af ordforekomsterne. Ordbetydning er iprincip uendeligt variabel og kontekstfølsom. Det opdeler sig ikke let i forskellige eller diskrete underbetydninger.Leksikografer opdager ofte i corpora løse og overlappende ordbetydninger,og standard eller konventionelle betydninger udvidet, moduleret, og udnyttet på en forvirrende række forskellige måder. Kunsten atleksikografi er at generalisere fra corpus til definitioner, derudkalde og forklare hele spektret af betydning af et ord, hvilket får det til at virke som ord er velopdragen semantisk. Det er dog slet ikke klart, om disse samme meningsforskelle er anvendelige inkomputationelle applikationer, da leksikografernes beslutninger normalt er drevet af andre overvejelser.

foreslået læsning

Bar-Hillel, Yehoshua. 1964. Sprog og Information. – Addison.

Edmonds, Philip & Adam Kilgarriff. 2002. Introduktion til specialudgaven om evaluering af ordfølelsesdisambigueringssystemer. Tidsskrift for Natursprogsteknik, 8 (4): 279-291.

Ide, Nancy & Jean V Kurrronis. 1998. Ord sense disambiguation: den nyeste teknik. Computational Lingvistik, 24 (1): 1-40.

Jurafsky, Daniel & James H. Martin. 2000. Tale-og sprogbehandling. Ny trøje, USA: Prentice Hall.

Lesk, Michael. 1986. Automatisk sense disambiguation ved hjælp af maskinlæsbare ordbøger: hvordan man fortæller en fyrkegle fra en iskegle. Proceedings of SIGDOC-86: 5th International Conference on Systems Documentation, Toronto, Canada, 24-26.

Mihalcea, Rada. 2007. Ord fornuft disambiguation. Encyclopedia of Machine Learning. Springer-Verlag.

Schrich, Hinrich. 1998. Automatisk ord sense diskrimination. Computational Lingvistik, 24 (1): 97-123.

David. 1995. Uovervåget ord forstand disambiguation rivaling overvåget metoder. Forløbet af det 33. årlige møde i Association for Computational lingvistik, 189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps

interne referencer

entropi (2007). Scholarpedia, 2 (11): 3901.

Mark Aronoff (2007) Sprog. Scholarpedia, 2 (5): 3175.

Senseval hjemmeside
SemEval hjemmeside
VSD tutorial

Se også

lingvistik, naturlig sprogbehandling

sponsoreret af: Prof. Ke CHEN, School of Computer Science, University of Manchester, Storbritannien

anmeldt af: Anonym

anmeldt af: Dr. Rada Mihalcea, University of North London

accepteret den: 2008-05-23 17:13:44 GMT