Sanan sense disambiguation

julkaisun jälkeinen toiminta

kuraattori: Eneko Agirre

avustajat:

0.50 –

Eugene M. Ižikevitš

0.25 –

Ke CHEN

0.25 –

Philip Edmonds

luonnollisessa kielenkäsittelyssä word sense disambiguation (WSD) on ongelma määrittää, mikä sanan ”sense” (merkitys) aktivoituu käyttämällä sanaa tietyssä asiayhteydessä, prosessi, joka näyttää olevan erittäin tiedostamaton ihmisillä. WSD on luonnollinen luokitteluongelma: kun sana ja sen mahdolliset aistit määritellään sanakirjassa, luokittelee sanan esiintymä asiayhteydessä yhteen tai useampaan sen aistikategoriaan. Asiayhteyden piirteet (kuten viereiset sanat)todistavat luokittelun.

kuuluisa esimerkki on kynän merkityksen selvittäminen seuraavassa kohdassa (Bar-Hillel 1960):

Pikku-John etsi lelulaatikkoaan. Lopulta hän löysi sen. Laatikko oli aitauksessa. John oli hyvin onnellinen.

WordNet listaa viisi aistia sanalle kynä:

kynä-kirjoitusväline, jossa on piste, josta muste virtaa.
aitaus karjan pitämistä varten.
leikkikehä, kynä — kannettava kotelo, johon vauvat voidaan jättää leikkimään.
kuritushuone, pen — rangaistuslaitos vakavista rikoksista tuomituille.
kynäjoutsen.

tutkimus on edennyt tasaisesti siihen pisteeseen, että WSD-järjestelmätsaavuttavat johdonmukaisia tarkkuustasoja useilla eri sanatyypeillä ja-yhdistelmillä. On tutkittu runsaasti erilaisia tekniikoita sanakirjapohjaisista menetelmistä, joissa käytetään leksikaalisiin resursseihin koodattua tietoa, valvottuihin koneoppimismenetelmiin, joissa luokittaja koulutetaan jokaista erillistä sanaa varten käsin merkittyjen esimerkkien joukosta, täysin valvomattomiin menetelmiin, jotka ryhmittelevät sanojen esiintymiä ja vähentävät siten sanavaistoja. Näistä ohjatut oppimistavat ovat olleet tähän mennessä menestyksekkäimpiä algoritmeja.

Nykytarkkuutta on vaikea todeta ilman lukuisia varoituksia. Englannin kielessä karkearakeisen homografian (homograph) tarkkuus on rutiininomaisesti yli 90%, ja joillakin menetelmillä tietyissä homografioissa saavutetaan yli 96%. Hienorakeisemmista aistineroista on raportoitu viimeisimmissä arviointiharjoituksissa (SemEval-2007, Senseval-2) huipputarkkuudet 59,1%: sta 69,0%: iin, joissa yksinkertaisimman mahdollisen algoritmin tarkkuus valita aina tihein aisti oli 51,4% ja 57%.

Sisällys
historia
Sovellukset
WSD: n hyödyllisyys
konekääntäminen
tiedonhaku
tiedon louhinta ja tiedonhankinta
menetelmät
sanakirja-ja tietopohjaiset menetelmät
valvotut menetelmät
Puoliohjatut menetelmät
Valvomattomat menetelmät
arviointi
miksi WSD on kova?
aistivarasto ei voi olla tehtäväriippumaton
erilaisia algoritmeja eri sovelluksille
sanan merkitys ei jakaudu diskreeteiksi aisteiksi
Katso myös

Sisällys

1 Historia
2 hakemusta
- 2.1 WSD: n hyödyllisyys
- 2.2 konekääntäminen
- 2.3 Tiedonhaku
- 2.4 tiedonhankinta ja tiedonhankinta
3 menetelmät
- 3.1 sanakirja-ja tietopohjaiset menetelmät
- 3.2 valvotut menetelmät
- 3.3 Puolivalvotut menetelmät
- 3.4 Valvomattomat menetelmät
4 arviointi
5 Miksi WSD on kova?
- 5.1 a sense inventory ei voi olla tehtäväriippumaton
- 5.2 erilaiset algoritmit eri sovelluksille
- 5.3 sanan merkitys ei jakaudu erillisiin aisteihin
6 viitteet
7 Ulkoiset linkit
8 Katso myös

historia

WSD muotoiltiin ensimmäisen kerran erilliseksi laskennalliseksi tehtäväksi konekääntämisen vuosina 1940-luvulla, mikä tekee siitä yhden laskennallisen kielitieteen vaikeimmista ongelmista. Warren Weaver, hänen kuuluisa 1949 memorandum on translation, ensimmäinen esitteli ongelman laskennallinen yhteydessä. Varhaiset tutkijat ymmärtävät hyvin WSD: n merkityksen ja vaikeuden. Itse asiassa Bar-Hillel (1960) käytti edellä mainittua esimerkkiä väittääkseen, että WSD: tä ei voitu ratkaista ”elektronisella tietokoneella”, koska kaiken maailman tiedon mallintamisen tarve oli yleinen.

1970-luvulla WSD oli osa keinotekoisen älyn alalla kehitettyjä semanttisia tulkintajärjestelmiä, mutta koska WSD-järjestelmät olivat pitkälti sääntöpohjaisia ja käsikoodattuja, ne olivat alttiita tiedonhankinnan pullonkaulalle.

1980-luvulle tultaessa saatiin käyttöön laajamittaisia leader-aineistoja, kuten Oxford Advanced Learner ’ s Dictionary of Current English (OALD): käsikoodaus korvattiin näistä resursseista automaattisesti lisätyllä tiedolla, mutta disambiguaatio oli edelleen osaamiseen tai sanakirjapohjaista.

1990-luvulla tilastollinen vallankumous pyyhkäisi läpi computationallinguisticsin, ja WSD: stä tuli paradigman problemoni, joka soveltaa valvottuja koneoppimistekniikoita.

2000-luvulla valvotut tekniikat saavuttivat tasanteen tarkkuudessa,joten huomio on siirtynyt karkeampiin aisteihin, domainadaptaatioon, puolivalvottuihin ja valvomattomiin corpus-pohjaisiin järjestelmiin,eri menetelmien yhdistelmiin ja tietopohjaisten järjestelmien paluuseen graafisiin menetelmiin perustuvin menetelmin. Valvotut järjestelmät ovat kuitenkin edelleen parhaita.

Sovellukset

konekääntäminen on alkuperäinen ja ilmeisin sovellus forWSD: lle, mutta WSD on itse asiassa otettu huomioon lähes kaikissa kieliteknologian sovellutuksissa,mukaan lukien tiedonhaku, leksikografia, tiedon louhinta/hankinta ja semanttinen tulkinta.

WSD: n hyödyllisyys

ei ole epäilystäkään siitä, etteivätkö edellä mainitut sovellukset vaatisi ja käyttäisi sananjärjen disambiguaatiota muodossa tai toisessa. WSD erillisenä moduulina ei kuitenkaan ole vielä osoitettu tekevän ratkaisevaa eroa missään sovelluksessa. On olemassa muutamia viimeaikaisia tuloksia, jotka osoittavat pieniä positiivisia vaikutuksia esimerkiksi konekääntämisessä, mutta WSD: n on myös osoitettu heikentävän suorituskykyä, kuten tunnetuissa tiedonhaun kokeissa.

tähän on useita mahdollisia syitä. Ensinnäkin sovelluksen merkitys rajoittaa usein sitä, kuinka monta aistia sanalla voi olla (esim.”jokipuolen” merkitystä ei odotettaisi rahoitussovelluksessa), joten sanastoja voidaan ja onsuunniteltu sen mukaisesti. Toiseksi WSD ei ehkä ole riittävän tarkka osoittamaan vaikutusta, ja lisäksi käytetty aistivarasto ei todennäköisesti vastaa sovelluksen vaatimia erityisiä aistieroja. Kolmanneksi WSD: n käsitteleminen erillisenä komponenttina tai modulina voi olla väärin, koska se saattaa olla tiiviimmin integroitu animplicit-prosessina (eli keskinäisenä disambiguaationa alla).

konekääntäminen

WSD: tä vaaditaan sanavalintaan MT: ssä sanoille, joiden käännökset eri aisteille ovat erilaiset. Esimerkiksi englantilais-ranskalaisessa talousuutisten Kääntäjässä Englannin substantiivimuutos voisi translatoida joko changement (’transformation’) tai monnaie (’pocketmoney’). Useimmat käännösjärjestelmät eivät kuitenkaan käytä erillistä WSD-Modulea. Lexicon on usein ennalta disambiguated tietyn verkkotunnuksen, tai käsityönä säännöt on laadittu, tai WSD on taitettu statisticaltranslation malli, jossa sanat on translated sisällä lauseita, jotka siten tarjoavat konteksti.

tiedonhaku

epäselvyydet on ratkaistava joissakin kyselyissä. Esimerkiksi kun otetaan huomioon ”masennus”, pitäisikö järjestelmän palauttaa asiakirjoja sairaudesta, sääjärjestelmistä tai taloudesta? Nykyiset IR-järjestelmät (kuten Web-hakukanavat), kuten MT, eivät käytä WSD-moduulia; he tukeutuvat kyselyssä käytettävään asiayhteyteen ja hakevat vain aiottuun merkitykseen liittyviä asiakirjoja (esim. ”trooppinen masennus”). Prosessissa, jota kutsutaan keskinäiseksi disambiguaatioksi, joka muistuttaa Leskimenetelmää (alla), kaikki monitulkintaiset sanat disambiguoidaan samassa dokumentissa esiintyvien intendedsenses-muunnosten perusteella.

tiedon louhinta ja tiedonhankinta

tiedon louhinta-ja tekstinlouhinta vaatii WSD: tä tekstin analysointiin monissa sovelluksissa. Esimerkiksi tiedustelutietojen keruujärjestelmä saattaa tarvita viittauksia esimerkiksi laittomiin huumeisiin eikä lääkeaineisiin. Bioinformatiikkatutkimus edellyttää, että geenien ja geenituotteiden väliset suhteet luetteloidaan laajasta tieteellisestä kirjallisuudesta.geeneillä ja niiden proteiineilla on kuitenkin usein sama nimi. Yleisemmin SemanticWeb edellyttää asiakirjojen automaattista merkintää areference ontologian mukaisesti. WSD: tä aletaan soveltaa vasta näillä aloilla.

menetelmät

WSD: hen on neljä konventionaalista lähestymistapaa:

sanakirja-ja tietopohjaiset menetelmät: nämä perustuvat ensisijaisesti sanakirjoihin, tesauruksiin ja sanastollisiin tietopohjiin ilman mitään corpus-todistusaineistoa.

valvotut menetelmät: nämä käyttävät sense-annotated corpora kouluttaa alkaen.

Puolivalvotut tai minimaalisesti valvotut menetelmät: näissä käytetään toissijaista tiedonlähdettä, kuten pientä huomautusta siemenaineistona bootstrapping-prosessissa tai sanalinjaista kaksikielistä korpusta.

Valvomattomat menetelmät: Nämä karttavat (lähes) täysin ulkopuolista tietoa ja toimivat suoraan raa ’ asta antamattomasta korpuksesta. Nämä menetelmät tunnetaan myös nimellä sanasyrjintä.

sanakirja-ja tietopohjaiset menetelmät

Leskin menetelmä (Lesk 1986) on sanakirjapohjainen menetelmä. Se perustuu olettamukseen, että tekstissä yhdessä käytetyt sanat liittyvät toisiinsa ja että suhde voidaan havaita sanojen ja niiden aistien määritelmissä. Kaksi (tai useampi) sanaa ondisambigalisoitu löytämällä sanakirjan aistipari, jonka suurin sana on päällekkäinen niiden sanakirjan määritelmissä. Esimerkiksi disambigisoitaessa sanoja inpine cone, sopivien aistien määritelmät sisältävät molemmat sananjyvergreen ja puu (ainakin yhdessä sanakirjassa).

vaihtoehtona määritelmien käytölle on tarkastella yleismerkitys-aistisidonnaisuutta ja laskea jokaisen sananaistin semanttinen samankaltaisuus tietyn sanallisen tietopohjan, kuten WordNetin, pohjalta. Tekoälytutkimuksen alkuaikojen levitysaktivaatiota muistuttavia graafisia menetelmiä on sovellettu melko menestyksekkäästi.

myös selektiivisten preferenssien (tai selektiorajoitusten) käyttö on hyödyllistä. Esimerkiksi tietäen, että yksi tyypillisesti kokkaa ruokaa, voi disambiguate sana basso olen ruoanlaitto basso (eli se ei ole soitin).

valvotut menetelmät

valvotut menetelmät perustuvat olettamukseen, että asiayhteys voi yksinään tarjota riittävästi todisteita sanojen sekoittamiseksi (näin ollen maailmantuntemus ja päättely katsotaan tarpeettomiksi). Luultavasti everymachine learning algorithm going on sovellettu WSD, includingassociated tekniikoita, kuten ominaisuus valinta, parametrioptimization, ja ensemble learning. Tukivektorikoneet ja muistiopohjainen oppiminen ovat osoittautuneet menestyksekkäimmiksi lähestymistavoiksi tähän mennessä, luultavasti siksi, että ne pystyvät selviytymään ominaisuustilan suuridimensiollisuudesta. Näihin valvottuihin menetelmiin kohdistuu kuitenkin Uusi tiedonhankinnan pullonkaula, sillä ne käyttävät koulutukseen huomattavia määriä käsin merkittyjä korporaatioita, joiden luominen on työlästä ja kallista.

Puoliohjatut menetelmät

bootstrapping-lähestymistapa alkaa pienestä määrästä kunkin sanan siementietoa: joko käsin merkittyjä harjoitusesimerkkejä tai pieni määrä varmoja päätössääntöjä (esim.basson yhteydessä soittaminen viittaa aina soittimeen). Siemeniä käytetäänkouluttaa ensimmäinen luokittelija, käyttäen mitä tahansa valvottua menetelmää. Tätä luokitusta käytetään sitten Corpuksen lyhentämättömässä osassa laajemman koulutussarjan laajentamiseksi, johon sisällytetään vain kaikkein luottamuksellisimmat luokitukset. Prosessi toistuu, jokainen uusi luokittelu koulutetaan peräkkäin suurempi koulutus corpus, kunnes thewhole corpus on kulutettu, tai kunnes tietty enimmäismäärä iteraatioita on saavutettu.

muissa puolivalvotuissa tekniikoissa käytetään suuria määriä aggedcorporaa, jotta saadaan samanaikaista tietoa, joka täydentää agged corpora-järjestelmää. Nämä tekniikat voivat auttaa valvottujen mallien mukauttamisessa eri aloille.

myös moniselitteinen sana toisessa kielessä käännetään usein eri sanoiksi toisessa kielessä riippuen sanan merkityksestä. Sanalinjaisia kaksikielisiä korporaatioita on käytetty Cross-lingual aisti-erotteluihin, eräänlaiseen puolivalvottuun järjestelmään.

Valvomattomat menetelmät

valvomaton oppiminen on suurin haaste WSD-tutkijoille. Perusoletus on, että samankaltaiset aistit esiintyvät samoissa yhteyksissä, ja näin aistit voidaan indusoida tekstistä käyttämällä sanaesiintymiä jollakin tavalla kontekstin samankaltaisuuden mittana. Sitten, uusia esiintymiä sanan voidaan luokitella lähimpänä inducedclusters / aisteja. Suorituskyky on ollut heikompi kuin muilla edellä mainituilla menetelmillä, mutta vertailu on vaikeaa, koska indusoidut aistit on kartoitettava tunnettuun sanasanakirjaan. Vaihtoehtoisesti voidaan suorittaa klusteripohjaisia arviointeja (mm.entropian ja puhtauden mittauksia), jos ei haluta kartoittaa sanakirjajoukkoa. Toiveena on, että valvomaton oppiminen voittaisi tiedonhankinnan pullonkaulan, koska se ei ole riippuvainen manuaalisista ponnisteluista.

arviointi

WSD-järjestelmien arviointi edellyttää, että testikorpus merkitään käsin kohdeaistilla tai oikeilla aisteilla, ja oletetaan, että tällainen korpus voidaan konstruoida. Käytössä on kaksi pääasiallista suorituskykymittaria:

tarkkuus: se murto-osa tehdyistä järjestelmätehtävistä, jotka ovat oikein
takaisinkutsu: systeemin

oikein määrittämien kokonaissanojen murto-osa Jos järjestelmä tekee jokaiselle sanalle tehtävän, niin tarkkuus ja recall ovat samat, ja sitä voidaan kutsua tarkkuudeksi. Tätä mallia on laajennettu ottamaan huomioon järjestelmät, jotka palauttavat joukon aisteja painojen kanssa jokaista tapahtumaa kohti.

koeporvareita on kahdenlaisia:

leksikaalinen näyte: kohdesanojen pienen otoksen esiintymät on disambigualisoitava, ja
All-words: kaikki juoksevan tekstin sanat on disambigualisoitava.

jälkimmäistä pidetään realistisempana arviointimuotona, mutta korpus on kalliimpi tuottaa, koska ihmisen huomautusten antajan on luettava jokaisen järjestysnumeron sanan määritelmät joka kerta, kun he tarvitsevat merkintätuomion, eikä vain kerran, kun kyseessä on saman kohdesananlohko. Yhteisten arviointitietojen ja-menettelyjen määrittelemiseksi on järjestetty julkisia arviointikampanjoita. Senseval on ajettu kolmesti: Senseval – 1 (1998), Senseval-2 (2001), Senseval-3 (2004) ja sen seuraaja SemEval (2007) kerran.

miksi WSD on kova?

tässä artikkelissa käsitellään WSD: n yleistä ja perinteistä luonnehtimista eksplisiittiseksi ja erilliseksi prosessiksi, joka käsittää sanan aistien kiinteän luettelon. Sanoissa oletetaan tyypillisesti olevan äärellinen ja diskreetti aistijoukko, joka on sananmerkityksen monimutkaisuuden räikeä yksinkertaistus, kuten leksikaalisessa semantiikassa on tutkittu.Vaikka tämä luonnehdinta on ollut hedelmällistä WSD: n tutkimukselle sinänsä, se on hieman ristiriidassa sen kanssa, mitä näyttää tarvittavan todellisissa sovelluksissa, kuten edellä on käsitelty.

WSD on vaikea monestakin syystä, joista tässä käsitellään kolmea.

aistivarasto ei voi olla tehtäväriippumaton

tehtäväriippumaton aistivarasto ei ole yhtenäinen käsite:jokainen tehtävä edellyttää omaa sanan merkityksen jakoa tehtävän kannalta merkityksellisiin aisteihin. Esimerkiksi hiiren(eläimen tai laitteen) moniselitteisyydellä ei ole merkitystä englantilais-ranskalaisessa machinetranslaatiossa, mutta sillä on merkitystä tiedonhaussa. Joen vastakohta, joka vaatii ranskankielisen valinnan (fleuve ’ flows into the sea ’tai rivière’flows into a river’).

erilaisia algoritmeja eri sovelluksille

eri sovellutukset saattavat vaatia täysin erilaisia algoritmeja. Konekääntämisessä ongelma muotoutuukohteeksi sanavalinta. Tässä ”aistit” ovat kohdekielen sanoja, jotka usein vastaavat merkittäviä merkityseroja lähdekielessä (pankki voisi kääntää ranskan banque’ Financial bank ’tai rive’edge of river’). Informationretrieval, aisti inventaario ei välttämättä tarvita, koska se on tarpeeksi tietää, että sana käytetään samassa merkityksessä queryja haettu asiakirja; mikä merkitys Se on, ei ole tärkeää.

sanan merkitys ei jakaudu diskreeteiksi aisteiksi

lopulta jo pelkkä ”sananaistin” käsite on liukas ja ristiriitainen. Useimmat ihmiset voivat sopia eroja karkearakeinen homograph tasolla (esim., kynä kirjoitusvälineenä tai kotelo), mutta mennä alas yksi taso tofine-rakeinen polysemia, ja erimielisyyksiä syntyy. Esimerkiksi Senseval-2: ssa, jossa käytettiin hienorakeisia aistieroja, humanannotaattorit olivat samaa mieltä vain 85 prosentissa sanaesiintymistä. Sanan merkitys on inprinciple portaattomasti muuttuva ja kontekstiherkkä. Se ei jakaudu helposti erillisiin tai erillisiin alimerkityksiin.Lexicographers usein löytää korpora löysä ja päällekkäinen sana merkityksiä, ja standardi tai sovinnaisia merkityksiä laajennettu, moduloitu, ja hyödynnetään hämmentävän eri tavoin. Sanastografian taito on yleistää korpuksesta määritelmiin, jotka kuvaavat ja selittävät Sanan koko merkitysalueen, jolloin vaikuttaa siltä, että sanat käyttäytyvät hyvin semanttisesti. Ei kuitenkaan ole lainkaan selvää, ovatko nämä samat merkityserot sovellettavissa epätäydellisissä sovelluksissa, koska sanakirjantekijöiden päätökset perustuvat yleensä muihin näkökohtiin.

ehdotettua lukemista

Bar-Hillel, Yehoshua. 1964. Kieli ja tiedot. New York: Addison-Wesley.

Edmonds, Philip & Adam Kilgarriff. 2002. Johdatus word sense disambiguation Systemsin arviointia koskevaan erityisnumeroon. Journal of Natural Language Engineering, 8(4): 279-291.

Ide, Nancy & Jean Véronis. 1998. Sana sense disambiguation: state of the art. Computational Linguistics, 24(1): 1-40.

Jurafsky, Daniel & James H. Martin. 2000. Puheen ja kielen käsittely. New Jersey, Yhdysvallat: Prentice Hall.

Lesk, Michael. 1986. Automatic sense disambiguation käyttämällä koneellisesti luettavia sanakirjoja: miten erottaa käpy jäätelötötteröstä. Proceedings of SIGDOC-86: 5th International Conference on Systems Documentation, Toronto, Kanada, 24-26.

Mihalcea, Rada. 2007. Sanavaisto disambiguaatio. Encyclopedia of Machine Learning. Springer-Verlag.

Schütze, Hinrich. 1998. Automaattinen sanavaisto syrjintää. Computational Linguistics, 24(1): 97-123.

Yarowsky, David. 1995. Valvomaton sanan sense disambiguation kilpaileva valvottuja menetelmiä. Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics, 189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps

sisäiset viitteet

Tomasz Downarowicz (2007) Entropia. Scholarpedia, 2(11): 3901.

Mark Aronoff (2007) Kieli. Stipendiaatti, 2(5): 3175.

Senseval website
SemEval website
WSD tutorial

Katso myös

kielitiede, luonnollisen kielen käsittely

sponsoroi: Prof. Ke CHEN, School of Computer Science, The University of Manchester, UK

arvostellut: anonyymi

arvostellut: Dr. Rada Mihalcea, University of North Texas

hyväksytty: 2008-05-23 17:13: 44 GMT