kuraattori: Eneko Agirre
Eugene M. Ižikevitš
Ke CHEN
Philip Edmonds
luonnollisessa kielenkäsittelyssä word sense disambiguation (WSD) on ongelma määrittää, mikä sanan ”sense” (merkitys) aktivoituu käyttämällä sanaa tietyssä asiayhteydessä, prosessi, joka näyttää olevan erittäin tiedostamaton ihmisillä. WSD on luonnollinen luokitteluongelma: kun sana ja sen mahdolliset aistit määritellään sanakirjassa, luokittelee sanan esiintymä asiayhteydessä yhteen tai useampaan sen aistikategoriaan. Asiayhteyden piirteet (kuten viereiset sanat)todistavat luokittelun.
kuuluisa esimerkki on kynän merkityksen selvittäminen seuraavassa kohdassa (Bar-Hillel 1960):
Pikku-John etsi lelulaatikkoaan. Lopulta hän löysi sen. Laatikko oli aitauksessa. John oli hyvin onnellinen.
WordNet listaa viisi aistia sanalle kynä:
- kynä-kirjoitusväline, jossa on piste, josta muste virtaa.
- aitaus karjan pitämistä varten.
- leikkikehä, kynä — kannettava kotelo, johon vauvat voidaan jättää leikkimään.
- kuritushuone, pen — rangaistuslaitos vakavista rikoksista tuomituille.
- kynäjoutsen.
tutkimus on edennyt tasaisesti siihen pisteeseen, että WSD-järjestelmätsaavuttavat johdonmukaisia tarkkuustasoja useilla eri sanatyypeillä ja-yhdistelmillä. On tutkittu runsaasti erilaisia tekniikoita sanakirjapohjaisista menetelmistä, joissa käytetään leksikaalisiin resursseihin koodattua tietoa, valvottuihin koneoppimismenetelmiin, joissa luokittaja koulutetaan jokaista erillistä sanaa varten käsin merkittyjen esimerkkien joukosta, täysin valvomattomiin menetelmiin, jotka ryhmittelevät sanojen esiintymiä ja vähentävät siten sanavaistoja. Näistä ohjatut oppimistavat ovat olleet tähän mennessä menestyksekkäimpiä algoritmeja.
Nykytarkkuutta on vaikea todeta ilman lukuisia varoituksia. Englannin kielessä karkearakeisen homografian (homograph) tarkkuus on rutiininomaisesti yli 90%, ja joillakin menetelmillä tietyissä homografioissa saavutetaan yli 96%. Hienorakeisemmista aistineroista on raportoitu viimeisimmissä arviointiharjoituksissa (SemEval-2007, Senseval-2) huipputarkkuudet 59,1%: sta 69,0%: iin, joissa yksinkertaisimman mahdollisen algoritmin tarkkuus valita aina tihein aisti oli 51,4% ja 57%.
- Sisällys
- historia
- Sovellukset
- WSD: n hyödyllisyys
- konekääntäminen
- tiedonhaku
- tiedon louhinta ja tiedonhankinta
- menetelmät
- sanakirja-ja tietopohjaiset menetelmät
- valvotut menetelmät
- Puoliohjatut menetelmät
- Valvomattomat menetelmät
- arviointi
- miksi WSD on kova?
- aistivarasto ei voi olla tehtäväriippumaton
- erilaisia algoritmeja eri sovelluksille
- sanan merkitys ei jakaudu diskreeteiksi aisteiksi
- Katso myös
Sisällys
- 1 Historia
- 2 hakemusta
- 2.1 WSD: n hyödyllisyys
- 2.2 konekääntäminen
- 2.3 Tiedonhaku
- 2.4 tiedonhankinta ja tiedonhankinta
- 3 menetelmät
- 3.1 sanakirja-ja tietopohjaiset menetelmät
- 3.2 valvotut menetelmät
- 3.3 Puolivalvotut menetelmät
- 3.4 Valvomattomat menetelmät
- 4 arviointi
- 5 Miksi WSD on kova?
- 5.1 a sense inventory ei voi olla tehtäväriippumaton
- 5.2 erilaiset algoritmit eri sovelluksille
- 5.3 sanan merkitys ei jakaudu erillisiin aisteihin
- 6 viitteet
- 7 Ulkoiset linkit
- 8 Katso myös
historia
WSD muotoiltiin ensimmäisen kerran erilliseksi laskennalliseksi tehtäväksi konekääntämisen vuosina 1940-luvulla, mikä tekee siitä yhden laskennallisen kielitieteen vaikeimmista ongelmista. Warren Weaver, hänen kuuluisa 1949 memorandum on translation, ensimmäinen esitteli ongelman laskennallinen yhteydessä. Varhaiset tutkijat ymmärtävät hyvin WSD: n merkityksen ja vaikeuden. Itse asiassa Bar-Hillel (1960) käytti edellä mainittua esimerkkiä väittääkseen, että WSD: tä ei voitu ratkaista ”elektronisella tietokoneella”, koska kaiken maailman tiedon mallintamisen tarve oli yleinen.
1970-luvulla WSD oli osa keinotekoisen älyn alalla kehitettyjä semanttisia tulkintajärjestelmiä, mutta koska WSD-järjestelmät olivat pitkälti sääntöpohjaisia ja käsikoodattuja, ne olivat alttiita tiedonhankinnan pullonkaulalle.
1980-luvulle tultaessa saatiin käyttöön laajamittaisia leader-aineistoja, kuten Oxford Advanced Learner ’ s Dictionary of Current English (OALD): käsikoodaus korvattiin näistä resursseista automaattisesti lisätyllä tiedolla, mutta disambiguaatio oli edelleen osaamiseen tai sanakirjapohjaista.
1990-luvulla tilastollinen vallankumous pyyhkäisi läpi computationallinguisticsin, ja WSD: stä tuli paradigman problemoni, joka soveltaa valvottuja koneoppimistekniikoita.
2000-luvulla valvotut tekniikat saavuttivat tasanteen tarkkuudessa,joten huomio on siirtynyt karkeampiin aisteihin, domainadaptaatioon, puolivalvottuihin ja valvomattomiin corpus-pohjaisiin järjestelmiin,eri menetelmien yhdistelmiin ja tietopohjaisten järjestelmien paluuseen graafisiin menetelmiin perustuvin menetelmin. Valvotut järjestelmät ovat kuitenkin edelleen parhaita.
Sovellukset
konekääntäminen on alkuperäinen ja ilmeisin sovellus forWSD: lle, mutta WSD on itse asiassa otettu huomioon lähes kaikissa kieliteknologian sovellutuksissa,mukaan lukien tiedonhaku, leksikografia, tiedon louhinta/hankinta ja semanttinen tulkinta.
WSD: n hyödyllisyys
ei ole epäilystäkään siitä, etteivätkö edellä mainitut sovellukset vaatisi ja käyttäisi sananjärjen disambiguaatiota muodossa tai toisessa. WSD erillisenä moduulina ei kuitenkaan ole vielä osoitettu tekevän ratkaisevaa eroa missään sovelluksessa. On olemassa muutamia viimeaikaisia tuloksia, jotka osoittavat pieniä positiivisia vaikutuksia esimerkiksi konekääntämisessä, mutta WSD: n on myös osoitettu heikentävän suorituskykyä, kuten tunnetuissa tiedonhaun kokeissa.
tähän on useita mahdollisia syitä. Ensinnäkin sovelluksen merkitys rajoittaa usein sitä, kuinka monta aistia sanalla voi olla (esim.”jokipuolen” merkitystä ei odotettaisi rahoitussovelluksessa), joten sanastoja voidaan ja onsuunniteltu sen mukaisesti. Toiseksi WSD ei ehkä ole riittävän tarkka osoittamaan vaikutusta, ja lisäksi käytetty aistivarasto ei todennäköisesti vastaa sovelluksen vaatimia erityisiä aistieroja. Kolmanneksi WSD: n käsitteleminen erillisenä komponenttina tai modulina voi olla väärin, koska se saattaa olla tiiviimmin integroitu animplicit-prosessina (eli keskinäisenä disambiguaationa alla).
konekääntäminen
WSD: tä vaaditaan sanavalintaan MT: ssä sanoille, joiden käännökset eri aisteille ovat erilaiset. Esimerkiksi englantilais-ranskalaisessa talousuutisten Kääntäjässä Englannin substantiivimuutos voisi translatoida joko changement (’transformation’) tai monnaie (’pocketmoney’). Useimmat käännösjärjestelmät eivät kuitenkaan käytä erillistä WSD-Modulea. Lexicon on usein ennalta disambiguated tietyn verkkotunnuksen, tai käsityönä säännöt on laadittu, tai WSD on taitettu statisticaltranslation malli, jossa sanat on translated sisällä lauseita, jotka siten tarjoavat konteksti.
tiedonhaku
epäselvyydet on ratkaistava joissakin kyselyissä. Esimerkiksi kun otetaan huomioon ”masennus”, pitäisikö järjestelmän palauttaa asiakirjoja sairaudesta, sääjärjestelmistä tai taloudesta? Nykyiset IR-järjestelmät (kuten Web-hakukanavat), kuten MT, eivät käytä WSD-moduulia; he tukeutuvat kyselyssä käytettävään asiayhteyteen ja hakevat vain aiottuun merkitykseen liittyviä asiakirjoja (esim. ”trooppinen masennus”). Prosessissa, jota kutsutaan keskinäiseksi disambiguaatioksi, joka muistuttaa Leskimenetelmää (alla), kaikki monitulkintaiset sanat disambiguoidaan samassa dokumentissa esiintyvien intendedsenses-muunnosten perusteella.
tiedon louhinta ja tiedonhankinta
tiedon louhinta-ja tekstinlouhinta vaatii WSD: tä tekstin analysointiin monissa sovelluksissa. Esimerkiksi tiedustelutietojen keruujärjestelmä saattaa tarvita viittauksia esimerkiksi laittomiin huumeisiin eikä lääkeaineisiin. Bioinformatiikkatutkimus edellyttää, että geenien ja geenituotteiden väliset suhteet luetteloidaan laajasta tieteellisestä kirjallisuudesta.geeneillä ja niiden proteiineilla on kuitenkin usein sama nimi. Yleisemmin SemanticWeb edellyttää asiakirjojen automaattista merkintää areference ontologian mukaisesti. WSD: tä aletaan soveltaa vasta näillä aloilla.
menetelmät
WSD: hen on neljä konventionaalista lähestymistapaa:
- sanakirja-ja tietopohjaiset menetelmät: nämä perustuvat ensisijaisesti sanakirjoihin, tesauruksiin ja sanastollisiin tietopohjiin ilman mitään corpus-todistusaineistoa.
- valvotut menetelmät: nämä käyttävät sense-annotated corpora kouluttaa alkaen.
- Puolivalvotut tai minimaalisesti valvotut menetelmät: näissä käytetään toissijaista tiedonlähdettä, kuten pientä huomautusta siemenaineistona bootstrapping-prosessissa tai sanalinjaista kaksikielistä korpusta.
- Valvomattomat menetelmät: Nämä karttavat (lähes) täysin ulkopuolista tietoa ja toimivat suoraan raa ’ asta antamattomasta korpuksesta. Nämä menetelmät tunnetaan myös nimellä sanasyrjintä.
sanakirja-ja tietopohjaiset menetelmät
Leskin menetelmä (Lesk 1986) on sanakirjapohjainen menetelmä. Se perustuu olettamukseen, että tekstissä yhdessä käytetyt sanat liittyvät toisiinsa ja että suhde voidaan havaita sanojen ja niiden aistien määritelmissä. Kaksi (tai useampi) sanaa ondisambigalisoitu löytämällä sanakirjan aistipari, jonka suurin sana on päällekkäinen niiden sanakirjan määritelmissä. Esimerkiksi disambigisoitaessa sanoja inpine cone, sopivien aistien määritelmät sisältävät molemmat sananjyvergreen ja puu (ainakin yhdessä sanakirjassa).
vaihtoehtona määritelmien käytölle on tarkastella yleismerkitys-aistisidonnaisuutta ja laskea jokaisen sananaistin semanttinen samankaltaisuus tietyn sanallisen tietopohjan, kuten WordNetin, pohjalta. Tekoälytutkimuksen alkuaikojen levitysaktivaatiota muistuttavia graafisia menetelmiä on sovellettu melko menestyksekkäästi.
myös selektiivisten preferenssien (tai selektiorajoitusten) käyttö on hyödyllistä. Esimerkiksi tietäen, että yksi tyypillisesti kokkaa ruokaa, voi disambiguate sana basso olen ruoanlaitto basso (eli se ei ole soitin).
valvotut menetelmät
valvotut menetelmät perustuvat olettamukseen, että asiayhteys voi yksinään tarjota riittävästi todisteita sanojen sekoittamiseksi (näin ollen maailmantuntemus ja päättely katsotaan tarpeettomiksi). Luultavasti everymachine learning algorithm going on sovellettu WSD, includingassociated tekniikoita, kuten ominaisuus valinta, parametrioptimization, ja ensemble learning. Tukivektorikoneet ja muistiopohjainen oppiminen ovat osoittautuneet menestyksekkäimmiksi lähestymistavoiksi tähän mennessä, luultavasti siksi, että ne pystyvät selviytymään ominaisuustilan suuridimensiollisuudesta. Näihin valvottuihin menetelmiin kohdistuu kuitenkin Uusi tiedonhankinnan pullonkaula, sillä ne käyttävät koulutukseen huomattavia määriä käsin merkittyjä korporaatioita, joiden luominen on työlästä ja kallista.
Puoliohjatut menetelmät
bootstrapping-lähestymistapa alkaa pienestä määrästä kunkin sanan siementietoa: joko käsin merkittyjä harjoitusesimerkkejä tai pieni määrä varmoja päätössääntöjä (esim.basson yhteydessä soittaminen viittaa aina soittimeen). Siemeniä käytetäänkouluttaa ensimmäinen luokittelija, käyttäen mitä tahansa valvottua menetelmää. Tätä luokitusta käytetään sitten Corpuksen lyhentämättömässä osassa laajemman koulutussarjan laajentamiseksi, johon sisällytetään vain kaikkein luottamuksellisimmat luokitukset. Prosessi toistuu, jokainen uusi luokittelu koulutetaan peräkkäin suurempi koulutus corpus, kunnes thewhole corpus on kulutettu, tai kunnes tietty enimmäismäärä iteraatioita on saavutettu.
muissa puolivalvotuissa tekniikoissa käytetään suuria määriä aggedcorporaa, jotta saadaan samanaikaista tietoa, joka täydentää agged corpora-järjestelmää. Nämä tekniikat voivat auttaa valvottujen mallien mukauttamisessa eri aloille.
myös moniselitteinen sana toisessa kielessä käännetään usein eri sanoiksi toisessa kielessä riippuen sanan merkityksestä. Sanalinjaisia kaksikielisiä korporaatioita on käytetty Cross-lingual aisti-erotteluihin, eräänlaiseen puolivalvottuun järjestelmään.
Valvomattomat menetelmät
valvomaton oppiminen on suurin haaste WSD-tutkijoille. Perusoletus on, että samankaltaiset aistit esiintyvät samoissa yhteyksissä, ja näin aistit voidaan indusoida tekstistä käyttämällä sanaesiintymiä jollakin tavalla kontekstin samankaltaisuuden mittana. Sitten, uusia esiintymiä sanan voidaan luokitella lähimpänä inducedclusters / aisteja. Suorituskyky on ollut heikompi kuin muilla edellä mainituilla menetelmillä, mutta vertailu on vaikeaa, koska indusoidut aistit on kartoitettava tunnettuun sanasanakirjaan. Vaihtoehtoisesti voidaan suorittaa klusteripohjaisia arviointeja (mm.entropian ja puhtauden mittauksia), jos ei haluta kartoittaa sanakirjajoukkoa. Toiveena on, että valvomaton oppiminen voittaisi tiedonhankinnan pullonkaulan, koska se ei ole riippuvainen manuaalisista ponnisteluista.
arviointi
WSD-järjestelmien arviointi edellyttää, että testikorpus merkitään käsin kohdeaistilla tai oikeilla aisteilla, ja oletetaan, että tällainen korpus voidaan konstruoida. Käytössä on kaksi pääasiallista suorituskykymittaria:
- tarkkuus: se murto-osa tehdyistä järjestelmätehtävistä, jotka ovat oikein
- takaisinkutsu: systeemin
oikein määrittämien kokonaissanojen murto-osa Jos järjestelmä tekee jokaiselle sanalle tehtävän, niin tarkkuus ja recall ovat samat, ja sitä voidaan kutsua tarkkuudeksi. Tätä mallia on laajennettu ottamaan huomioon järjestelmät, jotka palauttavat joukon aisteja painojen kanssa jokaista tapahtumaa kohti.
koeporvareita on kahdenlaisia:
- leksikaalinen näyte: kohdesanojen pienen otoksen esiintymät on disambigualisoitava, ja
- All-words: kaikki juoksevan tekstin sanat on disambigualisoitava.
jälkimmäistä pidetään realistisempana arviointimuotona, mutta korpus on kalliimpi tuottaa, koska ihmisen huomautusten antajan on luettava jokaisen järjestysnumeron sanan määritelmät joka kerta, kun he tarvitsevat merkintätuomion, eikä vain kerran, kun kyseessä on saman kohdesananlohko. Yhteisten arviointitietojen ja-menettelyjen määrittelemiseksi on järjestetty julkisia arviointikampanjoita. Senseval on ajettu kolmesti: Senseval – 1 (1998), Senseval-2 (2001), Senseval-3 (2004) ja sen seuraaja SemEval (2007) kerran.
miksi WSD on kova?
tässä artikkelissa käsitellään WSD: n yleistä ja perinteistä luonnehtimista eksplisiittiseksi ja erilliseksi prosessiksi, joka käsittää sanan aistien kiinteän luettelon. Sanoissa oletetaan tyypillisesti olevan äärellinen ja diskreetti aistijoukko, joka on sananmerkityksen monimutkaisuuden räikeä yksinkertaistus, kuten leksikaalisessa semantiikassa on tutkittu.Vaikka tämä luonnehdinta on ollut hedelmällistä WSD: n tutkimukselle sinänsä, se on hieman ristiriidassa sen kanssa, mitä näyttää tarvittavan todellisissa sovelluksissa, kuten edellä on käsitelty.
WSD on vaikea monestakin syystä, joista tässä käsitellään kolmea.
aistivarasto ei voi olla tehtäväriippumaton
tehtäväriippumaton aistivarasto ei ole yhtenäinen käsite:jokainen tehtävä edellyttää omaa sanan merkityksen jakoa tehtävän kannalta merkityksellisiin aisteihin. Esimerkiksi hiiren(eläimen tai laitteen) moniselitteisyydellä ei ole merkitystä englantilais-ranskalaisessa machinetranslaatiossa, mutta sillä on merkitystä tiedonhaussa. Joen vastakohta, joka vaatii ranskankielisen valinnan (fleuve ’ flows into the sea ’tai rivière’flows into a river’).
erilaisia algoritmeja eri sovelluksille
eri sovellutukset saattavat vaatia täysin erilaisia algoritmeja. Konekääntämisessä ongelma muotoutuukohteeksi sanavalinta. Tässä ”aistit” ovat kohdekielen sanoja, jotka usein vastaavat merkittäviä merkityseroja lähdekielessä (pankki voisi kääntää ranskan banque’ Financial bank ’tai rive’edge of river’). Informationretrieval, aisti inventaario ei välttämättä tarvita, koska se on tarpeeksi tietää, että sana käytetään samassa merkityksessä queryja haettu asiakirja; mikä merkitys Se on, ei ole tärkeää.
sanan merkitys ei jakaudu diskreeteiksi aisteiksi
lopulta jo pelkkä ”sananaistin” käsite on liukas ja ristiriitainen. Useimmat ihmiset voivat sopia eroja karkearakeinen homograph tasolla (esim., kynä kirjoitusvälineenä tai kotelo), mutta mennä alas yksi taso tofine-rakeinen polysemia, ja erimielisyyksiä syntyy. Esimerkiksi Senseval-2: ssa, jossa käytettiin hienorakeisia aistieroja, humanannotaattorit olivat samaa mieltä vain 85 prosentissa sanaesiintymistä. Sanan merkitys on inprinciple portaattomasti muuttuva ja kontekstiherkkä. Se ei jakaudu helposti erillisiin tai erillisiin alimerkityksiin.Lexicographers usein löytää korpora löysä ja päällekkäinen sana merkityksiä, ja standardi tai sovinnaisia merkityksiä laajennettu, moduloitu, ja hyödynnetään hämmentävän eri tavoin. Sanastografian taito on yleistää korpuksesta määritelmiin, jotka kuvaavat ja selittävät Sanan koko merkitysalueen, jolloin vaikuttaa siltä, että sanat käyttäytyvät hyvin semanttisesti. Ei kuitenkaan ole lainkaan selvää, ovatko nämä samat merkityserot sovellettavissa epätäydellisissä sovelluksissa, koska sanakirjantekijöiden päätökset perustuvat yleensä muihin näkökohtiin.
ehdotettua lukemista
- Bar-Hillel, Yehoshua. 1964. Kieli ja tiedot. New York: Addison-Wesley.
- Edmonds, Philip & Adam Kilgarriff. 2002. Johdatus word sense disambiguation Systemsin arviointia koskevaan erityisnumeroon. Journal of Natural Language Engineering, 8(4): 279-291.
- Ide, Nancy & Jean Véronis. 1998. Sana sense disambiguation: state of the art. Computational Linguistics, 24(1): 1-40.
- Jurafsky, Daniel & James H. Martin. 2000. Puheen ja kielen käsittely. New Jersey, Yhdysvallat: Prentice Hall.
- Lesk, Michael. 1986. Automatic sense disambiguation käyttämällä koneellisesti luettavia sanakirjoja: miten erottaa käpy jäätelötötteröstä. Proceedings of SIGDOC-86: 5th International Conference on Systems Documentation, Toronto, Kanada, 24-26.
- Mihalcea, Rada. 2007. Sanavaisto disambiguaatio. Encyclopedia of Machine Learning. Springer-Verlag.
- Schütze, Hinrich. 1998. Automaattinen sanavaisto syrjintää. Computational Linguistics, 24(1): 97-123.
- Yarowsky, David. 1995. Valvomaton sanan sense disambiguation kilpaileva valvottuja menetelmiä. Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics, 189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps
sisäiset viitteet
- Tomasz Downarowicz (2007) Entropia. Scholarpedia, 2(11): 3901.
- Mark Aronoff (2007) Kieli. Stipendiaatti, 2(5): 3175.
- Senseval website
- SemEval website
- WSD tutorial
Katso myös
kielitiede, luonnollisen kielen käsittely
sponsoroi: Prof. Ke CHEN, School of Computer Science, The University of Manchester, UK
arvostellut: anonyymi
arvostellut: Dr. Rada Mihalcea, University of North Texas
hyväksytty: 2008-05-23 17:13: 44 GMT