A szó értelme egyértelműsítése

publikáció utáni tevékenység

kurátor: Eneko Agirre

közreműködők:

0.50 –

Jevgenyij M. Izhikevics

0.25 –

Ke CHEN

0.25 –

Philip Edmonds

a természetes nyelvi feldolgozásban a szóérzék pontosítása (WSD) az a probléma, hogy meghatározzuk, hogy egy szó melyik “értelme” (jelentése) aktiválódik a szó egy adott kontextusban történő használatával, amely folyamat az emberekben nagymértékben öntudatlannak tűnik. A WSD egy természetes osztályozási probléma: adott szó és annak lehetséges érzékei, a szótár meghatározása szerint, a szó előfordulását a kontextusban egy vagy több érzékosztályába sorolja. A kontextus jellemzői (például a szomszédos szavak)bizonyítékot szolgáltatnak az osztályozáshoz.

híres példa a toll érzékének meghatározása a következő szakaszban (Bar-Hillel 1960):

kis John a játékdobozát kereste. Végül megtalálta. A doboz a tollban volt. John nagyon boldog volt.

a WordNet öt érzéket sorol fel a toll szóhoz:

toll — íróeszköz, amelynek pontja a tinta folyik.
toll — az állatállomány korlátozására szolgáló kamra.
járóka, toll — hordozható ház, amelyben a csecsemők játszhatnak.
büntetés — végrehajtási intézet, pen-javítóintézet a súlyos bűncselekmények miatt elítéltek számára.
toll — női hattyú.

a kutatások folyamatosan fejlődtek addig a pontig, hogy a WSD rendszerek konzisztens pontosságot érjenek el a különböző szótípusok és kétértelműségek tekintetében. Számos technikát kutattak, a szótáralapú módszerektől kezdve, amelyek a lexikai erőforrásokban kódolt tudást használják, a felügyelt gépi tanulási módszerekig, amelyekben az osztályozót minden egyes megkülönböztető szóra kiképzik a kézzel érzékelt jegyzetekkel ellátott példák korpuszán, a teljesen felügyelet nélküli módszerekig, amelyek a szavak előfordulásait csoportosítják, ezáltal szóérzékeket indítanak. Ezek között a felügyelt tanulási megközelítések voltak az eddigi legsikeresebb algoritmusok.

a jelenlegi pontosságot számos figyelmeztetés nélkül nehéz megállapítani. OnEnglish, a pontosság a durva szemcsés (homográf) szinten rutinszerűen meghaladja a 90% – ot, egyes módszerekkel az adott homográfokon 96% felett. A finomabb szemcsés érzékelési megkülönböztetések esetében a legutóbbi értékelési gyakorlatok (SemEval-2007, Senseval-2) 59,1% – ról 69,0% – ra számoltak be a legmagasabb pontosságról (SemEval-2007, Senseval-2), ahol a lehető legegyszerűbb algoritmus alappontossága, hogy mindig a leggyakoribb érzéket válasszák, 51,4%, illetve 57% volt.

Tartalomjegyzék
történelem
Alkalmazások
a WSD hasznossága
gépi fordítás
információkeresés
információ kinyerése és a tudás megszerzése
módszerek
Szótár – és tudásalapú módszerek
felügyelt módszerek
félig felügyelt módszerek
felügyelet nélküli módszerek
Evaluation
miért nehéz a WSD?
a sense inventory nem lehet feladatfüggetlen
különböző algoritmusok különböző alkalmazásokhoz
a szó jelentése nem oszlik diszkrét érzékekre
Lásd még

Tartalomjegyzék

1 előzmények
2 Alkalmazások
- 2.1 a WSD hasznossága
- 2.2 gépi fordítás
- 2,3 információszerzés
- 2,4 információ kinyerése és a tudás megszerzése
3 módszerek
- 3.1 Szótár-és tudásalapú módszerek
- 3.2 felügyelt módszerek
- 3.3 félig felügyelt módszerek
- 3.4 felügyelet nélküli módszerek
4 Értékelés
5 Miért nehéz a WSD?
- 5.1 a sense inventory nem lehet feladatfüggetlen
- 5.2 különböző algoritmusok különböző alkalmazásokhoz
- 5.3 A szó jelentése nem oszlik diszkrét érzékekre
6 referenciák
7 Külső hivatkozások
8 Lásd még

történelem

a WSD-t először a gépi fordítás korai napjaiban, az 1940-es években fogalmazták meg különálló számítási feladatként, ami a számítási nyelvészet egyik legrégebbi problémájává tette. Warren Weaver, híres 1949-es fordítási memorandumában először számítási kontextusban mutatta be a problémát. A korai kutatók jól megértették a WSD jelentőségét és nehézségét. Valójában Bar-Hillel (1960) a fenti példát arra használta, hogy azzal érveljen, hogy a WSD-t nem lehet “elektronikus számítógéppel” megoldaniáltalában szükség van az összes világismeret modellezésére.

az 1970-es években a WSD a mesterséges intelligencia területén kifejlesztett szemantikai értelmezési rendszerek részfeladata volt, de mivel a WSD rendszerek nagyrészt szabályalapú és kézi kódolásúak voltak, hajlamosak voltak a tudásszerzés szűk keresztmetszete.

az 1980-as évekre nagyszabású lexikai források, például az Oxford Advanced Learner ‘ s Dictionary of Current English (Oald) váltak elérhetővé: a kézi kódolást automatikusan felváltotta a tudásezekből az erőforrásokból kivonva, de a pontosítás még mindig tudásalapú vagy szótáralapú volt.

az 1990-es években a statisztikai forradalom végigsöpört a computationallinguistics-en, és a WSD paradigmaproblémává vált, amely a felügyelt gépi tanulási technikákat alkalmazta.

a 2000-es években a felügyelt technikák pontossága fennsíkot ért el,így a figyelem a durvább szemcsés érzékekre, a domainadaptációra, a félig felügyelt és felügyelet nélküli korpuszalapú rendszerekre,a különböző módszerek kombinációira és a tudásalapú rendszerek gráfalapú módszerekkel történő visszatérésére irányult. Mégis, a felügyelt rendszerek folytatódnaka legjobban teljesítenek.

Alkalmazások

a gépi fordítás az eredeti és legkézenfekvőbb alkalmazás a WSD számára, de a WSD-t a nyelvtechnológia szinte minden alkalmazásában figyelembe vették,beleértve az információkeresést, a lexikográfiát, a tudásbányászatot/ – gyűjtést és a szemantikai értelmezést, és egyre fontosabbá válik az olyan új kutatási területeken, mint a bioinformatika és a szemantikus Web.

a WSD hasznossága

kétségtelen, hogy a fenti alkalmazások megkövetelik és használják a szóérzék egyértelműsítésétegy vagy másik formában. A WSD mint külön modul azonban még nem bizonyítottdöntő különbség bármely alkalmazásban. Van néhány közelmúltbeli eredmény, amely kis pozitív hatásokat mutat például a gépi fordításban, de a WSD-ről is kimutatták, hogy árt a teljesítménynek, mint az információ-visszakeresés jól ismert kísérleteiben.

ennek számos lehetséges oka van. Először is, egy alkalmazás domainje gyakran korlátozza egy szó érzékeinek számát (pl., az ember nem számíthat arra, hogy a folyóparti bankérzetet pénzügyi alkalmazásban látja), ezért a lexikonokat ennek megfelelően lehet és kell is felépíteni. Másodszor, lehet, hogy a WSD még nem elég pontos ahhoz, hogy hatást mutasson, ráadásul a használt sense leltár valószínűleg megfelel az alkalmazás által megkövetelt specifikus sense megkülönböztetéseknek. Harmadszor, a WSD külön komponensként vagy modulként való kezelése téves lehet, mivel lehet, hogy szorosabban integrálni kell animplicit folyamatként (azaz kölcsönös pontosításként, lent).

gépi fordítás

a WSD szükséges a lexikális választáshoz az MT-ben olyan szavaknál, amelyek eltérő fordításokkal rendelkeznek a különböző érzékekhez. Például egy angol-francia pénzügyi hírfordítóban az angol főnévváltozás lefordíthatóváltás (‘átalakulás’) vagy monnaie (‘pocketmoney’). A legtöbb fordítási rendszer azonban nem használ külön Wsdmodult. A lexikont gyakran előre tisztázzák egy adott domainre, vagy kézzel készített szabályokat dolgoznak ki, vagy a WSD statisztikai fordítási modellbe van hajtva, ahol a szavakat olyan kifejezéseken belül fordítják le, amelyek ezáltal kontextust biztosítanak.

információkeresés

néhány lekérdezésben meg kell oldani a kétértelműséget. Például, tekintettel a “depresszióra”, vissza kell-e adnia a rendszernek a betegségről szóló dokumentumokat, időjárási rendszerek, vagy közgazdaságtan? A jelenlegi IR rendszerek (például a webes keresőmotorok), mint például az MT, nem használnak WSD modult; támaszkodnak a usertyping elég összefüggésben a lekérdezés csak letölteni dokumentumokat relevantto a tervezett értelemben (pl “trópusi depresszió”). A kölcsönös pontosításnak nevezett folyamatban, amely a Lesk-módszerre emlékeztet (lent), az összes kétértelmű szót az ugyanabban a dokumentumban egyidejűleg előforduló intendedsenses teszi egyértelművé.

információ kinyerése és a tudás megszerzése

az információ kinyerése és szöveg bányászat, WSD szükséges theaccurate elemzése szöveg sok alkalmazás. Például az anintelligence gyűjtőrendszernek esetleg fel kell tüntetnie a hivatkozásokat,mond, illegális drogok, nem pedig orvosi drogok. A bioinformatikai kutatások megkövetelik, hogy a gének és a géntermékek közötti összefüggéseket a hatalmas tudományos szakirodalomból katalogizálják; azonban a géneknek és fehérjéiknek gyakran ugyanaz a neve. Általánosabban, a Szemanticweb megköveteli a dokumentumok automatikus kommentálását az areference ontológia szerint. A WSD-t csak ezekben kezdik alkalmazniterületeken.

módszerek

a WSD-nek négy hagyományos megközelítése van:

Szótár – és tudásalapú módszerek: Ezek elsősorban szótárakra, tezauruszokra és lexikai tudásbázisokra támaszkodnak, korpusz bizonyíték nélkül.

felügyelt módszerek: Ezek értelemmel ellátott korpuszokat használnak a képzéshez.

félig felügyelt vagy minimálisan felügyelt módszerek: ezek másodlagos tudásforrást használnak, például egy kis annotált korpuszt magadatként egy bootstrapping folyamatban, vagy egy szóhoz igazított kétnyelvű korpusz.

felügyelet nélküli módszerek: Ezek kikerülnek (majdnem) teljesen külső információkat, és közvetlenül a nyers, nem jegyzett korpuszokból működnek. Ezek a módszerek a szó értelemben vett diszkrimináció néven is ismertek.

Szótár – és tudásalapú módszerek

a Lesk módszer (Lesk 1986) az alapvető szótár-alapú módszer. Ez azon a hipotézisen alapul, hogy a szövegben együtt használt szavak egymáshoz kapcsolódnak, és hogy a kapcsolat megfigyelhető a szavak és érzékeik meghatározásaiban. Két (vagy több) szó disambiguated megtalálásával a pár szótár érzékek then greatest szó átfedés a szótár definíciók. Például, amikor tisztázza a szavakatfenyő kúp, a megfelelő érzékek definíciói mind a szavakat tartalmazzákörökzöld és fa (legalább egy szótárban).

a definíciók használatának alternatívája az általánosszó-érzék összefüggés vizsgálata, valamint az egyes szópárok szemantikai hasonlóságának kiszámítása egy adott lexikai Tudásbázis, például a WordNet alapján. Az AI-kutatás korai napjainak terjesztésére emlékeztető gráfalapú módszereket alkalmaztak némi sikerrel.

a szelekciós preferenciák (vagy szelekciós korlátozások) használata szintén hasznos. Például, tudva, hogy az ember általában ételt főz, egyértelművé teheti a basszus szót a szakács szakácsban (azaz nem hangszer).

felügyelt módszerek

a felügyelt módszerek azon a feltételezésen alapulnak, hogy a kontextus önmagában elegendő bizonyítékot tud szolgáltatni a szavak egyértelműsítéséhez (ezért a világismeret és az érvelés szükségtelennek tekinthető). Valószínűleg az everymachine learning algoritmust alkalmazták a WSD-re, beleértve az olyan kapcsolódó technikákat, mint a funkcióválasztás, a paraméteroptimalizálás és az együttes tanulás. Támogatás vektor gépek ésmemória-alapú tanulás kimutatták, hogy a legsikeresebb megközelítések, a mai napig, valószínűleg azért, mert képes megbirkózni a nagy dimenziójú a funkció tér. Ezek a felügyelt módszerek azonban új tudásszerzési szűk keresztmetszetnek vannak kitéve, mivel a képzéshez jelentős mennyiségű, kézzel érzékelt címkével ellátott korpuszra támaszkodnak, amelyek létrehozása fáradságos és drága.

félig felügyelt módszerek

a bootstrapping megközelítés minden szó kis mennyiségű magadatából indul ki: vagy kézzel címkézett képzési példák, vagy egy kis számbiztos döntési szabályok (pl. a basszus kontextusában játszani szinte mindig jelzi a hangszert). A magokat használjákegy kezdeti osztályozó kiképzése bármilyen felügyelt módszerrel. Ezt a besorolást ezután a korpusz címkézetlen részén használják egy nagyobb edzőkészlet kivonására, amelyben csak a legbizalmasabb osztályozások szerepelnek. A folyamat megismétlődik, minden új osztályozót egymás után nagyobb képzési korpuszon képeznek ki, amíg az egész korpusz el nem fogy, vagy amíg el nem érik az adott iterációk maximális számát.

más félig felügyelt technikák nagy mennyiségű címkézetlen corpora-t használnak az együttes előfordulási információk biztosítására, amelyek kiegészítik a címkézett korpuszokat. Ezek a technikák segíthetnek a felügyelt modellek adaptálásában a különböző területekhez.

ezenkívül az egyik nyelven kétértelmű szót gyakran lefordítják egy másik nyelv különböző szavaira, a szó értelmétől függően. Szóhoz igazított kétnyelvű korpuszokat használtak a nyelvek közötti megkülönböztetések infercross-lingvális érzékelésére, egyfajta félig felügyelt rendszer.

felügyelet nélküli módszerek

a felügyelet nélküli tanulás a legnagyobb kihívás a WSDresearchers számára. Az alapul szolgáló feltételezés az, hogy hasonló érzékek fordulnak előhasonló összefüggésekben, így az érzékeket a szövegből indukálhatjuk a szó előfordulásainak klaszterezésével a szöveg hasonlóságának bizonyos mértékével. Ezután a szó új előfordulása a legközelebbi indukáltba sorolható clusters / érzékek. A teljesítmény alacsonyabb volt, mint más módszerek,felett, de az összehasonlítás nehéz, mivel az indukált érzékeket fel kell térképezni a word senses ismert szótárához. Alternatív megoldásként, ha a szótári érzékek halmazához való leképezés nem kívánatos, klaszter alapú értékelések (beleértve az entrópia és a tisztaság mérését is) elvégezhetők. Remélte, hogy a felügyelet nélküli tanulás legyőzi a tudás megszerzésének szűk keresztmetszetét, mert nem függenek a kézi erőfeszítéstől.

Evaluation

a WSD rendszerek kiértékeléséhez szükség van egy teszttestre, amelyet a cél vagy a helyes érzékszervek kézzel megjegyeznek, és feltételezi, hogy egy ilyen korpusz felépíthető. Két fő teljesítménymérőt alkalmaznak:

pontosság: a töredéke rendszer hozzárendelések készült, hogy helyes
visszahívás: a rendszer által helyesen hozzárendelt összes szópéldány töredéke

ha egy rendszer minden szóhoz hozzárendelést végez, akkor a pontosság és a visszahívás azonos, és pontosságnak nevezhető. Ez a modell voltkiterjesztették, hogy figyelembe vegyék azokat a rendszereket, amelyek visszaadják az érzékek egy sorátsúlyok minden előforduláshoz.

kétféle teszt corpora létezik:

lexikális minta: a célszavak kis mintájának előfordulásait egyértelművé kell tenni, és
All-words: a futó szöveg egy darabjának minden szavát egyértelművé kell tenni.

ez utóbbit reálisabb értékelési formának tekintik, de a corpus előállítása drágább, mert az emberi jegyzetelőknek minden alkalommal el kell olvasniuk a sorozat minden egyes szavának definícióit, nem pedig egyszer ugyanazon célszó eseteinek blokkjára. A közös értékelési adatkészletek és eljárások meghatározása érdekében nyilvános értékelési kampányokat szerveztek. A Senseval három alkalommal futott: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), utódja, SemEval (2007) egyszer.

miért nehéz a WSD?

ez a cikk a WSD általános és hagyományos jellemzését tárgyalja, mint egy explicit és különálló diszambiguációs folyamatot a szóérzékek rögzített leltárával kapcsolatban. A szavakról általában azt feltételezik, hogy véges és diszkrét érzékszervekkel rendelkeznek, ami a szó jelentésének összetettségének durva egyszerűsítése, amint azt a lexikai szemantika tanulmányozza.Bár ez a jellemzés önmagában gyümölcsöző volt a WSD kutatásában, némileg ellentmond annak, amire a valós alkalmazásokban szükség van, amint azt fentebb tárgyaltuk.

a WSD sok okból nehéz, amelyek közül hármat itt tárgyalunk.

a sense inventory nem lehet feladatfüggetlen

a task-independent sense inventory nem koherens fogalom:minden feladat megköveteli a szó jelentésének saját felosztását a feladat szempontjából releváns érzékekre. Például az egér(állat vagy eszköz) kétértelműsége nem releváns az angol-francia gépbenfordítás, de releváns az információ visszakeresésében. Az ellenkező a folyó igaza, amely francia nyelvű választást igényel (fleuve’ a tengerbe folyik’, vagy a Riviera’folyóba folyik’).

különböző algoritmusok különböző alkalmazásokhoz

teljesen különböző algoritmusokat igényelhetnek a különböző alkalmazások. A gépi fordításban a probléma formájacélszavak kiválasztása. Itt az “érzékek” a célnyelvben szereplő szavak, amelyek gyakran megfelelnek a forrásnyelv jelentős jelentésbeli különbségeinek (a bank lefordíthatja franciára banque’ pénzügyi bank ‘vagy rive’folyó széle’). Ban ben informationretrieval, a értelemben vett leltár nem feltétlenül szükséges, mert ezelég tudni, hogy egy szót ugyanabban az értelemben használnak a lekérdezésés egy letöltött dokumentum; milyen értelemben ez nem fontos.

a szó jelentése nem oszlik diszkrét érzékekre

végül a “szó értelme” fogalma csúszós ésellentmondásos. A legtöbb ember egyetért a megkülönböztetésekben a durva szemcsés homográf szintjén (pl. toll mint íróeszköz vagy burkolat), de egy szinttel lejjebb megyfinomszemcsés poliszémia, és nézeteltérések merülnek fel. Például a Senseval-2-ben, amelyfinom szemcsés értelemben vett megkülönböztetéseket használt, az embera jegyzők csak a szó előfordulásainak 85% – ában állapodtak meg. A szó jelentése alapvetően végtelenül változó és kontextusérzékeny. Nem osztható fel könnyen különálló vagy diszkrét részjelentésekre.A lexikográfusok gyakran fedezik fel a korpuszokban a laza és átfedő szavak jelentését,valamint a standard vagy hagyományos jelentéseket, amelyeket kiterjesztettek, moduláltak és zavarba ejtő módon használnak fel. A lexikográfia művészete az, hogy általánosítsunk a korpusztól a definíciókig, amelyek egy szó teljes jelentését megmagyarázzák, így úgy tűnik, hogy a szavak szemantikailag jól viselkednek. Egyáltalán nem világos azonban, hogy ugyanezek a jelentésbeli megkülönböztetések alkalmazhatók-e kölcsönös alkalmazásokban, mivel a lexikográfusok döntéseit általában más megfontolások vezérlik.

javasolt olvasás

Bar-Hillel, Yehoshua. 1964. Nyelv és információ. New York: Addison-Wesley.

Edmonds, Philip & Adam Kilgarriff. 2002. Bevezetés a szóérzék egyértelműsítési rendszereinek értékeléséről szóló különkiadásba. Természetes Nyelvmérnöki folyóirat, 8(4): 279-291.

Ide, Nancy & Jean Kontra Enterpronis. 1998. A szó értelme egyértelműsítése: a technika állása. Számítási Nyelvészet, 24(1): 1-40.

Jurafsky, Daniel & James H. Martin. 2000. Beszéd-és nyelvfeldolgozás. New Jersey, USA: Prentice Hall.

Lesk, Michael. 1986. Automatikus értelemben egyértelműsítés géppel olvasható szótárak segítségével: hogyan lehet megkülönböztetni a fenyőtobozt a fagylaltkúptól. A SIGDOC közleményei-86: 5.Nemzetközi Konferencia a Rendszerdokumentációról, Toronto, Kanada, 24-26.

Mihalcea, Rada. 2007. A szó értelme egyértelműsítése. A gépi tanulás enciklopédiája. Springer-Verlag.

Schjubtze, Hinrich. 1998. Automatikus szó értelemben diszkrimináció. Számítási Nyelvészet, 24 (1): 97-123.

Yarowsky, David. 1995. Felügyelet nélküli szóérzék egyértelműsítése a felügyelt módszerekkel vetekszik. A számítástechnikai nyelvészeti Szövetség 33. éves ülésének anyagai, 189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps

belső hivatkozások

Tomasz Downarowicz (2007) entrópia. Scholarpedia, 2(11): 3901.

Mark Aronoff (2007) Nyelv. Scholarpedia, 2(5): 3175.

Senseval weboldal
SemEval weboldal
WSD bemutató

Lásd még

nyelvészet, természetes nyelvfeldolgozás

szponzorálta: Prof. Ke CHEN, School of Computer Science, A University of Manchester, Egyesült Királyság

értékelte: névtelen

értékelte:: Dr. Rada Mihalcea, Észak-Texasi Egyetem

elfogadva: 2008-05-23 17:13:44 GMT