Kurátor: Eneko Agirre
Eugene M. Izhikevich
Ke CHEN
Filip Edmonds
V zpracování přirozeného jazyka, aplikace word sense disambiguation (WSD) je problém určit, který „smysl“ (význam) slova je aktivován useof slovo v určitém kontextu, což je proces, který se zdá belargely v bezvědomí u lidí. WSD je problém přirozené klasifikace: dané slovo a jeho možné smysly, jak je definováno slovníkem, klasifikovat výskyt slova v kontextu do jedné nebo více jeho senseclasses. Vlastnosti kontextu (například sousední slova) poskytují důkaz pro klasifikaci.
slavným příkladem je určení smyslu pera vnásledující Pasáž (Bar-Hillel 1960):
Malý John hledal svou hračku. Nakonec ho našel. Krabice byla v Peru. John byl velmi šťastný.
WordNet uvádí pět smyslů pro slovo pero:
- pen-psací nástroj s bodem, ze kterého teče inkoust.
- pen-výběh pro omezování hospodářských zvířat.
- ohrádka, pero-přenosný kryt, ve kterém mohou být děti ponechány na hraní.
- penitenciary, pen-nápravná instituce pro odsouzené za závažné trestné činy.
- pero-labuť samičí.
výzkum postupoval stabilně do bodu, kdy systémy WSD dosahovaly konzistentní úrovně přesnosti na různých typech slov a nejednoznačnosti. Bohatá paleta oftechniques byly prozkoumány, z slovník-metody založené na thatuse znalosti zakódované v lexikální prostředky, aby supervisedmachine metody učení, ve které klasifikátor je trénován pro každý distinctword na korpus ručně smyslu-komentovaný příklady,zcela bez dozoru metody, které clusteru výskytů slov, therebyinducing slovo smysly. Mezi nimi, přístupy k učení pod dohledem byly dosud nejúspěšnějšími algoritmy.
přesnost proudu je obtížné uvést bez řady upozornění. OnEnglish, přesnost na hrubozrnné (k danému lexému) úrovni je běžně nad 90%, tedy s nějakými jednoduchými metodami na konkrétní homographs dosažení více než 96%. Na jemnější pocit rozdíly, nejvyšší přesnost z 59,1% 69.0% výsledky v posledních vyhodnocení cvičení (SemEval-2007, Senseval-2), kde dozákladní přesnost nejjednodušší algoritmus vždy výběr těch nejvíce časté smysl byl 51,4% a 57%, resp.
- Obsah
- Historie
- Aplikace
- nástroj WSD
- strojový překlad
- vyhledávání informací
- extrakce Informací a získávání znalostí
- metody
- metody založené na slovníku a znalostech
- pod Dohledem metody
- Semi-pod dohledem metody
- bez dozoru metody
- Hodnocení
- proč je WSD těžké?
- smysl zásob nemůže být úkolem-nezávislé
- různé algoritmy pro různé aplikace
- význam slova se nerozděluje na diskrétní smysly
- Viz také
Obsah
- 1 Historie
- 2 Aplikace
- 2.1 nástroj WSD
- 2.2 strojový překlad
- 2.3 získávání Informací
- 2.4 extrakce Informací a získávání znalostí
- 3 Metody
- 3.1 Slovník a znalosti-metody založené na
- 3.2 pod Dohledem metody
- 3.3 Semi-pod dohledem metody
- 3.4 metody bez Dozoru
- 4 Hodnocení
- 5 Proč je WSD těžké?
- 5.1 inventář sense nemůže být nezávislý na úloze
- 5.2 různé algoritmy pro různé aplikace
- 5.3 Slova smyslu není rozdělit do jednotlivých smyslů
- 6 Odkazy
- 7 Externí odkazy
- 8 Viz také
Historie
WSD byla poprvé formulována jako konkrétní výpočetní úlohy během theearly dnů strojového překladu v roce 1940, což je jeden z theoldest problémy ve výpočetní lingvistice. Warren Weaver ve svém slavném memorandu o překladu z roku 1949 poprvé představil problém ve výpočetním kontextu. Rané výzkumnícipochopil dobře význam a obtížnost WSD. Ve skutečnosti Bar-Hillel (1960) použil výše uvedený příklad k tvrzení, že WSD nelze vyřešit „elektronickým počítačem“ kvůlipotřeba obecně modelovat všechny světové znalosti.
V roce 1970, WSD byl dílčí úkol z semanticinterpretation systémy vyvinuté v oblasti artificialintelligence, ale protože WSD systémy byly do značné míry pravidlo-založené andhand-kódované byli náchylní k získávání znalostí překážkou.
od 1980 rozsáhlých lexikálních zdrojů, jako je Oxford Advanced Learner ‚ s Dictionary of Current English (OALD), se stalk dispozici: ruční kódování bylo nahrazeno znalostmi automaticky získanými z těchto zdrojů, ale disambiguace byla stále založena na znalostech nebo na slovníku.
v 1990s, statistická revoluce zametl přes computationallingvistics, a WSD se stal paradigma problemon, který aplikovat řízené techniky strojového učení.
2000s viděl pod dohledem techniky dosažení plató v přesnosti,a tak se pozornost přesunula na hrubší zrnitá smysly, domainadaptation, semi-pod dohledem a bez dohledu corpus-based systémy,kombinace různých metod, a návrat znalosti-basedsystems prostřednictvím graph-based metody. I tak jsou ale systémy nadále nejlepší.
Aplikace
strojový překlad je původní a nejvíce zřejmý aplikace forWSD ale WSD byl považován za téměř každá aplikace jazykových technologií, včetně získávání informací,lexikografie, znalosti těžba/získávání a sémantické interpretace, andis stává stále důležitější v nových výzkumných oblastech, jako asbioinformatics a Sémantický Web.
nástroj WSD
není pochyb o tom, že výše uvedené aplikace vyžadují a použít slovo smysl disambiguationin té či oné podobě. WSD jako samostatný modul však dosud nebylo ukázánorozhodující rozdíl v jakékoli aplikaci. Existuje několik posledních resultsthat show malý pozitivní účinky, například, strojový překlad, ale WSD bylo také prokázáno, že výkon, jako je tomu v případě no-knownexperiments v získávání informací.
existuje několik možných důvodů. Za prvé, doména aplikace často omezuje počet smyslů, které slovo může mít (např., člověk by neočekával, že ve finanční aplikaci bude vidět smysl banky „river side“), a tak lexikony mohou a podle toho mohou být konstruovány. Za druhé, WSD nemusí být přesné enoughyet ukázat vliv a navíc pocit, soupis použité isunlikely, aby odpovídala konkrétní smysl rozlišování požadované aplikace. Za třetí, zacházení s WSD jako samostatnou komponentou nebo modulemmůže být zavádějící, protože by mohlo být těsněji integrováno jako animplicit proces (tj. jako vzájemná disambiguace, níže).
strojový překlad
WSD je nutné pro lexikální výběr v MT pro slova, která mají differenttranslations pro různé smysly. Například v Anglicko-francouzském překladateli finančních zpráv by změna anglického podstatného jména mohla překládat buď změnu („transformace“), nebo monnaie („pocketmoney“). Většina překladových systémů však nepoužívá samostatný Wsdmodul. Lexikon je často pre-disambiguated pro danou doménu,nebo ručně řemeslně-pravidla jsou vypracována, nebo WSD je složit do statisticaltranslation model, kde slova jsou přeložen do vět, které tím poskytnout kontext.
vyhledávání informací
nejednoznačnost musí být v některých dotazech vyřešena. Například vzhledem k „depresi“ by měl systém vracet dokumenty o nemoci, meteorologických systémech nebo ekonomice? Současné IR systémy (například web searchengines), jako je MT, nepoužívají modul WSD; spoléhají na to, že uživatel v dotazu zadá dostatečný kontext, aby pouze načetl dokumenty relevantní pro zamýšlený smysl (např. „tropická deprese“). V processcalled vzájemné rozlišování, připomínající J. metoda (viz níže),všechny nejednoznačné slova jsou disambiguated na základě intendedsenses co-se vyskytujících ve stejném dokumentu.
extrakce Informací a získávání znalostí
V extrakci informací a text mining, WSD je nutné pro theaccurate analýzy textu v mnoha aplikacích. Například, systém shromažďování anintelligence by mohl potřebovat označit odkazy na, říci, nelegální drogy, spíše než léky na léky. Bioinformaticsresearch vyžaduje, aby vztahy mezi geny a genové produkty tobe katalogizovány z rozsáhlé vědecké literatury; nicméně, geny a proteiny často mají stejný název. Obecněji, sémantický web vyžaduje automatickou anotaci dokumentů podle ontologie areference. WSD se v těchto oblastech teprve začínáoblasti.
metody
existují čtyři konvenční přístupy k WSD:
- metody založené na slovníku a znalostech: tyto se opírají především o slovníky, tezaury a lexikální znalostní báze bez použití jakýchkoli korpusových důkazů.
- metody pod dohledem: tyto využívají korpusy s poznámkami, ze kterých se cvičí.
- Semi-pod dohledem, nebo minimálně pod dohledem metody: Tyto využít sekundární zdroje znalostí, jako jsou malé anotovaného korpusu jako osivo dat v bootstrapping proces, nebo slovo zarovnaný dvojjazyčného korpusu.
- metody bez dozoru: Tyto informace se vyhýbají (téměř) zcela externím informacím a pracují přímo ze surových neoznámených korpusů. Tyto metody jsou také známé pod názvem diskriminace ve smyslu slova.
metody založené na slovníku a znalostech
metoda Lesk (Lesk 1986) je klíčová metoda založená na slovníku. Je založen na hypotéze, že slova používaná společně v textu jsouvzájemně propojená a že vztah lze pozorovat vdefinice slov a jejich smyslů. Dvě (nebo více) slova aredisambiguated tím, že najde dvojici slovníkových smyslů s největším překrytím slov v jejich definicích slovníku. Například při disambiguaci slov vborovice kužel, definice příslušných smyslů zahrnují jak slovavergreen, tak strom (alespoň v jednom slovníku).
alternativa k používání definic je, aby zvážila generalword-pocit příbuznosti a pro výpočet sémantické podobnosti eachpair slovo smysly na základě dané lexikální znalosti-základní, jako asWordNet. Metody založené na grafech připomínající šíření-aktivacevýzkum prvních dnů výzkumu AI byl aplikován s určitým úspěchem.
použití selektivních preferencí (nebo selektivních omezení) je také užitečné. Například, s vědomím, že člověk obvykle vaří jídlo, jeden může disambiguate slovo bass v I am cooking bass (tj., není to hudební nástroj).
pod Dohledem metody
pod Dohledem metody jsou založeny na předpokladu, že kontext může poskytnout dostatek důkazů na jeho vlastní disambiguate slova (tedy, worldknowledge a uvažování jsou považovány za zbytečné). Pravděpodobně everymachine learning algoritmus going byl aplikován na WSD, includingassociated techniky, jako je výběr funkcí, parameroptimization, a ensemble learning. Podpůrné vektorové stroje a učení založené na paměti se ukázaly jako nejúspěšnější přístupy, pravděpodobně proto, že se dokážou vyrovnat s vysokou dimenzí prostoru funkcí. Nicméně, tyto supervisedmethods jsou předmětem nového získávání znalostí zúžení protože spoléhat na značné množství ruční smyslu-tagged korpusy pro školení, které arelaborious a drahé vytvořit.
Semi-pod dohledem metody
bootstrapping přístup vychází z malého množství osiva dat foreach slovo: a to buď ručně-označené příklady školení nebo malý počet surefire rozhodovací pravidla (např. hrát v rámci bassalmost vždy označuje hudební nástroj). Semena se používajívlak počátečního klasifikátoru pomocí jakékoli kontrolované metody. Thisclassifier se pak používá na neoznačené části korpusu k extrakci větší tréninkové sady, ve které jsou zahrnuty pouze nejdůvěryhodnější klasifikace. Proces se opakuje, každý nový klasifikátor je trénován na postupně větším tréninkovém korpusu, dokud není spotřebován celý korpus, nebo dokud nedosáhne daného maximálního počtu iterací.
jiné techniky pod dohledem používají velké množství neoznačených korpusů k poskytnutí informací o společném výskytu, které doplňují označené korpusy. Tyto techniky mají potenciál pomoci vpřizpůsobení dohlížených modelů různým doménám.
také nejednoznačné slovo v jednom jazyce je často přeloženo narůzné slova ve druhém jazyce v závislosti na smyslu slova. Slovo zarovnaný dvojjazyčné korpusy byly použity k infercross-kulturní smysl rozdíly, druh semi-pod dohledem systému.
bez dozoru metody
bez dozoru učení je největší výzvou pro Wsdresearch. Základním předpokladem je, že podobné smysly se vyskytují v podobných kontextech, a proto mohou být smysly indukovány z textu pomocí vytržení slovních výskytů pomocí určité míry podobnosti kontextu. Poté lze nové výskyty slova klasifikovat do nejbližších indukovaných klubů / smyslů. Výkon byl nižší než u jiných metod, výše, ale srovnání je obtížné, protože indukované smysly musí být mapovány do známého slovníku slovních smyslů. Alternativně, pokud mapování na sadu slovníkových smyslů není žádoucí, lze provést hodnocení založená na klastrech (včetněměření entropie a čistoty). Předpokládá se, že bez dozoru učení překoná znalostiakviziční překážku, protože nejsou závislé na manuálníúsilí.
Hodnocení
hodnocení WSD systémů vyžaduje test corpus ruku-annotatedwith cíl nebo správné smysly, a předpokládá, že takový korpus může postavena. Používají se dvě hlavní výkonnostní opatření:
- přesnost: zlomek provedených systémových přiřazení, které jsou správné
- Recall: zlomek celkových instancí slov správně přiřazen systémem
pokud systém provede přiřazení pro každé slovo, pak přesnost a volání jsou stejné a lze je nazvat přesností. Tento model byl rozšířen tak, aby zohledňoval systémy, které vracejí sadu smyslů váhou pro každý výskyt.
Existují dva druhy test korpusy:
- Lexikální vzorek: výskyty malém vzorku cílové slova musí být disambiguated, a
- -slova: všechna slova v kuse běžící text musí být disambiguated.
Ta je považována za realističtější podobě hodnocení, ale thecorpus je dražší na výrobu, protože lidské annotatorshave číst definice pro každé slovo v pořadí každý timethey třeba, aby se značkování úsudek, spíše než jednou za blok ofinstances pro stejné cílové slovo. Za účelem definování společných hodnotících souborů a postupů byly organizovány veřejné evaluační kampaně. Senseval byl spuštěn třikrát: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), a jeho nástupce, SemEval (2007), jednou.
proč je WSD těžké?
tento článek pojednává o společné a tradiční charakterizaci WSD jako explicitní a samostatný proces disambiguace s ohledem na pevný soupis slovních smyslů. Obvykle se předpokládá, že slova mají konečnou a diskrétní sadu smyslů, grosssimplifikace složitosti významu slova, jak je studováno v lexikální sémantice.I když tato charakterizace byla plodná pro výzkum WSD sama o sobě, je to poněkud v rozporu s tím, co se zdá být potřebné v reálných aplikacích, jak je uvedeno výše.
WSD je těžké z mnoha důvodů, z nichž tři jsou zde diskutovány.
smysl zásob nemůže být úkolem-nezávislé
úkol-nezávislé smysl zásob není ucelený koncept:každý úkol vyžaduje vlastní rozdělení slova smyslu do sensesrelevant k úkolu. Například nejednoznačnost myši (zvířete nebo zařízení) není relevantní v Anglicko-francouzském strojovém překladu, ale je relevantní při získávání informací. Naproti je řeka, která vyžaduje výběr ve francouzštině (fleuve „teče do moře“ nebo rivière „teče do řeky“).
různé algoritmy pro různé aplikace
různé aplikace mohou vyžadovat zcela odlišné algoritmy. Ve strojovém překladu má problém podobuzískat výběr slov. Zde „smysly“ jsou slova v targetlanguage, které často odpovídají značný význam distinctionsin zdrojový jazyk (banka by mohla přeložit do francouzské banque’financial banky nebo rive okraje řeky‘). V informationretrieval, smyslový soupis není nutně vyžadován, protože itis stačí vědět, že slovo je použito ve stejném smyslu v dotazua načtený dokument; jaký smysl to je, je nedůležité.
význam slova se nerozděluje na diskrétní smysly
konečně samotný pojem „smysl slova“ je kluzký akontroverzní. Většina lidí se může shodnout v rozdílech na hrubozrnné homografické úrovni (např. pero jako psací nástroj nebo skříň), ale jít dolů o jednu úroveň na jemnozrnnou polysémii a vzniknou neshody. Například v Senseval-2, který používal jemnozrnné smyslové rozdíly, se humanannotátoři shodli pouze v 85% výskytů slov. Význam slova je vprincip nekonečně variabilní a kontextově citlivý. Nerozděluje se snadno do odlišných nebo diskrétních podvýznamů.Lexicographers často najít v korpusech volné a overlappingword významy, a standardní nebo konvenční významy rozšířené,modulované, a využívány v matoucí řadu způsobů. Uměním reflexikografie je zobecnit od korpusu k definicím, které vyvolávají a vysvětlují celou škálu významu slova, takže to vypadá, že slova jsou dobře vychovaná sémanticky. Není však vůbec jasné, zda jsou tyto stejné významové rozdíly použitelnépřípravné aplikace, protože rozhodnutí lexikografů jsou obvykle poháněna jinými úvahami.
doporučené čtení
- Bar-Hillel, Jehošua. 1964. Jazyk a informace. New York: Addison-Wesley.
- Edmonds, Philip & Adam Kilgarriff. 2002. Úvod do zvláštního čísla o hodnocení systémů rozcestníků. Journal of Natural Language Engineering, 8 (4): 279-291.
- Ide, Nancy & Jean Véronis. 1998. Rozcestník slova: Stav techniky. Výpočetní Lingvistika, 24 (1): 1-40.
- Jurafsky, Daniel & James H.Martin. 2000. Zpracování řeči a jazyka. New Jersey, USA: Prentice Hall.
- Lesku, Michaele. 1986. Automatická rozcestník pomocí strojově čitelných slovníků: jak rozeznat šišku od kužele zmrzliny. Sborník SIGDOC-86: 5th International Conference on Systems Documentation, Toronto, Kanada, 24-26.
- Mihalcea, Rada. 2007. Rozcestník slova. Encyklopedie strojového učení. Springer-Verlag.
- Schütze, Hinrich. 1998. Automatická diskriminace ve smyslu slova. Výpočetní Lingvistika, 24 (1): 97-123.
- Jarowsky, David. 1995. Bez dozoru slovo smysl disambiguation soupeřící kontrolované metody. Sborník z 33. výročního zasedání Asociace pro výpočetní lingvistiku, 189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps
interní reference
- Tomasz Downarowicz (2007) entropie. Scholarpedia, 2 (11): 3901.
- Mark Aronoff (2007) Jazyk. Scholarpedia, 2 (5): 3175.
- Senseval stránky
- SemEval stránky
- WSD tutorial
Viz také
Lingvistika,Zpracování Přirozeného Jazyka
Sponzorované: Prof. Ke CHEN, School of Computer Science, University of Manchester, BRITÁNIE
Přezkoumána: Anonymous
Přezkoumány: Dr. Rada Mihalcea, University of North Texas
přímo na: 2008-05-23 17:13:44 GMT