Word sense disambiguation

Post-pubblicazione attività di

Curatore: Eneko Agirre

Contributori:
0.50 –

Eugene M. Izhikevich

0.25 –

Ke CHEN

0.25 –

Filippo Edmonds

Nell’elaborazione del linguaggio naturale, word sense disambiguation (WSD) è theproblem di determinare il “senso” (significato) di una parola viene attivato mediante l’uso della parola in un contesto particolare, un processo che sembra belargely inconscio delle persone. WSD è un problema di classificazione naturale: data una parola e i suoi possibili sensi, come definiti da un dizionario,classificano un’occorrenza della parola nel contesto in una o più delle sue classi di sensi. Le caratteristiche del contesto (come le parole vicine)forniscono la prova per la classificazione.

Un famoso esempio è quello di determinare il senso della penna nel seguente passaggio (Bar-Hillel 1960):

Little John stava cercando la sua scatola dei giocattoli. Finalmente l’ha trovato. La scatola era nella penna. John era molto felice.

WordNet elenca cinque sensi per la penna di parola:

  1. penna — un attrezzo di scrittura con un punto da cui scorre l’inchiostro.
  2. pen-un recinto per confinare il bestiame.
  3. box, penna-un contenitore portatile in cui i bambini possono essere lasciati a giocare.
  4. penitenziario, pen-un istituto correzionale per i condannati per reati gravi.
  5. penna — femmina cigno.

La ricerca è progredita costantemente al punto in cui i sistemi WSD raggiungono livelli coerenti di accuratezza su una varietà di tipi di parole e ambiguità. Una varietà ricca oftechniques è stata ricercata, da thatuse di metodi dizionario-basato la conoscenza codificata in risorse lessicali, a metodi di apprendimento supervisedmachine in cui un classificatore è addestrato per ogni distinctword su un corpus di esempi senso-annotati manualmente, a metodi completamente unsupervised che raggruppano occorrenze di parole, therebyinducing i sensi di parola. Tra questi, approcci di apprendimento supervisionato sono stati gli algoritmi di maggior successo fino ad oggi.

La precisione corrente è difficile da dichiarare senza una serie di avvertimenti. OnEnglish, precisione a grana grossa (omografo) livello è di routine al di sopra del 90%, con alcuni metodi su particolari omografi raggiungere oltre il 96%. Sulle distinzioni di senso a grana più fine, sono state segnalate precisioni superiori dal 59,1% al 69,0% nei recenti esercizi di valutazione (SemEval-2007, Senseval-2), in cui l’accuratezza di base dell’algoritmo più semplice possibile per scegliere sempre il senso più frequente era rispettivamente del 51,4% e del 57%.

  • 1 Storia
  • 2 Applicazioni
    • 2.1 L’utilità di WSD
    • 2.2 la traduzione automatica
    • 2.3 per il recupero di Informazioni
    • 2.4 estrazione di Informazioni e l’acquisizione di conoscenza
  • 3 Metodi
    • 3.1 Dizionario – e la conoscenza dei metodi di base
    • 3.2 metodi Supervisionati
    • 3.3 Semi-supervised metodi
    • 3.4 metodi non supervisionati
  • 4 Valutazione
  • 5 Perché WSD difficile?
    • 5.1 Un inventario sense non può essere indipendente dall’attività
    • 5.2 Diversi algoritmi per diverse applicazioni
    • 5.3 significato della Parola non si dividono in discrete sensi
  • 6 Riferimenti
  • 7 collegamenti Esterni
  • 8

Storia

WSD è stata formulata per la prima volta come un distinto computazionale attività durante theearly giorni di macchina di traduzione nel 1940, rendendolo uno dei theoldest problemi di linguistica computazionale. Warren Weaver, nel suo famoso memorandum sulla traduzione del 1949, introdusse per la prima volta il problema in un contesto computazionale. I primi ricercatoricompreso bene il significato e la difficoltà di WSD. Infatti, Bar-Hillel (1960) ha usato l’esempio precedente per sostenere che WSD non poteva essere risolto da “computer elettronico” a causa dila necessità in generale di modellare tutta la conoscenza del mondo.

Nel 1970, WSD era una sottoattività di sistemi di interpretazione semantica sviluppati nel campo dell’intelligenza artificiale, ma poiché i sistemi WSD erano in gran parte basati su regole e codificati a mano, erano inclini a un collo di bottiglia per l’acquisizione di conoscenze.

Dagli anni ‘ 80 le risorse lessicali su larga scala, come l’Oxford Advanced Learner’s Dictionary of Current English (OALD), divennero disponibili: la codifica manuale è stata sostituita con la conoscenza automaticamenteestratta da queste risorse, ma la disambiguazione era ancora basata sulla conoscenza o sul dizionario.

Nel 1990, la rivoluzione statistica spazzato attraverso computationallinguistics, e WSD è diventato un problema paradigma che per applicare tecniche di apprendimento automatico supervisionato.

Gli anni 2000 hanno visto le tecniche supervisionate raggiungere un livello di accuratezza,e quindi l’attenzione si è spostata sui sensi a grana più grossolana, sull’adattamento del dominio, sui sistemi basati su corpus semi-supervisionati e non supervisionati,sulle combinazioni di metodi diversi e sul ritorno di sistemi basati sulla conoscenza tramite metodi basati su grafici. Tuttavia, i sistemi supervisionati continuano a funzionare al meglio.

Applicazioni

La traduzione automatica è l’applicazione originale e più ovvia per l’SDD, ma il WSD è stato effettivamente considerato in quasi tutte le applicazioni della tecnologia linguistica,tra cui il recupero delle informazioni, la lessicografia, l’estrazione/acquisizione della conoscenza e l’interpretazione semantica, e sta diventando sempre più importante in nuove aree di ricerca come la bioinformatica e il Web semantico.

L’utilità di WSD

Non c’è dubbio che le applicazioni di cui sopra richiedono e utilizzano word sense disambiguationin una forma o nell’altra. Tuttavia, WSD come modulo separato non ha ancora dimostrato di fareuna differenza decisiva in qualsiasi applicazione. Ci sono alcuni risultati recentiche mostrano piccoli effetti positivi, ad esempio, nella traduzione automatica, ma WSD ha anche dimostrato di danneggiare le prestazioni, come nel caso di noti esperimenti nel recupero delle informazioni.

Ci sono diverse possibili ragioni per questo. Innanzitutto, il dominio di un’applicazione spesso limita il numero di sensi che una parola può avere (ad es., non ci si aspetterebbe di vedere il senso di “riva del fiume” in un’applicazione finanziaria), e così i lessici possono e sono stati costruiti di conseguenza. In secondo luogo, WSD potrebbe non essere abbastanza accurato da mostrare un effetto e inoltre l’inventario dei sensi utilizzato non è in grado di corrispondere alle distinzioni di senso specifiche richieste dall’applicazione. In terzo luogo, trattare WSD come componente o modulo separato può essere fuorviante, in quanto potrebbe essere più strettamente integrato come processo animplicit (cioè, come disambiguazione reciproca, sotto).

Traduzione automatica

WSD è richiesto per la scelta lessicale in MT per parole che hanno differenttranslations per diversi sensi. Ad esempio, in un traduttore di notizie finanziarie inglese-francese, il sostantivo inglese change potrebbe tradurre changement (“trasformazione”) o monnaie (“pocketmoney”). Tuttavia, la maggior parte dei sistemi di traduzione non utilizza un modulo WSD separato. Il lessico è spesso pre-disambiguato per un dato dominio, o regole artigianali sono ideate, o WSD è piegato in un modello di traduzione statistica, dove le parole sono tradotte all’interno di frasi che forniscono quindi contesto.

Recupero delle informazioni

L’ambiguità deve essere risolta in alcune query. Ad esempio, data la “depressione” del sistema, il sistema dovrebbe restituire documenti su malattie, sistemi meteorologici o economia? I sistemi IR attuali (come i motori di ricerca Web), come MT, non utilizzano un modulo WSD; si basano sull’usertyping abbastanza contesto nella query per recuperare solo documenti pertinenti al senso previsto (ad esempio, “depressione tropicale”). In un processochiamato disambiguazione reciproca, che ricorda il metodo Lesk (sotto),tutte le parole ambigue sono disambiguate in virtù delle intese che coesistono nello stesso documento.

Estrazione di informazioni e acquisizione di conoscenze

Nell’estrazione di informazioni e estrazione di testo, WSD è richiesto per l’analisi accurata del testo in molte applicazioni. Ad esempio,un sistema di raccolta dell’intelligenza potrebbe aver bisogno di segnalare riferimenti a, ad esempio, droghe illegali, piuttosto che droghe mediche. La ricerca bioinformatica richiede che le relazioni tra geni e prodotti genici siano catalogate dalla vasta letteratura scientifica; tuttavia, i geni e le loro proteine hanno spesso lo stesso nome. Più in generale, SemanticWeb richiede l’annotazione automatica dei documenti in base all’ontologia areference. WSD sta solo iniziando ad essere applicato in questiaree.

Metodi

Esistono quattro approcci convenzionali a WSD:

  • Metodi basati sul dizionario e sulla conoscenza: questi si basano principalmente su dizionari, thesauri e basi di conoscenza lessicale, senza utilizzare alcuna prova del corpus.
  • Metodi supervisionati: questi fanno uso di corpora annotati dal senso da cui allenarsi.
  • Metodi semi-supervisionati o minimamente supervisionati: questi utilizzano una fonte secondaria di conoscenza come un piccolo corpus annotato come seed data in un processo di bootstrap o un corpus bilingue allineato alle parole.
  • Metodi non supervisionati: Questi evitano (quasi) informazioni completamente esterne e lavorano direttamente da corpora grezzi non annotati. Questi metodi sono noti anche sotto il nome di discriminazione di senso di parola.

Metodi basati sul dizionario e sulla conoscenza

Il metodo Lesk (Lesk 1986) è il metodo seminale basato sul dizionario. Si basa sull’ipotesi che le parole usate insieme nel testo siano correlate tra loro e che la relazione possa essere osservata nelle definizioni delle parole e dei loro sensi. Due (o più) parole aredis ambiguated trovando la coppia di sensi di dizionario con sovrapposizione di parola di thegreatest nelle loro definizioni di dizionario. Ad esempio, quando si disambiguano le parole inpino cono, le definizioni dei sensi appropriati includono entrambe le parolevergreen e tree (almeno in un dizionario).

Un’alternativa all’uso delle definizioni è considerare la relazione generaleword-sense e calcolare la somiglianza semantica di ogni coppia di sensi di parola basata su una data base di conoscenza lessicale comewordnet. Metodi basati su grafici che ricordano la ricerca di diffusione-attivazione dei primi giorni della ricerca sull’IA sono stati applicati con un certo successo.

L’uso di preferenze selettive (o restrizioni selettive) sono anche utili. Ad esempio, sapendo che in genere si cucina cibo, si può disambiguare la parola basso in Sto cucinando basso (cioè, non è uno strumento musicale).

Metodi supervisionati

I metodi supervisionati si basano sul presupposto che il contesto possa fornire prove sufficienti da solo per disambiguare le parole (quindi, la conoscenza del mondo e il ragionamento sono ritenuti non necessari). Probabilmente everymachine learning algorithm going è stato applicato a WSD, includingassociated tecniche come la selezione di funzionalità, parameteroptimization, e l’apprendimento ensemble. Le macchine vettoriali di supporto e l’apprendimento basato sulla memoria hanno dimostrato di essere gli approcci più riusciti, fino ad oggi, probabilmente perché possono far fronte all’elevata dimensionalità dello spazio delle caratteristiche. Tuttavia, questi metodi supervisionati sono soggetti a un nuovo collo di bottiglia per l’acquisizione di conoscenze, poiché si basano su quantità sostanziali di corpora etichettati manualmente per la formazione, che sono laboriosi e costosi da creare.

Metodi semi-supervisionati

L’approccio di bootstrap parte da una piccola quantità di dati di seme per ogni parola: o esempi di allenamento con tag manuale o un piccolo numero di regole decisionali sicure (ad esempio, suonare nel contesto del basso indica quasi sempre lo strumento musicale). I semi sono usati per formare un classificatore iniziale, usando qualsiasi metodo supervisionato. Thisclassifier viene quindi utilizzato sulla porzione non etichettata del corpus per estrarre un set di allenamento più ampio, in cui sono incluse solo le classificazioni più confidenziali. Il processo si ripete, ogni nuovo classifierbeing addestrato su un corpus di formazione successivamente più grande, fino a quando thewhole corpus viene consumato, o fino a quando un dato numero massimo di iterationsis raggiunto.

Altre tecniche semi-supervisionate utilizzano grandi quantità di corporauntagged per fornire informazioni di co-occorrenza che integrano i corpora etichettati. Queste tecniche hanno il potenziale per aiutare l’adattamento dei modelli supervisionati a diversi settori.

Inoltre, una parola ambigua in una lingua è spesso tradotta in parole diverse in una seconda lingua a seconda del senso della parola. I corpora bilingui allineati alle parole sono stati usati per distinzioni di senso incrociate, una sorta di sistema semi-supervisionato.

Metodi non supervisionati

L’apprendimento non supervisionato è la sfida più grande per WSDresearchers. L’ipotesi sottostante è che i sensi simili si verificano in contesti simili, e quindi i sensi possono essere indotti dal testo comprimendo occorrenze di parole usando una certa misura di somiglianza di testo. Quindi, le nuove occorrenze della parola possono essere classificate nei più vicini inducedclusters / senses. Le prestazioni sono state inferiori rispetto ad altri metodi, sopra, ma i confronti sono difficili poiché i sensi indotti devono essere mappati su un noto dizionario dei sensi di parole. In alternativa, se non si desidera una mappatura a un insieme di sensi del dizionario, è possibile eseguire valutazioni basate su cluster (incluse le misure di entropia e purezza). È auspicabile che l’apprendimento non supervisionato supererà il collo di bottiglia dell’acquisizione della conoscenza perché non dipendono da manualeffort.

Valutazione

La valutazione dei sistemi WSD richiede un corpus di test annotato a mano con i sensi target o corretti e presuppone che tale corpus possa essere costruito. Vengono utilizzate due principali misure di prestazione:

  • Precisione: la frazione delle assegnazioni di sistema effettuate che sono corrette
  • Richiamo: la frazione delle istanze totali di word correttamente assegnate da un sistema

Se un sistema esegue un’assegnazione per ogni parola, precision andrecall è la stessa e può essere chiamata accuratezza. Questo modello è stato esteso per prendere in considerazione sistemi che restituiscono un insieme di sensi con pesi per ogni occorrenza.

Ci sono due tipi di corpora di prova:

  • Esempio lessicale: le occorrenze di un piccolo campione di parole target devono essere disambiguate e
  • All-words: tutte le parole in un pezzo di testo in esecuzione devono essere disambiguate.

Quest’ultimo è considerato una forma di valutazione più realistica, ma il corpus è più costoso da produrre perché gli annotatori umani devono leggere le definizioni per ogni parola nella sequenza ogni volta che hanno bisogno di fare un giudizio di tagging, piuttosto che una volta per un blocco di istanze per la stessa parola di destinazione. Al fine di definire set di dati e procedure di valutazione comuni, sono state organizzate campagne di valutazione pubbliche. Senseval è stato eseguito tre volte: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), e il suo successore, SemEval (2007), una volta.

Perché WSD è difficile?

Questo articolo discute la caratterizzazione comune e tradizionale di WSD come un processo esplicito e separato di ambiguità rispetto a un inventario fisso dei sensi delle parole. Le parole sono generalmente considerate come un insieme finito e discreto di sensi, una grosssimplification della complessità del significato delle parole, come studiato nella semantica lessicale.Mentre questa caratterizzazione è stata fruttuosa per la ricerca sul WSD di per sé, è in qualche modo in contrasto con ciò che sembra essere necessario nelle applicazioni reali, come discusso sopra.

WSD è difficile per molte ragioni, tre delle quali sono discusse qui.

Un inventario sense non può essere indipendente dall’attività

Un inventario sense indipendente dall’attività non è un concetto coerente:ogni attività richiede la propria divisione del significato della parola in sensesrelevant all’attività. Ad esempio, l’ambiguità del mouse(animale o dispositivo) non è rilevante nella traduzione della macchina inglese-francese, ma è rilevante nel recupero delle informazioni. L’opposto è il fiume, che richiede una scelta in francese (fleuve “sfocia nel mare”, o rivière “sfocia in un fiume”).

Algoritmi diversi per applicazioni diverse

Algoritmi completamente diversi potrebbero essere richiesti da differentapplications. Nella traduzione automatica, il problema assume la forma diselezione di parole oggettive. Qui i “sensi” sono parole nella lingua di destinazione, che spesso corrispondono a significative distinzioni di significato nella lingua di origine (banca potrebbe tradurre in francese banque’ banca finanziaria ‘o rive’bordo del fiume’). In informationretrieval, un inventario di senso non è necessariamente richiesto, perché è sufficiente sapere che una parola è usata nello stesso senso nella queryand un documento recuperato; che senso è, non è importante.

Il significato delle parole non si divide in sensi discreti

Infine, la nozione stessa di “senso delle parole” è scivolosa econtroverso. La maggior parte delle persone può essere d’accordo nelle distinzioni a livello di omografo a grana grossa (ad esempio,penna come strumento di scrittura o custodia), ma scendere di un livello alla polisemia a grana fine e sorgono disaccordi. Ad esempio, in Senseval-2, cheutilizzato distinzioni di senso a grana fine, humanannotators concordato in solo l ‘ 85% delle occorrenze di parola. Il significato della parola è inprincipio infinitamente variabile e sensibile al contesto. Esso notdivide facilmente in distinti o discreti sotto-significati.I lessicografi spesso scoprono in corpora significati sciolti e sovrapposti, e significati standard o convenzionali estesi, modulati e sfruttati in una sconcertante varietà di modi. L’arte oflexicography è generalizzare dal corpus a thatevoke di definizioni e spiegare la gamma completa di significato di una parola, facendolo sembrare come le parole sono semanticamente bene-educate. Tuttavia, non è affatto chiaro se queste stesse distinzioni di significato siano applicabili applicazioni incomputenziali, poiché le decisioni dei lessicografi sono solitamente guidate da altre considerazioni.

Lettura consigliata

  • Bar-Hillel, Yehoshua. 1964. Lingua e informazioni. Addison-Wesley.
  • Edmonds, Philip & Adam Kilgarriff. 2002. Introduzione al numero speciale sulla valutazione dei sistemi di disambiguazione del senso delle parole. Journal of Natural Language Engineering, 8 (4): 279-291.
  • Ide, Nancy & Jean Véronis. 1998. Significato delle parole disambiguazione: Lo stato dell’arte. Linguistica computazionale, 24(1): 1-40.
  • J. J. Martin, Daniel & James H. Martin. 2000. Elaborazione vocale e linguistica. New Jersey, Stati Uniti d’America: Prentice Hall.
  • Lesk, Michael. 1986. Disambiguazione automatica del senso usando dizionari leggibili dalla macchina: come dire una pigna da un cono gelato. Atti di SIGDOC-86: 5th International Conference on Systems Documentation, Toronto, Canada, 24-26.
  • Mihalcea, Rada. 2007. Significato delle parole disambiguazione. Enciclopedia di apprendimento automatico. Springer-Verlag.
  • Schütze, Hinrich. 1998. Discriminazione automatica di senso di parola. Linguistica computazionale, 24 (1): 97-123.
  • Yarowsky, David. 1995. Significato delle parole senza supervisione disambiguazione rivaleggiando con i metodi supervisionati. Atti della 33a Riunione Annuale dell’Associazione per la Linguistica Computazionale, 189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps

Riferimenti interni

  • Tomasz Downarowicz (2007) Entropia. Scholarpedia, 2 (11): 3901.
  • Mark Aronoff (2007) Lingua. Scholarpedia, 2 (5): 3175.

  • Senseval sito web
  • SemEval sito web
  • WSD tutorial

Vedi anche

Linguistica,Elaborazione del Linguaggio Naturale

con il patrocinio di: Prof. Ke CHEN, School of Computer Science, University of Manchester, Regno UNITO

inviato da: Anonimo

Rivisto da: Il nostro sito utilizza cookie tecnici e di terze parti per migliorare la tua esperienza di navigazione.

You might also like

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.