Word sense disambiguation

Pós-publicação de atividade

Curador: Eneko Agirre

Contribuintes:
0.50 –

Eugene M. Izhikevich

0.25 –

Ke CHEN

0.25 –

Philip Edmonds

Em processamento de linguagem natural, o word sense disambiguation (WSD) é theproblem de determinar qual o “sentido” (significado) de uma palavra é ativado pelo sanduíchede a palavra em um determinado contexto, um processo que parece belargely inconsciente das pessoas. WSD é um problema de naturalclassificação: dada uma palavra e seus possíveis sentidos, como definido por um dicionário,classificar uma ocorrência da palavra em contexto em uma ou mais de suas senseclasses. As características do contexto (tais como palavras vizinhas)fornecem a evidência para a classificação.

um exemplo famoso é determinar o sentido da caneta na passagem seguinte (Bar-Hillel 1960):

Little John estava à procura da sua caixa de brinquedos. Finalmente encontrou-o. A caixa estava na caneta. O John estava muito feliz.

WordNet lista cinco sentidos para a palavra caneta:

  1. pen-um dispositivo de Escrita com um ponto a partir do qual a tinta flui.
  2. pen-um recinto para confinar animais.
  3. playpen, caneta-um compartimento portátil no qual os bebés podem ficar a brincar.
  4. penitenciária, penitenciária-uma instituição correcional para aqueles condenados por crimes graves.Cisne pen-fêmea.

a investigação progrediu de forma constante até ao ponto em que os sistemas de DSD alcançaram níveis consistentes de precisão numa variedade de tipos de palavras e de características. Uma rica variedade oftechniques foram pesquisadas, a partir do dicionário de métodos baseados em thatuse o conhecimento codificado em recursos lexicais, para supervisedmachine métodos de aprendizagem em que um classificador é treinado para cada distinctword em um corpus de manualmente sentido-anotada exemplos,completamente sem a supervisão de métodos de cluster de ocorrências de palavras, therebyinducing palavra sentidos. Entre estes, abordagens de aprendizagem supervisionada têm sido os algoritmos mais bem sucedidos até à data.

a precisão da corrente é difícil de determinar sem uma série de advertências. OnEnglish, accuracy at the coarse-grained (homograph) level is routinely above 90%, with some methods on particular homographs achieving over 96%. Em distinções sensoriais mais finas, foram relatadas exatidões de topo de 59,1% a 69,0% em exercícios de avaliação recentes (SemEval-2007, Senseval-2), onde a precisão de base do algoritmo mais simples possível de sempre escolher o sentido mais frequente foi de 51,4% e 57%, respectivamente.

Conteúdo

  • 1 História
  • 2 Aplicações
    • 2.1 O utilitário de WSD
    • 2.2 tradução de Máquina
    • 2.3 recuperação de Informação
    • 2.4 extração de Informações e aquisição de conhecimento
  • 3 Métodos de
    • 3.1 Dicionário – e o conhecimento de métodos baseados em
    • 3.2 métodos Supervisionados
    • 3.3 Semi-supervisionado métodos
    • 3.4 métodos de Vigilância
  • 4 Avaliação
  • 5 Por que é WSD difícil?
    • 5.1 um inventário sensorial não pode ser independente de Tarefas
    • 5.2 algoritmos diferentes para aplicações diferentes
    • 5.3 significado da Palavra não dividir em discretos sentidos
  • 6 Referências
  • 7 ligações Externas
  • 8 Ver também

História

WSD foi formulada como um ser distinto tarefa computacional durante theearly dias da tradução de máquina na década de 1940, tornando-o um dos theoldest problemas de lingüística computacional. Warren Weaver, in his famous 1949 memorandum on translation, first introduced the problem in a computational context. Os investigadores iniciais compreenderam bem o significado e a dificuldade do WSD. Na verdade, Bar-Hillel (1960) usou o exemplo acima para argumentar que o WSD não poderia ser resolvido por “computador eletrônico” por causa da necessidade em geral de modelar todo o conhecimento do mundo.

Na década de 1970, WSD foi uma subtarefa da semanticinterpretation sistemas desenvolvidos dentro do campo da artificialintelligence, mas desde WSD sistemas foram em grande parte baseado em regras andhand-coded que eles estavam sujeitos a uma aquisição de conhecimento gargalo.

nos anos 80, recursos lexicais em grande escala, como o Oxford Advanced Learner’s Dictionary of Current English (OALD), becameavatable: a codificação manual foi substituída por conhecimento automaticamente extraído destes recursos, mas a desambiguação era ainda baseada em conhecimento ou baseada em Dicionário.

In the 1990s, the statistical revolution swept through computationallinguistics, and WSD became a paradigm problemon which to apply supervised machine learning techniques.

the 2000s saw supervised techniques reach a plateau in accuracy, and so attention has shifted to coarser-grained senses, domainadaptation,semi-supervised and unsupervised corpus-based systems, combinations of different methods, and the return of knowledge-based systems via graph-based methods. Ainda assim, os sistemas supervisionados continuam a melhor forma.A tradução automática é a aplicação original e mais óbvia para o DSD, mas o DSD tem sido realmente considerado em quase todas as aplicações da tecnologia da linguagem, incluindo recuperação de informação, lexicografia, mineração/aquisição de conhecimento e interpretação semântica, e está a tornar-se cada vez mais importante em novas áreas de investigação, tais como a asbioinformática e a Web Semântica.

a utilidade do WSD

não há dúvida de que as aplicações acima exigem e usam o sentido de palavra desambiguação em uma forma ou outra. No entanto, o WSD como um módulo separado ainda não foi mostrado para fazer uma diferença decisiva em qualquer aplicação. Existem alguns resultados recentes que mostram pequenos efeitos positivos, por exemplo, na tradução de máquinas, mas também foi demonstrado que o WSD prejudica o desempenho, como é o caso de experiências bem conhecidas na recuperação de informação.

existem várias razões possíveis para isso. Em primeiro lugar, o domínio de uma aplicação muitas vezes restringe o número de sentidos que um wordcan tem (e.g., não seria de esperar ver o sentido de Banco “do lado do rio” numa aplicação financeira), pelo que os lexicons podem e foram construídos em conformidade. Em segundo lugar, o WSD pode não ser suficientemente preciso para demonstrar um efeito e, além disso, o inventário sensorial utilizado não é susceptível de corresponder às distinções sensoriais específicas exigidas pelo pedido. Third, treating WSD as a separate component or modulemay be misguided, as it might have to be more rightly integrated as animplician process (i.e., as mutual disambiguation, below).

a tradução automática

WSD é necessária para a escolha lexical em MT para palavras que têm Tradução diferente para diferentes sentidos. Por exemplo, num tradutor de notícias financeiras Inglês-Francês, A mudança do substantivo inglês poderia ser traduzida quer para a mudança (“transformação”) quer para o monnaie (“pocketmoney”). No entanto, a maioria dos sistemas de tradução não usam um WSDmodule separado. O léxico é muitas vezes pré-desambiguado para um dado domínio,ou regras artesanais são concebidas, ou WSD é dobrado em um modelo de tradução estatística, onde as palavras são traduzidas dentro de frases que assim fornecem contexto.

recuperação de informação

a ambiguidade tem de ser resolvida em algumas consultas. Por exemplo,dada a “depressão”, o sistema deve devolver documentos sobre doenças, sistemas meteorológicos ou economia? Sistemas de IR atuais (como web searchengines), como MT, não usam um módulo WSD; eles dependem do contexto usertyping suficiente na consulta para apenas recuperar documentos relevantes para o sentido pretendido (por exemplo, “depressão tropical”). Em um processo chamado desambiguação mútua, reminiscente do método Lesk (abaixo),todas as palavras ambíguas são desambiguadas em virtude das intenções co-ocorrendo no mesmo documento.

extracção de informação e aquisição de conhecimento

na extracção de informação e extracção de texto, o WSD é necessário para a análise exacta do texto em muitas aplicações. Por exemplo,um sistema de coleta de informações pode precisar sinalizar referências a, digamos, drogas ilegais, em vez de drogas médicas. A investigação Bioinformática exige que as relações entre genes e produtos genéticos sejam catalogadas a partir da vasta literatura científica; no entanto, os genes e as suas proteínas têm frequentemente o mesmo nome. Mais genericamente, a SemanticWeb requer uma anotação automática de documentos de acordo com a ontologia de areference. O WSD só está a começar a ser aplicado nestas áreas.

métodos

existem quatro abordagens convencionais do WSD:

  • métodos baseados no dicionário e no conhecimento: estes baseiam-se principalmente em dicionários, thesauri e bases de conhecimento lexical, sem usar qualquer evidência corpus.
  • métodos supervisionados: estes fazem uso de corpos anotados com sentido para treinar.
  • métodos Semi-supervisionados ou minimamente supervisionados: estes fazem uso de uma fonte secundária de conhecimento, como um pequeno corpo anotado como dados de sementes em um processo de inicialização, ou um corpo bilíngüe alinhado com palavras.
  • métodos não controlados: Estas escew (quase) informação completamente externa e trabalham diretamente de corpora cruas não anotadas. Estes métodos também são conhecidos sob o nome de discriminação do sentido palavra.

Dictionary-and knowledge-based methods

The Lesk method (Lesk 1986) is the seminal dictionary-based method. Baseia-se na hipótese de que as palavras utilizadas em conjunto no texto estão correlacionadas entre si e de que a relação pode ser observada nas definições das palavras e dos seus sentidos. Duas (ou mais) palavras são confundidas por encontrar o par de sentidos de dicionário com a maior sobreposição de Palavras em suas definições de dicionário. Por exemplo, quando se desambiguam as palavras cone inpino, as definições dos sentidos apropriados tanto incluem o wordsevergreen e árvore (pelo menos em um dicionário).

uma alternativa ao uso das definições é considerar a relatividade do sentido das palavras gerais e calcular a semelhança semântica de cada par de sentidos das palavras com base numa base de conhecimento lexical dada, como a WordNet. Os métodos baseados em gráficos que reminiscentram a pesquisa de disseminação-activaçãodos primórdios da investigação da IA têm sido aplicados com algum sucesso.

a utilização de preferências selectivas (ou restrições selectivas) também são úteis. Por exemplo, sabendo que normalmente se cozinha comida, pode-se desambiguar a palavra baixo em que eu estou cozinhando baixo (ou seja, não é um instrumento musical).Métodos supervisionados

métodos supervisionados são baseados na suposição de que o contexto pode fornecer evidências suficientes por si só para desambiguar palavras (portanto, conhecimento mundial e raciocínio são considerados desnecessários). Provavelmente todos os algoritmos de aprendizagem de Mach foram aplicados ao WSD, incluindo técnicas associadas como seleção de recursos, parameteroptimização e aprendizagem em conjunto. As máquinas de suporte vectoriais e a aprendizagem baseada na memória têm-se mostrado as mais bem sucedidas abordagens, até à data, provavelmente porque conseguem lidar com a dimensionalidade elevada do espaço de recursos. No entanto, estes métodos supervisionados estão sujeitos a um novo estrangulamento de aquisição de conhecimento, uma vez que dependem de quantidades substanciais de corpus manuais com marcas sensoriais para a formação, que são onerosos e dispendiosos de criar.

Semi-supervisionado métodos

A inicialização de abordagem começa a partir de uma pequena quantidade de semente de dados foreach palavra: manualmente etiquetados com exemplos de treinamento ou de um pequeno número de infalível regras de decisão (por exemplo, no contexto de bassalmost sempre indica o instrumento musical). As sementes são usadas totrain um classificador inicial, usando qualquer método supervisionado. Esta classificação é então utilizada na parte não marcada do corpus paraextrar um conjunto de formação mais vasto, no qual apenas são incluídas as classificações mais confiantes. O processo repete-se, cada um dos novos classificadorestá a ser treinado num corpus de formação sucessivamente maior, até ser consumido o corpus inteiro, ou até ser atingido um determinado número máximo de iterações.

outras técnicas semi-supervisionadas utilizam grandes quantidades de corpora não agitada para fornecer informações sobre a co-ocorrência que complementa os Corpus agitados. Estas técnicas podem contribuir para a adaptação de modelos supervisionados a diferentes domínios.

também, uma palavra ambígua numa língua é muitas vezes traduzida em palavras diferentes numa segunda língua, dependendo do sentido da palavra. Corpora bilíngüe alinhada com as palavras tem sido usado para inferir distinções de Sentido interc-lingual, uma espécie de sistema semi-supervisionado.

métodos não controlados

a aprendizagem não controlada é o maior desafio para os investigadores. A suposição subjacente é que sentidos semelhantes ocorrem em contextos semelhantes, e assim os sentidos podem ser induzidos a partir de ocorrências de palavras por inclusão de texto usando alguma medida de similaridade de contexto. Em seguida, novas ocorrências da palavra podem ser classificadas nos mais próximos induzclusters/sentidos. O desempenho tem sido menor do que outros métodos, acima,mas comparações são difíceis uma vez que os sentidos induzidos devem ser mapeados para um conhecido dicionário de sentidos da palavra. Alternativamente, se um mapeamento para um conjunto de sentidos do dicionário não é desejado, avaliações baseadas em aglomerados (incluindo medidas de entropia e pureza) podem ser realizadas. É de esperar que a aprendizagem não supervisionada supere o estrangulamento da aquisição de conhecimento, uma vez que não dependem do esforço manual.

avaliação

a avaliação dos sistemas WSD requer um corpo de teste anotado à mão com o alvo ou sentidos corretos, e assume que tal corpo pode ser construído. São utilizadas duas medidas principais de desempenho:

  • precisão: a fração das atribuições de Sistema feitas que são corretas
  • Recall: the fraction of total word instances correctly assigned by a system

If a system makes an assignment for every word, then precision andrecall are the same, and can be called accuracy. Este modelo tem sido desenvolvido para levar em conta sistemas que devolvem um conjunto de sentidos com pesos para cada ocorrência.

Existem dois tipos de corpora de teste:

  • Lexical exemplo: as ocorrências de uma pequena amostra de destino palavras precisam ser diferenciados, e
  • Todos-palavras: todas as palavras em um pedaço de texto, precisam ser diferenciados.Este último é considerado uma forma mais realista de avaliação, mas o teor é mais dispendioso de produzir, uma vez que os anotadores humanos têm de ler as definições para cada palavra na sequência cada vez que necessitam de fazer um julgamento de marcação, em vez de uma vez por um bloco de substâncias para a mesma palavra-alvo. A fim de definir conjuntos e procedimentos comuns de avaliação, foram organizadas campanhas públicas de avaliação. Senseval foi executado três vezes: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), e seu sucessor, SemEval (2007), uma vez.

    Why is WSD hard? Este artigo discute a caracterização comum e tradicional do DSD como um processo explícito e separado de desambiguação em relação a um inventário fixo dos sentidos das palavras. Words are typically assumed to have a finite and discrete set of senses, a grosssimplification of the complexity of word meaning, as studied in lexical semantics.Embora esta caracterização tenha sido proveitosa para a investigação sobre o WSD per se, ela está um pouco em desacordo com o que parece ser necessário em aplicações reais, como discutido acima.

    WSD is hard for many reasons, three of which are discussed here.

    um inventário de sentidos não pode ser independente de Tarefas

    um inventário de sentidos independente de tarefas não é um conceito coerente:cada tarefa requer a sua própria divisão de significado de Palavras em senses relevantes para a tarefa. Por exemplo, a ambiguidade do mouse(animal ou dispositivo) não é relevante na mecânica Inglês-francesa, mas é relevante na recuperação de informação. O istrue oposto do rio, que requer uma escolha em francês (fleuve ‘flows into the sea’, ou rivière’flows into a river’).

    Different algorithms for different applications

    Completely different algorithms might be required by different applications. Na tradução automática, o problema assume a forma de selecção de palavras alvo. Aqui, os “sentidos” são palavras na língua de destino, que muitas vezes correspondem a significativasdistinções significativas na língua de origem (o banco pode traduzir para o banco francês “Banco financeiro” ou “margem do rio”). Na informaçãoretrieval, um inventário de sentido não é necessariamente necessário, porque é o suficiente para saber que uma palavra é usada no mesmo sentido no Query e um documento retrieved; que sentido isso é, não é importante.

    o significado da palavra não se divide em sentidos discretos

    finalmente, a própria noção de “sentido da palavra” é escorregadia econtroversiva. A maioria das pessoas pode concordar em distinções no nível homógrafo grosseiro (por exemplo,caneta como instrumento de escrita ou invólucro), mas descer um nível de polissemia de grãos finos, e surgem desacordos. Por exemplo, no Senseval-2, que utilizava distinções de Sentido fino, os promotores humanos concordaram em apenas 85% das ocorrências de palavras. O significado da palavra é, em princípio, infinitamente variável e sensível ao contexto. Não se divida facilmente em sub-significados distintos ou discretos.Os lexicógrafos frequentemente descobrem em corpora significados soltos e sobrepostos, e significados padrão ou convencionais estendidos, modulados e explorados de uma variedade desconcertante de maneiras. A arte da lexicografia é generalizar a partir do corpus para Definições queevocam e explicam toda a gama de significado de uma palavra, fazendo com que pareça que as palavras são bem comportadas semanticamente. No entanto, não é de todo claro se estas distinções do mesmo significado são aplicáveis em aplicações incompletas, uma vez que as decisões dos lexicógrafos são normalmente motivadas por outras considerações.

    sugeriu a leitura

    • Bar-Hillel, Yehoshua. 1964. Língua e informação. New York: Addison-Wesley.
    • Edmonds, Philip & Adam Kilgarriff. 2002. Introdução à questão especial sobre a avaliação do sentido das palavras sistemas de desambiguação. Journal of Natural Language Engineering, 8 (4):279-291.
    • Ide, Nancy & Jean Véronis. 1998. Palavra sentido desambiguação: o estado da arte. Computational Linguistics, 24 (1): 1-40.
    • Jurafsky, Daniel & James H. Martin. 2000. Processamento de fala e linguagem. New Jersey, USA: Prentice Hall.
    • Lesk, Michael. 1986. Sentido automático desambiguação usando dicionários legíveis por máquina: Como distinguir um cone de pinho de um cone de sorvete. Proceedings of SIGDOC-86: 5th International Conference on Systems Documentation, Toronto, Canada, 24-26.
    • Mihalcea, Rada. 2007. Sentido de palavra desambiguação. Encyclopedia of Machine Learning. Springer-Verlag.
    • Schütze, Hinrich. 1998. Discriminação automática do sentido das palavras. Computational Linguistics, 24(1):97-123.
    • Yarowsky, David. 1995. Sentido de palavra sem supervisão desambiguação rivalizando métodos supervisionados. Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics, 189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps

    referências Internas

    • Tomasz Downarowicz (2007) a Entropia. Scholarpedia, 2 (11):3901.
    • Mark Aronoff (2007) Language. Scholarpedia, 2 (5):3175.

    • Senseval site
    • SemEval site
    • WSD tutorial

    Veja também:

    Linguística,Processamento de Linguagem Natural

    Patrocinado por: Prof. Ke CHEN, Escola de Ciência da computação, da Universidade de Manchester, Reino UNIDO

    Revisado por: Anônimo

    Revisado por: Dr. Rada Mihalcea, Universidade do Norte do Texas

    aceite em: 2008-05-23 17: 13: 44 GMT

You might also like

Deixe uma resposta

O seu endereço de email não será publicado.