Curador: Eneko Agirre
Eugene M. Izhikevich
Ke CHEN
Philip Edmonds
En el procesamiento del lenguaje natural, la desambiguación del sentido de la palabra (WSD) es el problema de determinar qué «sentido» (significado) de una palabra se activa por el uso de la palabra en un contexto particular, un proceso que parece ser extremadamente inconsciente en las personas. WSD es un problema de clasificación natural: Dada una palabra y sus posibles sentidos, definidos por un diccionario,clasifica una ocurrencia de la palabra en contexto en una o más de sus clases sensoriales. Las características del contexto (como las palabras vecinas)proporcionan la evidencia para la clasificación.
Un ejemplo famoso es determinar el sentido de la pluma en el siguiente pasaje (Bar-Hillel 1960):
Little John estaba buscando su caja de juguetes. Finalmente lo encontró. La caja estaba en la pluma. John estaba muy feliz.
WordNet enumera cinco sentidos para el lápiz de palabras:
- pluma: un instrumento de escritura con un punto desde el que fluye la tinta.
- corral: un recinto para el confinamiento del ganado.
- corralito, bolígrafo: un recinto portátil en el que se puede dejar que jueguen los bebés.
- penitenciaría, pen-una institución correccional para los condenados por delitos graves.
- cisne hembra de pluma.
La investigación ha progresado constantemente hasta el punto en que los sistemas WSD logran niveles consistentes de precisión en una variedad de tipos de palabras y ambigüedades. Se ha investigado una gran variedad de técnicas, desde métodos basados en diccionarios que utilizan el conocimiento codificado en recursos léxicos, hasta métodos de aprendizaje supervisados por máquinas en los que se entrena a un clasificador para cada palabra en un corpus de ejemplos anotados manualmente con sentido,hasta métodos completamente no supervisados que agrupan ocurrencias de palabras, induciendo así los sentidos de las palabras. Entre estos, los enfoques de aprendizaje supervisado han sido los algoritmos más exitosos hasta la fecha.
La precisión actual es difícil de establecer sin una serie de advertencias. En inglés, la precisión a nivel de grano grueso (homógrafo) es rutinariamente superior al 90%, con algunos métodos en homógrafos particulares que alcanzan más del 96%. En las distinciones de sentido de grano más fino, se han reportado precisiones superiores de 59,1% a 69,0% en ejercicios de evaluación recientes (SemEval-2007, Senseval-2), donde la precisión de la línea de base del algoritmo más simple posible de elegir siempre el sentido más frecuente fue de 51,4% y 57%, respectivamente.
- Contenido
- Historia
- Aplicaciones
- La utilidad de WSD
- Traducción automática
- Recuperación de información
- Extracción de información y adquisición de conocimiento
- Métodos
- Métodos basados en el diccionario y el conocimiento
- Métodos supervisados
- Métodos semi-supervisados
- Métodos no supervisados
- Evaluación
- ¿Por qué el WSD es duro?
- Un inventario de sentidos no puede ser independiente de la tarea
- Diferentes algoritmos para diferentes aplicaciones
- El significado de la palabra no se divide en sentidos discretos
- Véase también
Contenido
- 1 Historia
- 2 Aplicaciones
- 2.1 La utilidad de WSD
- 2.2 Traducción automática
- 2.3 Recuperación de información
- 2.4 Extracción de información y adquisición de conocimientos
- 3 Métodos
- 3.1 Métodos basados en el diccionario y el conocimiento
- 3.2 Métodos supervisados
- 3.3 Métodos semi-supervisados
- 3.4 Métodos no supervisados
- 4 Evaluación
- 5 ¿Por qué es difícil WSD?
- 5.1 Un inventario de sensores no puede ser independiente de tareas
- 5.2 Algoritmos diferentes para diferentes aplicaciones
- 5.El significado de 3 palabras no se divide en sentidos discretos
- 6 Referencias
- 7 Enlaces externos
- 8 Véase también
Historia
WSD se formuló por primera vez como una tarea computacional distinta durante los primeros días de la traducción automática en la década de 1940, convirtiéndolo en uno de los problemas más antiguos de la lingüística computacional. Warren Weaver, en su famoso memorándum de traducción de 1949, introdujo por primera vez el problema en un contexto computacional. Los primeros investigadores comprendieron bien la importancia y la dificultad de WSD. De hecho,Bar-Hillel (1960) usó el ejemplo anterior para argumentar que WSD no podía ser resuelto por «computadora electrónica» debido a la necesidad en general de modelar todo el conocimiento del mundo.
En la década de 1970, WSD era una subtarea de sistemas de interpretación semántica desarrollados dentro del campo de la inteligencia artificial, pero como los sistemas WSD estaban en gran parte basados en reglas y codificados a mano, eran propensos a un cuello de botella de adquisición de conocimiento.
En la década de 1980, los recursos léxicos a gran escala, como el Oxford Advanced Learner’s Dictionary of Current English (OALD), estaban disponibles: la codificación manual fue reemplazada por el conocimiento extraído automáticamente de estos recursos, pero la desambiguación aún estaba basada en el conocimiento o en el diccionario.
En la década de 1990, la revolución estadística barrió a través de la lingüística computacional, y WSD se convirtió en un problema paradigmático para aplicar técnicas de aprendizaje automático supervisado.
En la década de 2000,las técnicas supervisadas alcanzaron una meseta en precisión, por lo que la atención se ha desplazado a sentidos de grano grueso, adaptación del dominio,sistemas basados en corpus semi-supervisados y no supervisados, combinaciones de diferentes métodos y el retorno de sistemas basados en el conocimiento a través de métodos basados en gráficos. Aún así, los sistemas supervisados continúan mejor.
Aplicaciones
La traducción automática es la aplicación original y más obvia, pero WSD se ha considerado en casi todas las aplicaciones de la tecnología del lenguaje, incluida la recuperación de información,la lexicografía, la extracción/adquisición de conocimientos y la interpretación semántica, y se está volviendo cada vez más importante en nuevas áreas de investigación, como la bioinformática y la Web semántica.
La utilidad de WSD
No hay duda de que las aplicaciones anteriores requieren y usan desambiguación de sentido de palabras en una forma u otra. Sin embargo, aún no se ha demostrado que WSD, como módulo separado, haga una diferencia decisiva en ninguna aplicación. Hay algunos resultados recientes que muestran pequeños efectos positivos, por ejemplo, en la traducción automática, pero también se ha demostrado que el WSD perjudica el rendimiento, como es el caso de experiencias bien conocidas en la recuperación de información.
Hay varias razones posibles para esto. En primer lugar, el dominio de una aplicación a menudo limita el número de sentidos que puede tener una palabra (p. ej., uno no esperaría ver el sentido de «lado del río» del banco en una aplicación financiera), por lo que los lexicones pueden y se han construido en consecuencia. En segundo lugar, el WSD puede no ser lo suficientemente preciso como para mostrar un efecto y, además, el inventario de sentidos utilizado no es probable que coincida con las distinciones de sentidos específicas requeridas por la aplicación. En tercer lugar, tratar WSD como un componente o módulo separado puede ser erróneo, ya que podría tener que integrarse más estrechamente como un proceso indirecto (es decir, como desambiguación mutua, a continuación).
Traducción automática
WSD se requiere para la elección léxica en MT para palabras que tienen diferentes traducciones para diferentes sentidos. Por ejemplo, en un traductor de noticias financieras inglés-francés, el sustantivo inglés change podría traducirse a changement (‘transformación’) o monnaie (‘dinero de bolsillo’). Sin embargo, la mayoría de los sistemas de traducción no utilizan un módulo WSD separado. El léxico es a menudo pre-desambiguado para un dominio dado, o se diseñan reglas hechas a mano, o WSD se pliega en un modelo de traducción estadística, donde las palabras se traducen dentro de frases que por lo tanto proporcionan contexto.
Recuperación de información
La ambigüedad debe resolverse en algunas consultas. Por ejemplo, dada laquery «depresión», ¿debería el sistema devolver documentos sobre enfermedades, sistemas meteorológicos o economía? Los sistemas IR actuales (como los motores de búsqueda web), como MT, no utilizan un módulo WSD; se basan en el contexto de tipo de usuario suficiente en la consulta para recuperar solo documentos relevantes para el sentido deseado (por ejemplo, «depresión tropical»). En un proceso llamado desambiguación mutua, que recuerda al método Lesk (abajo),todas las palabras ambiguas se desambiguan en virtud de los verbos intendidos que aparecen en el mismo documento.
Extracción de información y adquisición de conocimiento
En la extracción de información y minería de texto, se requiere WSD para el análisis preciso de texto en muchas aplicaciones. Por ejemplo,un sistema de recopilación de inteligencia podría necesitar señalar referencias a, por ejemplo, drogas ilegales, en lugar de drogas médicas. La investigación bioinformática requiere que las relaciones entre genes y productos genéticos se cataloguen a partir de la vasta literatura científica; sin embargo, los genes y sus proteínas a menudo tienen el mismo nombre. De manera más general, el SemanticWeb requiere la anotación automática de documentos de acuerdo con la ontología de areferencia. WSD está empezando a aplicarse en estas áreas.
Métodos
Hay cuatro enfoques convencionales para WSD:
- Métodos basados en diccionarios y conocimientos: Estos se basan principalmente en diccionarios, tesauros y bases de conocimiento léxicas, sin usar evidencia de corpus.
- Métodos supervisados: Estos hacen uso de corpus anotados con sentido para entrenar.
- Métodos semi-supervisados o mínimamente supervisados: Estos hacen uso de una fuente secundaria de conocimiento, como un pequeño corpus anotado como datos semilla en un proceso de arranque, o un corpus bilingüe alineado con palabras.
- Métodos no supervisados: Estos evitan (casi) completamente la información externa y trabajan directamente a partir de corpus en bruto no anotados. Estos métodos también se conocen con el nombre de discriminación por el sentido de la palabra.
Métodos basados en el diccionario y el conocimiento
El método Lesk (Lesk 1986) es el método seminal basado en el diccionario. Se basa en la hipótesis de que las palabras que se usan juntas en el texto están relacionadas entre sí y que la relación se puede observar en las definiciones de las palabras y sus sentidos. Dos (o más) palabras se desambiguan al encontrar el par de sentidos del diccionario con la mayor superposición de palabras en sus definiciones de diccionario. Por ejemplo, al desambiguar las palabras en cono de pino, las definiciones de los sentidos apropiados incluyen las palabras everergreen y tree (al menos en un diccionario).
Una alternativa al uso de las definiciones es considerar la relación de sentido general de la palabra y calcular la similitud semántica de cada par de sentidos de la palabra basándose en una base de conocimiento léxico dada, como WordNet. Los métodos basados en gráficos que recuerdan a la investigación de activación de la propagación de los primeros días de la investigación de IA se han aplicado con cierto éxito.
El uso de preferencias de selección (o restricciones de selección) también es útil. Por ejemplo, sabiendo que uno típicamente cocina comida, uno puede desambiguar la palabra bajo en Estoy cocinando bajo (es decir, no es un instrumento musical).
Métodos supervisados
Los métodos supervisados se basan en la suposición de que el contexto puede proporcionar suficiente evidencia por sí solo para desambiguar las palabras (por lo tanto, el conocimiento del mundo y el razonamiento se consideran innecesarios). Probablemente el algoritmo de aprendizaje de cada máquina se ha aplicado a WSD, incluyendo técnicas asociadas como la selección de características, la optimización de parámetros y el aprendizaje de conjuntos. Las máquinas de vectores de soporte y el aprendizaje basado en memorias han demostrado ser los enfoques más exitosos hasta la fecha, probablemente porque pueden hacer frente a la alta dimensionalidad del espacio de características. Sin embargo, estos métodos supervisados están sujetos a un nuevo cuello de botella en la adquisición de conocimientos, ya que dependen de cantidades sustanciales de corpus etiquetados manualmente para la formación, que son laboriosos y costosos de crear.
Métodos semi-supervisados
El enfoque de arranque comienza a partir de una pequeña cantidad de datos de semilla para cada palabra: ya sea ejemplos de entrenamiento etiquetados manualmente o un pequeño número de reglas de decisión seguras (por ejemplo, tocar en el contexto de bajos casi siempre indica el instrumento musical). Las semillas se utilizan para entrenar un clasificador inicial, utilizando cualquier método supervisado. Este clasificador se utiliza en la parte no etiquetada del corpus para extraer un conjunto de entrenamiento más grande, en el que solo se incluyen las clasificaciones más confidenciales. El proceso se repite, cada nueva clasificación se entrena en un corpus de entrenamiento sucesivamente más grande, hasta que se consume todo el corpus, o hasta que se alcanza un número máximo dado de iteraciones.
Otras técnicas semi-supervisadas utilizan grandes cantidades de corpora no etiquetada para proporcionar información de co-ocurrencia que complementa los cuerpos etiquetados. Estas técnicas pueden ayudar a adaptar los modelos supervisados a diferentes ámbitos.
Además, una palabra ambigua en un idioma a menudo se traduce en palabras diferentes en un segundo idioma, dependiendo del sentido de la palabra. Los corpus bilingües alineados con palabras se han utilizado para inferir distinciones de sentido en varios idiomas, una especie de sistema semi-supervisado.
Métodos no supervisados
El aprendizaje no supervisado es el mayor desafío para los investigadores de WSD. La suposición subyacente es que sentidos similares ocurren en contextos celulares, y por lo tanto los sentidos pueden ser inducidos a partir del texto agrupando ocurrencias de palabras usando alguna medida de similitud de contenido. Luego, las nuevas ocurrencias de la palabra se pueden clasificar en los grupos/sentidos inducidos más cercanos. El rendimiento ha sido más bajo que otros métodos anteriores,pero las comparaciones son difíciles ya que los sentidos inducidos deben mapearse con un diccionario conocido de sentidos de palabras. Alternativamente, si no se desea una asignación a un conjunto de sentidos de diccionario, se pueden realizar evaluaciones basadas en grupos (incluidas medidas de entropía y pureza). Se esperaba que el aprendizaje no supervisado superara el cuello de botella de la adquisición de conocimientos, ya que no dependen del esfuerzo manual.
Evaluación
La evaluación de sistemas WSD requiere un corpus de prueba anotado a mano con el objetivo o los sentidos correctos, y asume que dicho corpus puede construirse. Se utilizan dos medidas principales de la ejecución:
- Precisión: la fracción de asignaciones del sistema realizadas que son correctas
- : la fracción del total de instancias de palabras asignadas correctamente por un sistema
Si un sistema hace una asignación para cada palabra, entonces la precisión y la llamada son las mismas, y se puede llamar precisión. Este modelo ha sido añadido para tener en cuenta sistemas que devuelven un conjunto de sentidos con pesos para cada ocurrencia.
Hay dos tipos de corpus de pruebas:
- Muestra léxica: las ocurrencias de una pequeña muestra de palabras objetivo deben ser desambiguadas, y
- Todas las palabras: todas las palabras de un fragmento de texto en ejecución deben ser desambiguadas.
Esta última se considera una forma de evaluación más realista, pero el corpus es más caro de producir porque los anotadores humanos tienen que leer las definiciones para cada palabra de la secuencia cada vez que necesitan hacer un juicio de etiquetado, en lugar de una sola vez para un bloque de circunstancias para la misma palabra objetivo. Con el fin de definir conjuntos de datos y procedimientos de evaluación comunes, se han organizado campañas públicas de evaluación. Senseval se ha ejecutado tres veces: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), y su sucesor, SemEval (2007), una vez.
¿Por qué el WSD es duro?
Este artículo discute la caracterización común y tradicional de WSD como un proceso explícito y separado de desambiguación con respecto a un inventario fijo de sentidos de palabras. Normalmente se supone que las palabras tienen un conjunto finito y discreto de sentidos, una simplificación burda de la complejidad del significado de las palabras, como se estudia en la semántica léxica.Si bien esta caracterización ha sido fructífera para la investigación de WSD per se, está en desacuerdo con lo que parece ser necesario en aplicaciones reales, como se discutió anteriormente.
WSD es difícil por muchas razones, tres de las cuales se discuten aquí.
Un inventario de sentidos no puede ser independiente de la tarea
Un inventario de sentidos independiente de la tarea no es un concepto coherente:cada tarea requiere su propia división del significado de la palabra en sentidos relevantes para la tarea. Por ejemplo, la ambigüedad del ratón(animal o dispositivo) no es relevante en la traducción automática inglés-francés, pero sí en la recuperación de información. La desembocadura opuesta del río, que requiere una elección en francés (fleuve «desemboca en el mar», o rivière «desemboca en un río»).
Diferentes algoritmos para diferentes aplicaciones
Es posible que se requieran algoritmos completamente diferentes para diferentes aplicaciones. En la traducción automática, el problema toma la forma de selección de palabras objetivo. En este caso, los «sentidos» son palabras en el idioma objetivo, que a menudo corresponden a diferencias significativas de significado en el idioma de origen (bank podría traducir al francés banque «banco financiero» o rive «borde del río»). En informationretrieval, no se requiere necesariamente un inventario de sentidos, porque es suficiente saber que una palabra se usa en el mismo sentido en la consulta y en un documento recuperado; qué sentido tiene, no es importante.
El significado de la palabra no se divide en sentidos discretos
Finalmente, la noción misma de «sentido de la palabra» es resbaladiza y controvertida. La mayoría de las personas pueden estar de acuerdo en distinciones a nivel de homógrafo de grano grueso (por ejemplo,bolígrafo como instrumento de escritura o recinto), pero bajan un nivel a polisemia de grano fino y surgen desacuerdos. Por ejemplo, en Senseval-2, que utilizó distinciones de sentido de grano fino, los observadores humanos estuvieron de acuerdo en solo el 85% de las ocurrencias de palabras. El significado de la palabra es en principio infinitamente variable y sensible al contexto. No se divide fácilmente en sub-significados distintos o discretos.Los lexicógrafos con frecuencia descubren en los corpus significados sueltos y superpuestos de palabras, y significados estándar o convencionales extendidos,modulados y explotados de una desconcertante variedad de maneras. El arte de laexicografía es generalizar desde el corpus hasta las definiciones que evocan y explican toda la gama de significados de una palabra, haciendo que parezca que las palabras se comportan bien semánticamente. Sin embargo, no está del todo claro si estas mismas distinciones de significado son aplicaciones incomputacionales aplicables, ya que las decisiones de los lexicógrafos generalmente están impulsadas por otras consideraciones.
Lectura sugerida
- Bar-Hillel, Yehoshua. 1964. Lenguaje e Información. Nueva York: Addison-Wesley.
- Edmonds, Philip & Adam Kilgarriff. 2002. Introducción al número especial sobre la evaluación de los sistemas de desambiguación del sentido de las palabras. Journal of Natural Language Engineering, 8 (4): 279-291.
- Ide, Nancy & Jean Véronis. 1998. Desambiguación del sentido de la palabra: El estado del arte. Computational Linguistics, 24 (1): 1-40.
- Jurafsky, Daniel & James H. Martin. 2000. Procesamiento del Habla y el Lenguaje. Nueva Jersey, Estados Unidos: Prentice Hall.
- Lesk, Michael. 1986. Desambiguación automática de los sentidos usando diccionarios legibles por máquina: Cómo distinguir un cono de pino de un cono de helado. Proceedings of SIGDOC-86: 5th International Conference on Systems Documentation, Toronto, Canada, 24-26.
- Mihalcea, Rada. 2007. Desambiguación del sentido de la palabra. Encyclopedia of Machine Learning (en inglés). Springer-Verlag.
- Schütze, Hinrich. 1998. Discriminación automática del sentido de las palabras. Computational Linguistics, 24 (1): 97-123.
- Yarowsky, David. 1995. Desambiguación del sentido de las palabras sin supervisión que rivaliza con los métodos supervisados. Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics, 189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps
Referencias internas
- Tomasz Downarowicz (2007) Entropy. Scholarpedia, 2 (11): 3901.
- Mark Aronoff (2007) Language. Scholarpedia, 2 (5): 3175.
- Sitio web de Senseval
- Sitio web de SemEval
- Tutorial WSD
Véase también
Lingüística, Procesamiento del Lenguaje Natural
Patrocinado por: Prof. Ke CHEN, Escuela de Ciencias de la Computación, Universidad de Manchester, Reino Unido
Revisado por: Anónimo
Revisado por: Dr. Rada Mihalcea, University of North Texas
Aceptado el: 2008-05-23 17:13:44 GMT