Commissaire : Eneko Agirre
Eugène M. Ijikevitch
Ke CHEN
Jean-Pierre Gignac
Dans le traitement du langage naturel, la désambiguïsation du sens des mots (WSD) est le problème de déterminer quel « sens » (sens) d’un mot est activé par l’utilisation du mot dans un contexte particulier, un processus qui semble être totalement inconscient chez les gens. WSD est un problème de classification naturelle: Étant donné un mot et ses sens possibles, tels que définis par un dictionnaire, classez une occurrence du mot dans son contexte dans une ou plusieurs de ses classes de sens. Les caractéristiques du contexte (comme les mots voisins) fournissent la preuve de la classification.
Un exemple célèbre est de déterminer le sens de la plume dans le passage suivant (Bar-Hillel 1960):
Le petit John cherchait sa boîte à jouets. Finalement, il l’a trouvé. La boîte était dans le stylo. John était très heureux.
WordNet répertorie cinq sens pour le mot stylo:stylo
- – un outil d’écriture avec un point à partir duquel l’encre coule.
- enclos – enclos pour confiner le bétail.
- parc, stylo – un boîtier portable dans lequel les bébés peuvent jouer.
- pénitencier, pénitencier – un établissement correctionnel pour les personnes reconnues coupables de crimes majeurs.
- stylo – cygne femelle.
La recherche a progressé régulièrement au point où les systèmes WSD atteignent des niveaux de précision constants sur une variété de types de mots et d’ambiguïtés. Une riche variété de techniques ont été recherchées, des méthodes basées sur des dictionnaires qui utilisent les connaissances codées dans des ressources lexicales, aux méthodes d’apprentissage supervisées par machine dans lesquelles un classificateur est formé pour chaque mot distinct sur un corpus d’exemples annotés manuellement, aux méthodes complètement non supervisées qui regroupent des occurrences de mots, induisant ainsi des sens de mots. Parmi ceux-ci, les approches d’apprentissage supervisé ont été les algorithmes les plus performants à ce jour.
La précision actuelle est difficile à indiquer sans une foule de mises en garde. En anglais, la précision au niveau du gros grain (homographe) est systématiquement supérieure à 90%, certaines méthodes sur des homographes particuliers atteignant plus de 96%. Sur les distinctions de sens plus fines, des précisions supérieures de 59,1% à 69,0% ont été rapportées dans des exercices d’évaluation récents (SemEval-2007, Senseval-2), où la précision de base de l’algorithme le plus simple possible consistant à choisir toujours le sens le plus fréquent était de 51,4% et 57%, respectivement.
- Contenu
- Histoire
- Applications
- L’utilité de WSD
- Traduction automatique
- Récupération d’informations
- Extraction d’informations et acquisition de connaissances
- Méthodes
- Méthodes basées sur le dictionnaire et la connaissance
- Méthodes supervisées
- Méthodes semi-supervisées
- Méthodes non supervisées
- Évaluation
- Pourquoi le WSD est-il difficile?
- Un inventaire de sens ne peut pas être indépendant de la tâche
- Différents algorithmes pour différentes applications
- La signification des mots ne se divise pas en sens discrets
- Voir aussi
Contenu
- 1 Historique
- 2 Applications
- 2.1 L’utilité de WSD
- 2.2 Traduction automatique
- 2.3 Récupération d’informations
- 2.4 Extraction d’informations et acquisition de connaissances
- 3 Méthodes
- 3.1 Méthodes basées sur le dictionnaire et les connaissances
- 3.2 Méthodes supervisées
- 3.3 Méthodes semi-supervisées
- 3.4 Méthodes non supervisées
- 4 Evaluation
- 5 Pourquoi le WSD est-il difficile ?
- 5.1 Un inventaire sense ne peut pas être indépendant de la tâche
- 5.2 Algorithmes différents pour différentes applications
- 5.La signification de 3 mots ne se divise pas en sens discrets
- 6 Références
- 7 Liens externes
- 8 Voir aussi
Histoire
Le WSD a d’abord été formulé comme une tâche de calcul distincte au début de la traduction automatique dans les années 1940, ce qui en fait l’un des problèmes les plus anciens de la linguistique informatique. Warren Weaver, dans son célèbre mémorandum sur la traduction de 1949, a d’abord introduit le problème dans un contexte informatique. Les premiers chercheurs ont bien compris l’importance et la difficulté du WSD. En fait, Bar-Hillel (1960) a utilisé l’exemple ci-dessus pour affirmer que le WSD ne pouvait pas être résolu par un « ordinateur électronique » en raison de la nécessité en général de modéliser toutes les connaissances mondiales.
Dans les années 1970, le WSD était une sous-tâche des systèmes d’interprétation sémantique développés dans le domaine de l’intelligence artificielle, mais comme les systèmes WSD étaient largement basés sur des règles et codés à la main, ils étaient sujets à un goulot d’étranglement de l’acquisition de connaissances.
Dans les années 1980, des ressources lexicales à grande échelle, telles que l’Oxford Advanced Learner’s Dictionary of Current English (OALD), sont devenues disponibles: le codage manuel a été remplacé par des connaissances automatiquement extraites de ces ressources, mais la désambiguïsation était toujours basée sur des connaissances ou sur des dictionnaires.
Dans les années 1990, la révolution statistique a balayé la computationallinguistique, et le WSD est devenu un problème de paradigme pour appliquer des techniques d’apprentissage automatique supervisées.
Les années 2000 ont vu les techniques supervisées atteindre un plateau de précision, et l’attention s’est donc tournée vers les sens plus grossiers, l’adaptation des domaines, les systèmes basés sur des corpus semi-supervisés et non supervisés, les combinaisons de différentes méthodes et le retour des systèmes basés sur la connaissance via des méthodes basées sur des graphiques. Pourtant, les systèmes supervisés continuent àeffectuer le mieux.
Applications
La traduction automatique est l’application originale et la plus évidente pour la DSD, mais la DSD a en fait été prise en compte dans presque toutes les applications de la technologie du langage, y compris la recherche d’informations, la lexicographie, l’exploration / acquisition de connaissances et l’interprétation sémantique, et devient de plus en plus importante dans de nouveaux domaines de recherche tels que la bioinformatique et le Web sémantique.
L’utilité de WSD
Il ne fait aucun doute que les applications ci-dessus nécessitent et utilisent une ambiguïté du sens des mots sous une forme ou une autre. Cependant, WSD en tant que module séparé n’a pas encore été démontré pour faire une différence décisive dans une application. Il y a quelques résultats récents qui montrent de petits effets positifs, par exemple, dans la traduction automatique, mais il a également été démontré que le WSD nuisait aux performances, comme c’est le cas dans des expériences bien connues dans la recherche d’informations.
Il y a plusieurs raisons possibles à cela. Premièrement, le domaine d’une application limite souvent le nombre de sens qu’un mot peut avoir (par ex., on ne s’attendrait pas à voir le sens de « rive » dans une application financière), et donc les lexiques peuvent et ont été construits en conséquence. Deuxièmement, WSD peut ne pas être assez précis pour montrer un effet et de plus, l’inventaire des sens utilisé est parfaitement adapté aux distinctions de sens spécifiques requises par l’application. Troisièmement, le traitement de WSD comme un composant ou un module distinct peut être malavisé, car il pourrait devoir être intégré plus étroitement en tant que processus d’animplicité (c’est-à-dire en tant que désambiguïsation mutuelle, ci-dessous).
Traduction automatique
WSD est requis pour le choix lexical en MT pour les mots qui ont des traductions différentes pour différents sens. Par exemple, dans un traducteur de nouvelles financières anglais-français, le changement de nom anglais pourrait traduire soit changement (‘transformation’), soit monnaie (‘pocketmoney’). Cependant, la plupart des systèmes de traduction n’utilisent pas de module WSD distinct. Le lexique est souvent pré-désambigué pour un domaine donné, ou des règles artisanales sont conçues, ou WSD est plié dans un modèle de traduction statistique, où les mots sont traduits dans des phrases qui fournissent ainsi un contexte.
Récupération d’informations
L’ambiguïté doit être résolue dans certaines requêtes. Par exemple, étant donné la « dépression », le système devrait-il renvoyer des documents sur la maladie, les systèmes météorologiques ou l’économie? Les systèmes IR actuels (tels que les moteurs de recherche Web), comme MT, n’utilisent pas de module WSD; ils s’appuient sur le fait que l’utilisateur saisit suffisamment de contexte dans la requête pour ne récupérer que des documents pertinents au sens prévu (par exemple, « dépression tropicale »). Dans un processus appelé désambiguïsation mutuelle, qui rappelle la méthode de Lesk (ci-dessous), tous les mots ambigus sont désambigués en vertu des sens prévus qui coexistent dans le même document.
Extraction d’informations et acquisition de connaissances
Dans l’extraction d’informations et l’exploration de texte, le WSD est nécessaire pour l’analyse précise du texte dans de nombreuses applications. Par exemple, un système de collecte d’informations pourrait avoir besoin de signaler des références, par exemple, à des drogues illégales, plutôt qu’à des médicaments. La recherche bioinformatique exige que les relations entre les gènes et les produits géniques soient cataloguées à partir de la vaste littérature scientifique; cependant, les gènes et leurs protéines portent souvent le même nom. Plus généralement, le SemanticWeb nécessite une annotation automatique des documents selon une ontologie de référence. Le WSD commence seulement à être appliqué dans ces domaines.
Méthodes
Il existe quatre approches conventionnelles du WSD:
- Méthodes basées sur les dictionnaires et les connaissances: Celles-ci reposent principalement sur des dictionnaires, des thésaurus et des bases de connaissances lexicales, sans utiliser de preuves de corpus.
- Méthodes supervisées: Celles-ci utilisent des corpus annotés de sens pour s’entraîner.
- Méthodes semi-supervisées ou minimalement supervisées: Celles-ci utilisent une source secondaire de connaissances telle qu’un petit corpus annoté comme données de départ dans un processus d’amorçage, ou un corpus bilingue aligné sur les mots.
- Méthodes non supervisées: Ceux-ci évitent (presque) complètement les informations externes et fonctionnent directement à partir de corpus bruts non notés. Ces méthodes sont également connues sous le nom de discrimination du sens des mots.
Méthodes basées sur le dictionnaire et la connaissance
La méthode Lesk (Lesk 1986) est la méthode fondamentale basée sur le dictionnaire. Il est basé sur l’hypothèse que les mots utilisés ensemble dans le texte sont liés les uns aux autres et que la relation peut être observée dans les définitions des mots et de leurs sens. Deux mots (ou plus) sont dissociés en trouvant la paire de sens du dictionnaire avec le plus grand chevauchement de mots dans leurs définitions de dictionnaire. Par exemple, lors de la désambiguïsation des mots danscoin de pin, les définitions des sens appropriés incluent à la fois les mots verger et arbre (au moins dans un dictionnaire).
Une alternative à l’utilisation des définitions consiste à considérer la parenté généralemot-sens et à calculer la similitude sémantique de chaque paire de sens de mot sur la base d’une base de connaissances lexicales donnée telle Quewordnet. Des méthodes basées sur des graphiques qui rappellent la recherche sur la propagation-activation des premiers jours de la recherche sur l’IA ont été appliquées avec un certain succès.
L’utilisation de préférences sélectives (ou de restrictions sélectives) est également utile. Par exemple, sachant que l’on cuisine généralement des aliments, on peut désambiguer le mot basse dans I am cooking bass (c’est-à-dire que ce n’est pas un instrument de musique).
Méthodes supervisées
Les méthodes supervisées sont basées sur l’hypothèse que le contexte peut fournir suffisamment de preuves à lui seul pour désambiguer les mots (par conséquent, la connaissance du monde et le raisonnement sont jugés inutiles). L’algorithme d’apprentissage everymachine a probablement été appliqué au WSD, y compris des techniques associées telles que la sélection de fonctionnalités, la paramétéroptimisation et l’apprentissage d’ensemble. Les machines vectorielles de support et l’apprentissage basé sur la mémoire se sont avérés être les approches les plus réussies à ce jour, probablement parce qu’elles peuvent faire face à la haute dimensionnalité de l’espace des entités. Cependant, cesméthodes supervisées sont sujettes à un nouveau goulot d’étranglement pour l’acquisition des connaissances, car elles s’appuient sur des quantités substantielles de corpus étiquetés manuellement pour la formation, qui sont laborieux et coûteux à créer.
Méthodes semi-supervisées
L’approche d’amorçage part d’une petite quantité de données de départ pour chaque mot: soit des exemples d’entraînement étiquetés manuellement, soit un petit nombre de règles de décision infaillibles (par exemple, le jeu dans le contexte de la basse indique presque toujours l’instrument de musique). Les graines sont utilisées pourtrainer un classificateur initial, en utilisant n’importe quelle méthode supervisée. Ce classificateur est ensuite utilisé sur la partie non étiquetée du corpus pour extraire un ensemble de formation plus vaste, dans lequel seules les classifications les plus confidentielles sont incluses. Le processus se répète, chaque nouveau classificateur étant entraîné sur un corpus d’apprentissage successivement plus grand, jusqu’à ce que le corpus entier soit consommé, ou jusqu’à ce qu’un nombre maximal d’itérations donné soit atteint.
D’autres techniques semi-supervisées utilisent de grandes quantités de corpora non aggées pour fournir des informations de cooccurrence qui complètent les corpus marqués. Ces techniques ont le potentiel d’aider à l’adaptation des modèles supervisés à différents domaines.
De plus, un mot ambigu dans une langue est souvent traduit en différents mots dans une deuxième langue en fonction du sens du mot. Des corpus bilingues alignés sur des mots ont été utilisés pour déduire des distinctions de sens entre langues, une sorte de système semi-supervisé.
Méthodes non supervisées
L’apprentissage non supervisé est le plus grand défi pour les chercheurs en WSDR. L’hypothèse sous-jacente est que des sens similaires se produisent dans des contextes similaires, et donc les sens peuvent être induits à partir du texte en combinant des occurrences de mots en utilisant une certaine mesure de similitude de texte. Ensuite, les nouvelles occurrences du mot peuvent être classées dans les plus proches induitsgrappes / sens. Les performances ont été inférieures à celles des autres méthodes ci-dessus, mais les comparaisons sont difficiles car les sens induits doivent être mappés à un dictionnaire connu des sens des mots. Alternativement, si un mappage à un ensemble de sens de dictionnaire n’est pas souhaité, des évaluations basées sur des clusters (y compris des mesures d’entropie et de pureté) peuvent être effectuées. Il semble que l’apprentissage non supervisé permettra de surmonter le goulot d’étranglement de l’acquisition de connaissances, car ils ne dépendent pas de l’effort manuel.
Évaluation
L’évaluation des systèmes WSD nécessite un corpus test annoté à la main avec les sens cibles ou corrects, et suppose qu’un tel corpus peut être construit. Deux principales mesures de performance sont utilisées:
- Précision : la fraction des affectations de système effectuées qui sont correctes
- Rappel: la fraction du nombre total d’instances de mots correctement assignées par un système
Si un système effectue une affectation pour chaque mot, la précision et l’appel sont les mêmes et peuvent être appelés précision. Ce modèle a été étendu pour prendre en compte les systèmes qui renvoient un ensemble de sens avec des poids pour chaque événement.
Il existe deux types de corpus de tests:
- Exemple lexical: les occurrences d’un petit échantillon de mots cibles doivent être désambiguées, et
- All-words: tous les mots d’un texte en cours d’exécution doivent être désambigués.
Cette dernière est considérée comme une forme d’évaluation plus réaliste, mais le corpus est plus coûteux à produire car les annotateurs humains doivent lire les définitions de chaque mot de la séquence à chaque fois qu’ils doivent faire un jugement de marquage, plutôt qu’une fois pour un bloc d’instances pour le même mot cible. Afin de définir des ensembles de données et des procédures communes d’évaluation, des campagnes d’évaluation publiques ont été organisées. Senseval a été exécuté trois fois : Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) et son successeur, SemEval (2007), une fois.
Pourquoi le WSD est-il difficile?
Cet article traite de la caractérisation commune et traditionnelle de WSD comme un processus de désambiguïsation explicite et distinct par rapport à un inventaire fixe des sens des mots. Les mots sont généralement supposés avoir un ensemble fini et discret de sens, une simplification grossière de la complexité du sens des mots, telle qu’étudiée en sémantique lexicale.Bien que cette caractérisation ait été fructueuse pour la recherche sur le WSD en soi, elle est quelque peu en contradiction avec ce qui semble être nécessaire dans les applications réelles, comme discuté ci-dessus.
WSD est difficile pour de nombreuses raisons, dont trois sont discutées ici.
Un inventaire de sens ne peut pas être indépendant de la tâche
Un inventaire de sens indépendant de la tâche n’est pas un concept cohérent: chaque tâche nécessite sa propre division du sens des mots en sens pertinents pour la tâche. Par exemple, l’ambiguïté de la souris (animal ou dispositif) n’est pas pertinente dans la traduction automatique anglais-français, mais est pertinente dans la recherche d’informations. L’inverse de la rivière, qui nécessite un choix en français (fleuve « se jette dans la mer », ou rivière « se jette dans une rivière »).
Différents algorithmes pour différentes applications
Des algorithmes complètement différents peuvent être requis par différentes applications. En traduction automatique, le problème prend la forme deélection de mot cible. Ici, les « sens » sont des mots dans la langue cible, qui correspondent souvent à des distinctions de sens significatives dans la langue source (bank pourrait se traduire par banque française « banque financière » ou rive « bord de rivière »). Dans informationretrieval, un inventaire des sens n’est pas nécessairement nécessaire, car il suffit de savoir qu’un mot est utilisé dans le même sens dans la requête et un document récupéré; quel sens c’est, n’a pas d’importance.
La signification des mots ne se divise pas en sens discrets
Enfin, la notion même de « sens des mots » est glissante et controversée. La plupart des gens peuvent être d’accord sur les distinctions au niveau de l’homographe à gros grains (par exemple, un stylo comme instrument d’écriture ou un boîtier), mais descendre d’un niveau à une polysémie à grain fin, et des désaccords surgissent. Par exemple, dans Senseval-2, qui utilisait des distinctions de sens à grain fin, les notateurs humains n’étaient d’accord que dans 85% des occurrences de mots. La signification des mots est en principe infiniment variable et sensible au contexte. Il ne se divise pas facilement en sous-significations distinctes ou discrètes.Les lexicographes découvrent fréquemment dans les corpus des significations de mots lâches et se chevauchant, et des significations standard ou conventionnelles étendues, modulées et exploitées de manière déroutante. L’art de la lexicographie consiste à généraliser du corpus aux définitions quiévoquent et expliquent toute la gamme de sens d’un mot, en donnant l’impression que les mots sont bien comportés sémantiquement. Cependant, il n’est pas du tout clair si ces mêmes distinctions de sens sont applicables dans des applications de comptabilité, car les décisions des lexicographes sont généralement motivées par d’autres considérations.
Lecture suggérée
- Bar-Hillel, Yehoshua. 1964. Langue et informations. Il s’agit de l’un des plus grands personnages de la série.
- Edmonds, Philip & Adam Kilgarriff. 2002. Introduction au numéro spécial sur l’évaluation des systèmes de désambiguïsation du sens des mots. Journal of Natural Language Engineering, 8 (4): 279-291.
- Id, Nancy & Jean Véronis. 1998. désambiguïsation du sens des mots: L’état de l’art. Linguistique computationnelle, 24(1): 1-40.
- J.-C., Daniel & James H. Martin. 2000. Traitement de la parole et du langage. New Jersey, États-Unis: Prentice Hall.
- Lesk, Michael. 1986. Désambiguïsation automatique à l’aide de dictionnaires lisibles par machine: Comment distinguer une pomme de pin d’un cornet de crème glacée. Actes de SIGDOC-86: 5e Conférence Internationale sur la Documentation des Systèmes, Toronto, Canada, 24-26.
- Mihalcea, Rada. 2007. désambiguïsation du sens des mots. Encyclopédie de l’apprentissage Automatique. La version de Springer.
- Schütze, Hinrich. 1998. Discrimination automatique du sens des mots. Linguistique computationnelle, 24 (1): 97-123.
- Yarowsky, David. 1995. désambiguïsation du sens des mots non supervisée rivalisant avec les méthodes supervisées. Actes de la 33e Réunion annuelle de l’Association de Linguistique Computationnelle, 189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps
Références internes
- Tomasz Downarowicz (2007) Entropie. Scholarpedia, 2 (11): 3901.
- Mark Aronoff (2007) Langue. Scholarpedia, 2 (5): 3175.
- Site web Senseval
- Site web SemEval
- Tutoriel WSD
Voir aussi
Linguistique, Traitement du langage naturel
Parrainé par: Prof. Ke CHEN, École d’informatique, Université de Manchester, Royaume-Uni
Évalué par: Anonyme
Évalué par: Anonyme
Évalué par: Dr. Rada Mihalcea, Université du Nord du Texas
Accepté le: 2008-05-23 17:13:44 GMT