Kurator: Eneko Agirre
Eugene M. Izhikevich
Ke CHEN
Philip Edmonds
In der Verarbeitung natürlicher Sprache ist die Wortsinn-Begriffsklärung (WSD) das Problem, zu bestimmen, welcher „Sinn“ (Bedeutung) eines Wortes durch die Verwendung des Wortes in einem bestimmten Kontext aktiviert wird. WSD ist ein natürliches Klassifizierungsproblem: Wenn ein Wort und seine möglichen Sinne, wie in einem Wörterbuch definiert, ein Vorkommen des Wortes im Kontext in eine oder mehrere seiner Sinnesklassen klassifizieren. Die Merkmale des Kontexts (z. B. benachbarte Wörter)liefern den Beweis für die Klassifizierung.
Ein berühmtes Beispiel ist die Bestimmung des Federsinns in der folgenden Passage (Bar-Hillel 1960):
Little John suchte nach seiner Spielzeugkiste. Endlich fand er es. Die Box war im Stift. John war sehr glücklich.
WordNet listet fünf Sinne für das Wort Stift auf:
- Stift – ein Schreibgerät mit einem Punkt, von dem Tinte fließt.
- pen — ein Gehege zur Begrenzung von Vieh.
- Laufstall, Stift – ein tragbares Gehäuse, in dem Babys spielen können.
- penitentiary, pen – eine Justizvollzugsanstalt für Personen, die wegen schwerer Verbrechen verurteilt wurden.
- Feder – weiblicher Schwan.
Die Forschung ist stetig so weit fortgeschritten, dass WSD-Systeme konsistente Genauigkeitsniveaus für eine Vielzahl von Worttypen und Mehrdeutigkeiten erreichen. Eine reiche Vielfalt von Techniken wurde erforscht, von wörterbuchbasierten Methoden, die das in lexikalischen Ressourcen kodierte Wissen verwenden, über überwachte maschinelle Lernmethoden, bei denen ein Klassifikator für jedes unterscheidbare Wort auf einem Korpus manuell mit Sinn kommentierter Beispiele trainiert wird, bis hin zu völlig unbeaufsichtigten Methoden, die Vorkommen von Wörtern clustern und dadurch Wortsinn induzieren. Unter diesen sind überwachte Lernansätze die bisher erfolgreichsten Algorithmen.
Die aktuelle Genauigkeit ist ohne eine Vielzahl von Einschränkungen schwer zu bestimmen. Auf Englisch liegt die Genauigkeit auf der grobkörnigen Ebene (Homograph) routinemäßig über 90%, wobei einige Methoden auf bestimmten Homographen über 96% erreichen. Bei feinkörnigeren Sinnesunterscheidungen wurden in jüngsten Bewertungsübungen (SemEval-2007, Senseval-2) Spitzengenauigkeiten von 59,1% bis 69,0% gemeldet, wobei die Grundgenauigkeit des einfachsten möglichen Algorithmus, immer den häufigsten Sinn zu wählen, 51,4% bzw. 57% betrug.
- Inhalt
- Geschichte
- Anwendungen
- Der Nutzen von WSD
- Maschinelle Übersetzung
- Information Retrieval
- Informationsextraktion und Wissenserwerb
- Methoden
- Wörterbuch- und wissensbasierte Methoden
- Überwachte Methoden
- Semi-überwachte Methoden
- Unüberwachte Methoden
- Evaluation
- Warum ist WSD schwer?
- Ein Sinnesinventar kann nicht aufgabenunabhängig sein
- Verschiedene algorithmen für verschiedene anwendungen
- Wortbedeutung teilt sich nicht in diskrete Sinne auf
- Siehe auch
Inhalt
- 1 Geschichte
- 2 Anwendungen
- 2.1 Der Nutzen von WSD
- 2.2 Maschinelle Übersetzung
- 2.3 Information Retrieval
- 2.4 Informationsextraktion und Wissenserwerb
- 3 Methoden
- 3.1 Wörterbuch- und wissensbasierte Methoden
- 3.2 Überwachte Methoden
- 3.3 Semi-überwachte Methoden
- 3.4 Unüberwachte Methoden
- 4 Evaluation
- 5 Warum ist WSD schwer?
- 5.1 Ein Sinnesinventar kann nicht aufgabenunabhängig sein
- 5.2 Verschiedene Algorithmen für verschiedene Anwendungen
- 5.3 Wortbedeutung teilt sich nicht in diskrete Sinne auf
- 6 Referenzen
- 7 Externe Links
- 8 Siehe auch
Geschichte
WSD wurde erstmals in den frühen Tagen der maschinellen Übersetzung in den 1940er Jahren als eigenständige Rechenaufgabe formuliert und ist damit eines der ältesten Probleme in der Computerlinguistik. Warren Weaver stellte das Problem in seinem berühmten Memorandum on Translation von 1949 erstmals in einem rechnerischen Kontext vor. Frühe Forscherdie Bedeutung und Schwierigkeit von WSD gut verstanden. In der Tat verwendete Bar-Hillel (1960) das obige Beispiel, um zu argumentieren, dass WSD nicht durch „elektronischen Computer“ gelöst werden könne, weildie Notwendigkeit im Allgemeinen, alles Weltwissen zu modellieren.
In den 1970er Jahren war WSD eine Teilaufgabe von semantischen Interpretationssystemen, die im Bereich der künstlichen Intelligenz entwickelt wurden, aber da WSD-Systeme weitgehend regelbasiert und handcodiert waren, waren sie anfällig für einen Engpass beim Wissenserwerb.
In den 1980er Jahren wurden umfangreiche lexikalische Ressourcen wie das Oxford Advanced Learner’s Dictionary of Current English (OALD) verfügbar: Handcodierung wurde durch Wissen ersetzt, das automatisch aus diesen Ressourcen extrahiert wurde, aber die Begriffsklärung war immer noch wissensbasiert oder wörterbuchbasiert.
In den 1990er Jahren fegte die statistische Revolution durch die Computerlinguistik, und WSD wurde zu einem Paradigmenproblem, um überwachte maschinelle Lerntechniken anzuwenden.
In den 2000er Jahren erreichten überwachte Techniken ein Plateau in der Genauigkeit, und so hat sich die Aufmerksamkeit auf gröbere Sinne, Domainadaptation, halbüberwachte und unüberwachte korpusbasierte Systeme, Kombinationen verschiedener Methoden und die Rückkehr wissensbasierter Systeme verlagert über graphenbasierte Methoden. Dennoch fahren überwachte Systeme fortperform am besten.
Anwendungen
Maschinelle Übersetzung ist die ursprüngliche und offensichtlichste Anwendung von WSD, aber WSD wurde tatsächlich in fast jeder Anwendung der Sprachtechnologie berücksichtigt, einschließlich Information Retrieval, Lexikographie, Wissensgewinnung / -erwerb und semantischer Interpretation, und wird in neuen Forschungsbereichen wie der Bioinformatik und dem Semantic Web immer wichtiger.
Der Nutzen von WSD
Es besteht kein Zweifel, dass die oben genannten Anwendungen eine Begriffsklärung erfordern und verwendenin der einen oder anderen Form. Es hat sich jedoch noch nicht gezeigt, dass WSD als separates Modul in irgendeiner Anwendung einen entscheidenden Unterschied macht. Es gibt einige neuere Ergebnisse, die kleine positive Effekte z. B. in der maschinellen Übersetzung zeigen, aber es wurde auch gezeigt, dass WSD die Leistung beeinträchtigt, wie dies bei bekannten Experimenten im Bereich Information Retrieval der Fall ist.
Dafür gibt es mehrere mögliche Gründe. Erstens schränkt die Domäne einer Anwendung oft die Anzahl der Sinne ein, die ein Wort haben kann (z., man würde nicht erwarten, die ‚Flussseite‘ Sinn der Bank in einer finanziellen Anwendung zu sehen), und so Lexika können und havebeen entsprechend konstruiert. Zweitens ist die WSD möglicherweise noch nicht genau genug, um eine Wirkung zu zeigen, und außerdem stimmt das verwendete Sinnesinventar wahrscheinlich nicht mit den spezifischen Sinnesunterschieden überein, die von der Anwendung verlangt werden. Drittens kann die Behandlung von WSD als separate Komponente oder Modul fehlgeleitet sein, da es möglicherweise als impliziter Prozess enger integriert werden muss (dh als gegenseitige Begriffsklärung, unten).
Maschinelle Übersetzung
WSD ist für die lexikalische Auswahl in MT für Wörter mit unterschiedlichen Übersetzungen für verschiedene Sinne erforderlich. In einem englisch-französischen Finanznachrichtenübersetzer könnte beispielsweise das englische Substantiv change entweder in changement (‚Transformation‘) oder monnaie (‚Taschengeld‘) übersetzt werden. Die meisten Übersetzungssysteme verwenden jedoch kein separates WSDmodule. Das Lexikon wird oft für einen bestimmten Bereich vor-disambiguiert,oder handgefertigte Regeln werden entwickelt, oder WSD wird in ein statistisches Übersetzungsmodell gefaltet, wo Wörter innerhalb von Phrasen übersetzt werden, die dadurch Kontext liefern.
Information Retrieval
Mehrdeutigkeit muss in einigen Abfragen behoben werden. Sollte das System beispielsweise angesichts des Begriffs „Depression“ Dokumente über Krankheiten, Wettersysteme oder Wirtschaft zurückgeben? Aktuelle IR-Systeme (wie Websuchmaschinen), wie MT, verwenden kein WSD-Modul; sie verlassen sich darauf, dass der Benutzer genügend Kontext in die Abfrage eingibt, um nur Dokumente abzurufen, die für den beabsichtigten Sinn relevant sind (z. B. „tropische Depression“). In einem Prozess, der als gegenseitige Begriffsklärung bezeichnet wird und an die Lesk-Methode erinnert (unten), werden alle mehrdeutigen Wörter aufgrund der beabsichtigten Sinne, die im selben Dokument gleichzeitig vorkommen, Begriffsklärung.
Informationsextraktion und Wissenserwerb
In der Informationsextraktion und im Text Mining wird WSD für die genaue Analyse von Text in vielen Anwendungen benötigt. Zum Beispiel muss ein Spionage-Sammelsystem möglicherweise Verweise auf beispielsweise illegale Drogen und nicht auf Medikamente kennzeichnen. Die Bioinformatikforschung erfordert, dass die Beziehungen zwischen Genen und Genprodukten aus der umfangreichen wissenschaftlichen Literatur katalogisiert werden; Gene und ihre Proteine haben jedoch häufig denselben Namen. Allgemeiner erfordert das SemanticWeb die automatische Annotation von Dokumenten gemäß einer Referenzontologie. WSD fängt erst an, in diesen angewendet zu werdenBereiche.
Methoden
Es gibt vier konventionelle Ansätze für WSD:
- Wörterbuch- und wissensbasierte Methoden: Diese basieren hauptsächlich auf Wörterbüchern, Thesauri und lexikalischen Wissensdatenbanken, ohne Korpusnachweise zu verwenden.
- Überwachte Methoden: Diese verwenden mit Sinn kommentierte Korpora zum Trainieren.
- Semi-überwachte oder minimal überwachte Methoden: Diese nutzen eine sekundäre Wissensquelle wie ein kleines kommentiertes Korpus als Startdaten in einem Bootstrapping-Prozess oder ein wortorientiertes zweisprachiges Korpus.
- Unbeaufsichtigte Methoden: Diese meiden (fast) vollständig externe Informationen und arbeiten direkt aus rohen, nicht notierten Korpora. Diese Methoden sind auch unter dem Namen Word Sense Discrimination bekannt.
Wörterbuch- und wissensbasierte Methoden
Die Lesk-Methode (Lesk 1986) ist die wegweisende Wörterbuch-basierte Methode. Es basiert auf der Hypothese, dass Wörter, die zusammen im Text verwendet werden, miteinander verwandt sind und dass die Beziehung in den Definitionen der Wörter und ihrer Sinne beobachtet werden kann. Zwei (oder mehr) Wörter aredisambiguated, indem sie das Paar Wörterbuchsinne mit thegreatest Wortüberlappung in ihren Wörterbuchdefinitionen finden. Wenn Sie beispielsweise die Wörter inpine cone disambiguieren, enthalten die Definitionen der entsprechenden Sinne sowohl die wörtervergreen als auch tree (mindestens in einem Wörterbuch).
Eine Alternative zur Verwendung der Definitionen besteht darin, die allgemeine Wort-Sinn-Verwandtschaft zu berücksichtigen und die semantische Ähnlichkeit jedes Wort-Sinn-Paares basierend auf einer gegebenen lexikalischen Wissensbasis wie WordNet zu berechnen. Graph-basierte Methoden, die an die Spreading-Activation-Forschung der frühen Tage der KI-Forschung erinnern, wurden mit Erfolg angewendet.
Die Verwendung von Selektionseinstellungen (oder Selektionseinschränkungen) ist ebenfalls nützlich. Wenn man zum Beispiel weiß, dass man normalerweise Essen kocht, kann man das Wort Bass in Ich koche Bass (dh es ist kein Musikinstrument) disambiguieren.
Überwachte Methoden
Überwachte Methoden basieren auf der Annahme, dass der Kontext allein genügend Beweise liefern kann, um Wörter zu disambiguieren (daher werden Weltwissen und Argumentation als unnötig erachtet). Wahrscheinlich wurde jeder Algorithmus für maschinelles Lernen auf WSD angewendet, einschließlich assoziierter Techniken wie Feature-Auswahl, Parameteroptimierung und Ensemble-Lernen. Unterstützungsvektormaschinen und speicherbasiertes Lernen haben sich bisher als die erfolgreichsten Ansätze erwiesen, wahrscheinlich weil sie die hohe Dimensionalität des Merkmalsraums bewältigen können. Diese überwachten Methoden unterliegen jedoch einem Engpass beim Erwerb neuen Wissens, da sie für die Ausbildung auf erhebliche Mengen manuell mit Sinn markierter Korpora angewiesen sind, deren Erstellung mühsam und teuer ist.
Semi-überwachte Methoden
Der Bootstrapping-Ansatz geht von einer kleinen Menge Seed-Daten für jedes Wort aus: entweder manuell markierte Trainingsbeispiele oder eine kleine Anzahl todsicherer Entscheidungsregeln (z. B. zeigt das Spielen im Kontext von Bass fast immer das Musikinstrument an). Die Samen werden dazu verwendettrainieren Sie einen anfänglichen Klassifikator mit einer beliebigen überwachten Methode. Thisclassifier wird dann für den nicht markierten Teil des Korpus verwendet, um einen größeren Trainingssatz zu extrahieren, in dem nur die vertraulichsten Klassifikationen enthalten sind. Der Prozess wiederholt sich, wobei jeder neue Klassifikator auf einem sukzessiv größeren Trainingskorpus trainiert wird, bis der gesamte Korpus verbraucht ist oder bis eine bestimmte maximale Anzahl von Iterationen erreicht ist.
Andere semi-überwachte Techniken verwenden große Mengen an nicht markierten Korpora, um Informationen über das gleichzeitige Auftreten bereitzustellen, die die markierten Korpora ergänzen. Diese Techniken haben das Potenzial, bei der Anpassung überwachter Modelle an verschiedene Domänen zu helfen.
Außerdem wird ein mehrdeutiges Wort in einer Sprache oft in verschiedene Wörter in einer zweiten Sprache übersetzt, abhängig vom Sinn des Wortes. Wortausgerichtete zweisprachige Korpora wurden verwendet, um zu folgernübersprachliche Sinnesunterscheidungen, eine Art halbüberwachtes System.
Unüberwachte Methoden
Unüberwachtes Lernen ist die größte Herausforderung für WSD-Forscher. Die zugrunde liegende Annahme ist, dass ähnliche Sinne in ähnlichen Kontexten auftreten, und somit können Sinne aus Text durch Clustering-Wortvorkommen induziert werden, wobei ein gewisses Maß an Ähnlichkeit des Kontexts verwendet wird. Dann können neue Vorkommen des Wortes in die nächsten induzierten Cluster / Sinne klassifiziert werden. Die Leistung war niedriger als bei anderen oben genannten Methoden, aber Vergleiche sind schwierig, da die induzierten Sinne einem bekannten Wörterbuch der Wortsinne zugeordnet werden müssen. Alternativ können clusterbasierte Auswertungen (einschließlich Entropie- und Reinheitsmessungen) durchgeführt werden, wenn eine Zuordnung zu einem Satz von Wörterbuchsensoren nicht gewünscht ist. Es wird erwartet, dass unbeaufsichtigtes Lernen den Engpass beim Wissenserwerb überwindet, da es nicht von manueller Anstrengung abhängig ist.
Evaluation
Die Evaluation von WSD-Systemen erfordert einen Testkorpus, der von Hand mit den Ziel- oder korrekten Sinnen annotiert wird, und setzt voraus, dass ein solcher Korpus konstruiert werden kann. Es werden zwei Hauptleistungskennzahlen verwendet:
- Genauigkeit: Der Anteil der Systemzuweisungen, die korrekt sind
- .: der Bruchteil der gesamten Wortinstanzen, die von einem System korrekt zugewiesen wurden
Wenn ein System für jedes Wort eine Zuweisung vornimmt, sind Präzision und Rückruf gleich und können als Genauigkeit bezeichnet werden. Dieses Modell wurde erweitert, um Systeme zu berücksichtigen, die für jedes Vorkommen eine Reihe von Sinnen mit Gewichten zurückgeben.
Es gibt zwei Arten von Testkorpora:
- Lexikalisches Beispiel: Das Vorkommen einer kleinen Stichprobe von Zielwörtern muss nicht eindeutig sein, und
- Alle Wörter: Alle Wörter in einem laufenden Text müssen nicht eindeutig sein.
Letzteres wird als realistischere Form der Bewertung angesehen, aber die Herstellung des Corpus ist teurer, da menschliche Annotatoren die Definitionen für jedes Wort in der Sequenz jedes Mal lesen müssen, wenn sie ein Tagging-Urteil fällen müssen, anstatt einmal für einen Block von Instanzen für dasselbe Zielwort. Um gemeinsame Bewertungsdatensätze und -verfahren zu definieren, wurden öffentliche Evaluierungskampagnen organisiert. Senseval wurde dreimal durchgeführt: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) und sein Nachfolger SemEval (2007) einmal.
Warum ist WSD schwer?
Dieser Artikel beschreibt die übliche und traditionelle Charakterisierung von WSD als expliziten und separaten Prozess der Disambiguierung in Bezug auf ein festes Inventar von Wortsinnen. Es wird typischerweise angenommen, dass Wörter eine endliche und diskrete Menge von Sinnen haben, eine grobe Vereinfachung der Komplexität der Wortbedeutung, wie sie in der lexikalischen Semantik untersucht wird.Während diese Charakterisierung für die Forschung an WSD an sich fruchtbar war, widerspricht sie etwas dem, was in realen Anwendungen benötigt zu werden scheint, wie oben diskutiert.
WSD ist aus vielen Gründen schwierig, von denen drei hier diskutiert werden.
Ein Sinnesinventar kann nicht aufgabenunabhängig sein
Ein aufgabenunabhängiges Sinnesinventar ist kein kohärentes Konzept: Jede Aufgabe erfordert eine eigene Aufteilung der Wortbedeutung in für die Aufgabe relevante Sinne. Zum Beispiel ist die Mehrdeutigkeit der Maus (Tier oder Gerät) in der englisch-französischen maschinellen Übersetzung nicht relevant, aber in der Informationsabfrage relevant. Das Gegenteil istrue des Flusses, der eine Wahl auf Französisch erfordert (fleuve ‚fließt ins Meer‘ oder rivière ‚fließt in einen Fluss‘).
Verschiedene algorithmen für verschiedene anwendungen
Völlig verschiedene algorithmen könnte erforderlich sein durch differentapplications. In der maschinellen Übersetzung hat das Problem die Form vonzielwortauswahl. Hier sind die „Sinne“ Wörter in der Zielsprache, die oft signifikanten Bedeutungsunterschieden in der Ausgangssprache entsprechen (Bank könnte auf Französisch banque ‚financial bank‘ oder rive ‚edge of river‘ übersetzen). In informationretrieval ist ein Sinnesinventar nicht unbedingt erforderlich, da es ausreicht zu wissen, dass ein Wort in der Abfrage im gleichen Sinne verwendet wirdund ein abgerufenes Dokument; Welcher Sinn das ist, ist unwichtig.
Wortbedeutung teilt sich nicht in diskrete Sinne auf
Schließlich ist der Begriff „Wortsinn“ schlüpfrig und kontrovers. Die meisten Menschen können sich in Unterscheidungen auf der grobkörnigen Homographenebene (z. B. Stift als Schreibgerät oder Gehäuse) einigen, aber eine Ebene tiefer gehenfeinkörnige Polysemieund Meinungsverschiedenheiten entstehen. Zum Beispiel, in Senseval-2, die feinkörnige Sinnesunterscheidungen verwendet, stimmten humanannotators nur in 85% der Wortvorkommen zu. Wortbedeutung ist inPrinzip stufenlos variabel und kontextsensitiv. Es teilt sich nicht leicht in verschiedene oder diskrete Unterbedeutungen auf.Lexikographen entdecken häufig in Korpora lose und überlappende Wortbedeutungen, und Standard- oder konventionelle Bedeutungen erweitert,moduliert, und auf verwirrende Weise ausgenutzt. Die Kunst der Lexikographie besteht darin, vom Korpus auf Definitionen zu verallgemeinern, die das gesamte Bedeutungsspektrum eines Wortes hervorrufen und erklären, so dass es so aussieht, als würden sich Wörter semantisch gut verhalten. Es ist jedoch überhaupt nicht klar, ob dieselben Bedeutungsunterschiede anwendbar sindputationale Anwendungen, da die Entscheidungen von Lexikographen normalerweise von anderen Überlegungen bestimmt werden.
Empfohlene Lektüre
- Bar-Hillel, Yehoshua. 1964. Sprache und Information. New York: Addison-Wesley.
- Edmonds, Philip & Adam Kilgarriff. 2002. Einführung in die Sonderausgabe zur Bewertung von Wortsinn-Begriffsklärungssystemen. Zeitschrift für Natural Language Engineering, 8 (4): 279-291.
- Ide, Nancy & Jean Véronis. 1998. Wortsinn Begriffsklärung: Der Stand der Technik. Computerlinguistik, 24 (1): 1-40.
- Jurafsky, Daniel & James H. Martin. 2000. Sprach- und Sprachverarbeitung. New Jersey, USA: Prentice Hall.
- Lesk, Michael. 1986. Automatische Sinndisambiguierung mit maschinenlesbaren Wörterbüchern: Wie man einen Tannenzapfen von einer Eistüte unterscheidet. Proceedings of SIGDOC-86: 5. Internationale Konferenz über Systemdokumentation, Toronto, Kanada, 24-26.
- Mihalcea, Rada. 2007. Wort Sinn Begriffsklärung. Enzyklopädie des maschinellen Lernens. In: Springer-Verlag.
- Schütze, Hinrich. 1998. Automatische wort sinn diskriminierung. Computerlinguistik, 24 (1): 97-123.
- Yarowsky, David. 1995. Unbeaufsichtigt Wortsinn Begriffsklärung rivalisierenden überwachten Methoden. Proceedings der 33. Jahrestagung der Gesellschaft für Computerlinguistik, 189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps
Interne Referenzen
- Tomasz Downarowicz (2007) Entropie. Scholarpedia, 2(11): 3901.
- Mark Aronoff (2007) Sprache. Scholarpedia, 2(5): 3175.
- Senseval Webseite
- SemEval Webseite
- WSD Tutorial
Siehe auch
Linguistik,Natural Language Processing
Gesponsert von: Prof. Ke CHEN, School of Computer Science, The University of Manchester, U.K.
Bewertet von: Anonym
Bewertet von: Dr. Rada Mihalcea, University of North Texas
Akzeptiert am: 2008-05-23 17:13:44 GMT