学芸員:Eneko Agirre
ユージン-M-イジケビッチ
ケ-チェン
フィリップ-エドモンズ
自然言語処理において、単語の意味の曖昧さ回避(wsd)は、特定の文脈における単語の使用によって、単語のどの”意味”(意味)が活性化されるかを決定する問題であり、人々の中では無意識のように見えるプロセスである。 WSDは自然分類問題であり、辞書で定義されているように、単語とその可能な感覚が与えられた場合、文脈内の単語の出現をその感覚クラスの一つ以上に分類する。 文脈の特徴(隣接する単語など)は、分類の証拠を提供する。
有名な例は、次の通路(Bar-Hillel1960):
リトル-ジョンは彼のおもちゃ箱を探していました。 最後に彼はそれを見つけた。 箱はペンの中にあった。 ジョンはとても幸せだった。
WordNetは、単語ペンのための五感を一覧表示します:
- ペン—インクが流れる点を持つ書き込み実装。
- ペン—家畜を監禁するための囲い。
- プレイペン、ペン—赤ちゃんが遊ぶために残しておくことができるポータブル筐体。
- 刑務所、ペン—主要な犯罪で有罪判決を受けた人のための矯正施設。
- ペン—女性の白鳥。
研究は着実に進んでおり、WSDシステムはさまざまな単語の種類とあいまいさについて一貫したレベルの精度を達成しています。 語彙資源に符号化された知識を使用する辞書ベースの方法から、手動でセンス注釈された例のコーパス上の各識別語に対して分類子を訓練するsupervisedmachine学習方法、単語の出現をクラスター化する完全に教師なしの方法、単語の感覚を誘導する方法まで、豊富な技術が研究されている。 これらの中で、教師あり学習のアプローチは、これまでに最も成功したアルゴリズムとなっています。
現在の精度は、多くの警告がなければ述べるのが難しいです。 英語では、粗粒(ホモグラフ)レベルでの精度は日常的に90%を超えており、特定のホモグラフに関するいくつかの方法は96%以上を達成しています。 細かい感覚の区別については、最近の評価演習(SemEval-2007、Senseval-2)では59.1%から69.0%までのトップ精度が報告されており、常に最も頻繁な感覚を選択する最も簡単なアル
内容
- 1 歴史
- 2アプリケーション
- 2.1WSDの有用性
- 2.2機械翻訳
- 2.3情報検索
- 2.4情報抽出と知識獲得
- 3 メソッド
- 3.1辞書と知識ベースのメソッド
- 3.2教師付きメソッド
- 3.3半教師付きメソッド
- 3.4教師なしメソッド
- 4 評価
- 5なぜWSDは難しいのですか?
- 5.1センスインベントリはタスクに依存しないことはできません
- 5.2アプリケーションごとに異なるアルゴリズム
- 5.3単語の意味は離散的な感覚に分割されません
- 6 参考文献
- 7外部リンク
- 8関連項目
歴史
WSDは、1940年代の機械翻訳の初期の頃に別個の計算タスクとして最初に定式化され、計算言語学における最も難しい問題の一つとなった。 ウォーレン-ウィーバーは1949年の有名な翻訳に関する覚書の中で、この問題を計算的な文脈で最初に導入した。 初期の研究者WSDの重要性と難しさをよく理解しました。 実際、Bar-Hillel(1960)は上記の例を使用して、WSDはすべての世界の知識をモデル化する必要があるため、”電子計算機”では解決できないと主張しました。
1970年代、wsdはartificialintelligenceの分野で開発された意味解釈システムのサブタスクであったが、WSDシステムは主にルールベースで手作業でコーディングされていたため、知識獲得のボトルネックになりがちであった。
1980年代までに、Oxford Advanced Learner’s Dictionary of Current English(OALD)などの大規模な語彙資源が利用可能になった。: ハンドコーディングは、これらのリソースから自動的に抽出された知識に置き換えられましたが、曖昧さの解消はまだ知識ベースまたは辞書ベースでした。
1990年代には、統計革命が計算言語学を席巻し、wsdは教師あり機械学習技術を適用するパラダイムproblemonとなった。
2000年代には、監督された技術が正確さの高原に達するのを見たので、より粗い感覚、domainadaptation、半監督されたコーパスベースのシステム、異なる方法の組み合わせ、グラ それでも、監督システムは最高の形で継続しています。
アプリケーション
機械翻訳は、情報検索、辞書編集、知識マイニング/獲得、意味解釈など、言語技術のほぼすべてのアプリケーションで考慮されており、バイオインフォマティクスやセマンティックウェブなどの新しい研究分野でますます重要になっている。
WSDの有用性
上記のアプリケーションがある形式または別の形式で単語の意味の曖昧さの解消を必要とし、使用することは間違いありません。 しかし、別のモジュールとしてのWSDはまだ示されていませんどのアプリケーションにおいても決定的な違い。 最近では、機械翻訳などでわずかな肯定的な効果を示す結果がいくつかありますが、WSDは情報検索のよく知られている実験のように、パフォーマンスを損
これにはいくつかの理由が考えられます。 まず、アプリケーションのドメインは、多くの場合、単語が持っている感覚の数を制限します(例えば、”川辺”の意味を”川辺”とは考えていなかったので、”川辺”の意味を”川辺”とは考えていなかったのではないかと考えられている。 第二に、WSDは効果を示すのに十分な正確さではなく、さらに使用される感覚インベントリは、アプリケーションが必要とする特定の感覚の区別に一致するようにunlikelyである可能性がある。 第三に、WSDを別のコンポーネントまたはモジュールとして扱うことは、animplicitプロセスとして(すなわち、以下の相互曖昧さ回避として)より緊密に統合されなければならない可能性があるため、誤っている可能性がある。
機械翻訳
WSDは、異なる感覚のための異なる翻訳を持つ単語のmtにおける語彙選択に必要です。 たとえば、英語-フランス語の金融ニュース翻訳者では、英語の名詞changeはchangement(’transformation’)またはmonnaie(’pocketmoney’)のいずれかに翻訳できます。 ただし、ほとんどの翻訳システムでは、個別のWSDmoduleは使用されません。 辞書は、多くの場合、与えられたドメインのために事前に曖昧さ回避されている、または手作りのルールが考案されている、またはWSDはstatisticaltranslationモデルに折り畳まれ、単語は、それによって文脈を提供するフレーズ内で翻訳されています。
情報検索
あいまいさは、いくつかのクエリで解決する必要があります。 例えば、”うつ病”を考えると、病気や気象、経済に関する文書を返す必要がありますか? MTのような現在のIRシステム(Web searchenginesなど)は、WSDモジュールを使用しません; 彼らは、意図された意味(例えば、”熱帯うつ病”)に関連する文書のみを取得するために、クエリ内の十分なコンテキストをusertypingに依存しています。 Lesk法(以下)を連想させる相互曖昧さ回避と呼ばれるプロセスでは、すべてのあいまいな単語は、同じ文書内で共起する意図された意味のおかげで曖昧
情報抽出と知識獲得
情報抽出とテキストマイニングでは、多くのアプリケーションでテキストの正確な分析にWSDが必要です。 例えば、知的収集システムは、例えば、違法薬物ではなく、医薬品への参照にフラグを立てる必要があるかもしれません。 バイオインフォマティクス研究では、膨大な科学文献からカタログ化された遺伝子と遺伝子産物との関係が必要ですが、遺伝子とタンパク質は同じ名前を持つことがよくあります。 より一般的には、SemanticWebはareference ontologyに従って文書の自動注釈を必要とします。 WSDはこれらの分野でのみ適用され始めています。
メソッド
WSDには四つの従来のアプローチがあります:
- 辞書と知識ベースの方法:これらは、コーパスの証拠を使用せずに、主に辞書、thesauri、および語彙知識ベースに依存しています。
- 監督された方法:これらは、から訓練するために意味注釈付きコーパスを利用します。
- 半教師付きまたは最小教師付きの方法:これらは、ブートストラッププロセスのシードデータとしての小さな注釈付きコーパス、または単語整列バイリンガルコー
- 監督されていない方法: これらは(ほぼ)完全に外部情報を避け、未処理のコーパスから直接動作します。 これらの方法は、単語感覚識別の名の下でも知られています。
辞書ベースと知識ベースのメソッド
Leskメソッド(Lesk1986)は、精緻な辞書ベースのメソッドです。 それは、テキストで一緒に使用される単語が互いに関連しており、その関係が単語とその感覚の定義で観察できるという仮説に基づいています。 二つ(またはそれ以上)の単語は、辞書の定義の中で最も重複する単語を持つ辞書感覚のペアを見つけることによって曖昧さが解消されます。 例えば、”pine cone”という単語を曖昧にする場合、適切な意味の定義には、”severgreen”と”tree”という単語が含まれます(少なくとも一つの辞書には)。
定義の使用に代わるものは、一般的な単語感覚の関連性を考慮し、wordnetのような与えられた語彙知識ベースに基づいて単語感覚のeachpairの意味的類似性を計算す AI研究の初期の頃の拡散活性化研究を連想させるグラフベースの方法は、いくつかの成功を収めて適用されています。
選択的な設定(または選択的な制限)の使用も有用です。 例えば、一般的に食べ物を調理することを知っていると、私は低音を調理しています(つまり、楽器ではありません)の中の低音という言葉を曖昧にするこ
監督メソッド
監督メソッドは、文脈が単語を曖昧にするのに十分な証拠を提供できるという仮定に基づいています(したがって、世界知識と推論は不必要とみなされます)。 おそらく,特徴選択,パラメータ最適化,アンサンブル学習などの関連技術を含む,あらゆる機械学習アルゴリズムがWSDに適用されている。 サポートベクターマシンとメモリベースの学習は、おそらく特徴空間の高次元に対処できるため、これまでに最も成功したアプローチであることが示されて しかし、これらのsupervisedmethodsは、訓練のために手動でセンスタグ付けされたコーパスのかなりの量に依存しているため、新しい知識獲得のボトルネックの対象となり、作成するのは面倒で高価である。
半監督メソッド
ブートストラップアプローチは、手動でタグ付けされたトレーニング例または少数の確実な決定ルール(例えば、低音の文脈での演奏は、ほと 種子は、任意の教師付き方法を使用して、初期分類器を訓練する。 次に、この分類子をコーパスのタグが付けられていない部分で使用して、最も信頼できる分類のみが含まれるより大きな学習セットを抽出します。 このプロセスは、全体のコーパスが消費されるまで、または反復の最大数に達するまで、連続して大きなトレーニングコーパス上で訓練された新しいclassifierbeingごとに繰り
他の半監督技術は、タグ付けされていないコーポラを大量に使用して、タグ付けされたコーポラを補足する共起情報を提供します。 これらの技術は、教師ありモデルを異なるドメインに適応させる。
また、ある言語のあいまいな単語は、単語の意味に応じて第二言語の異なる単語に翻訳されることがよくあります。 単語整列バイリンガルコーパスは、半監督システムの一種であるクロスリンガル感覚の区別をinfercross-lingual sense distinctionに使用されてきました。
教師なしメソッド
教師なし学習はWSDresearchersにとって最大の課題です。 基本的な仮定は、類似した感覚が類似した文脈で発生するということであり、したがって、感覚は、文脈の類似性のいくつかの尺度を用いて単語の出現によってテキストから誘導される可能性がある。 次に、単語の新しい出現は、最も近い誘導されたクラスター/感覚に分類することができます。 性能は上記の他の方法よりも低かったが、誘導された感覚はaknown dictionary of word sensesにマッピングされなければならないため、比較は困難である。 また、辞書感覚のセットへのマッピングが望まれない場合は、クラスターベースの評価(エントロピーと純度の測定値を含む)を実行することができます。 教師なし学習は、manualeffortに依存しないため、knowledgeacquisitionボトルネックを克服することができます。
評価
WSDシステムの評価には、ターゲットまたは正しい感覚で手で注釈されたテストコーパスが必要であり、そのようなコーパスが構築できることを前提としています。 二つの主要な性能対策が使用されています:
- 精度:正しいシステム割り当ての割合
- Recall: システムによって正しく割り当てられた単語インスタンスの合計の割合
システムがすべての単語に割り当てを行う場合、精度と精度は同じであり、精度と呼ぶことができます。 このモデルは、発生ごとに重みを持つ一連の感覚を返すシステムを考慮に入れるように拡張されています。
テストコーパスには二つの種類があります:
- Lexical sample:ターゲット単語の小さなサンプルの出現は曖昧さを取り除く必要があり、
- All-words:実行中のテキスト内のすべての単語は曖昧さを取り除く必要があ
後者はより現実的な評価形式とみなされますが、人間のアノテータはシーケンス内の各単語の定義を毎回読む必要があるため、同じターゲット単語のブロックに対して一度ではなく、タグ付け判断を行う必要があるため、corpusは生成するのがより高価です。 共通評価データセットと手順を定義するために、公開評価キャンペーンが組織されています。 Sensevalは3回実行されています:Senseval-1(1998)、Senseval-2(2001)、Senseval-3(2004)、およびその後継であるSemEval(2007)は1回実行されています。
なぜWSDは難しいのですか?
この記事では、単語感覚の固定されたインベントリに関する曖昧さ回避の明示的かつ別個のプロセスとしてのwsdの一般的かつ伝統的な特徴付けにつ 単語は、通常、語彙意味論で研究されているように、単語の意味の複雑さのgrosssimplification、感覚の有限かつ離散的なセットを持っていると仮定されます。この特性評価はWSD自体の研究に有益でしたが、上記で説明したように、実際のアプリケーションで必要と思われるものとは多少対立しています。
WSDは多くの理由で困難です。
センスインベントリはタスクに依存しないことはできません
タスクに依存しないセンスインベントリは一貫した概念ではありません:各タスクは、タスクに関連するセンスインベントリに単語の意味を独自に分割する必要があります。 例えば、マウス(動物またはデバイス)のあいまいさは、英語-フランス語の機械翻訳には関係ありませんが、情報検索には関連しています。 反対側はフランス語で”川”を意味する(”fleuve”は”海に流れ込む”、”rivière”は”川に流れ込む”)。
アプリケーションごとに異なるアルゴリズム
アプリケーションごとに完全に異なるアルゴリズムが必要になる場合があります。 機械翻訳では、問題はターゲット単語選択。 ここで”感覚”はターゲット言語の単語であり、ソース言語の重要な意味の区別に対応することが多い(bankはフランス語のbanque’financial bank’またはrive’edge of river’に翻訳することができる)。 なぜなら、クエリと検索された文書で同じ意味で単語が使用されていることを知るのに十分であるからです。
単語の意味は離散的な感覚に分割されません
最後に、”単語の意味”の概念は滑りやすく、議論の余地があります。 ほとんどの人は、粗い同音異義語レベル(例えば、筆記具やエンクロージャとしてのペン)での区別に同意することができますが、細かい多義性に一レベ 例えば、細かい感覚の区別を使用したSenseval-2では、ヒューマノテーターは単語の出現の85%だけで合意しました。 単語の意味は、原則は無限に可変であり、文脈依存である。 それは明確なまたは離散的なサブ意味に簡単に分割しません。辞書編集者はしばしば、標準的または慣習的な意味が拡張され、変調され、混乱した様々な方法で悪用されることを発見する。 語彙の芸術は、コーパスから単語の意味の全範囲を説明し説明する定義に一般化し、単語が意味的にうまく動作しているように見えるようにすることです。 しかし、辞書編集者の決定は通常、他の考慮事項によって駆動されるため、これらの同じ意味の区別が適用可能であるかどうかは全く明らかではない。
- Bar-Hillel、Yehoshuaを読むことを提案しました。 1964. 言語と情報。 ニューヨーク:アディソン-ウェスリー。
- エドモンズ、フィリップ&アダムKilgarriff。 2002. 単語の意味の曖昧さ回避システムの評価に関する特別な問題の紹介。 自然言語工学のジャーナル、8(4):279-291。
- 井出,ナンシー&ジャン-ヴェロニス. 1998. 単語の意味の曖昧さ回避:芸術の状態。 計算言語学,24(1):1-40.
- Jurafsky,Daniel&James H.Martin. 2000. 音声および言語処理。 アメリカ合衆国ニュージャージー州:プレンティスホール。
- レスク、マイケル 1986. 機械可読辞書を使用した自動感覚の曖昧さ回避:アイスクリームコーンから松のコーンを伝える方法。 SIGDOC-86の議事録:システム文書に関する第5回国際会議、トロント、カナダ、24-26。
- ミハルチェアラダ 2007. 単語の意味の曖昧さ回避。 機械学習の百科事典。 シュプリンガー=ヴェルラグ
- シュッツェヒンリッヒ 1998. 自動単語の感覚の差別。 計算言語学、24(1):97-123。
- ヤロフスキー、デイビッド 1995. 教師なしの単語の意味の曖昧さ回避は、教師付きの方法に匹敵します。 計算言語学のための協会の第33回年次総会の議事,189-196.http://www.cs.jhu.edu/~yarowsky/acl95.ps
内部参照
- Tomasz Downarowicz(2007)エントロピー。 2(11):3901.
- マーク-アロノフ(Mark Aronoff、2007年-)は、アメリカ合衆国の俳優。 2(5):3175
- Semeval webサイト
- SemEval webサイト
- WSDチュートリアル
関連項目
言語学、自然言語処理
レビュー:匿名
レビュー:匿名
レビュー:匿名
レビュー:匿名
レビュー:匿名
レビュー:匿名:
受理日:2008-05-23 17:13:44GMT