단어 감각 모호성

게시 후 활동

큐레이터:에네코 아기레

참여자:

0.50 –

유진 엠 이지케 비치

0.25 –

애 첸

0.25 –

필립 에드먼즈

에 자연어 처리,단어 감각 모호성(중동어)는단어의 어떤”의미”(의미)가 사용에 의해 활성화되는지를 결정하는 문제특정 문맥에서의 단어,사람들에게 무의식 중에 나타나는 과정. 사전에서 정의한 바와 같이 단어와 그 가능한 감각이 주어지면 문맥에서 단어의 발생을 하나 이상의 감각 클래스로 분류합니다. 문맥의 특징(예:이웃 단어)은 분류에 대한 증거를 제공합니다.

유명한 예는 펜의 감각을 결정하는 것입니다.다음 통로(바 힐렐 1960):

리틀 존은 장난감 상자를 찾고 있었다. 마침내 그는 그것을 발견했다. 박스는 펜 안에 있었다. 존은 매우 행복했다.

워드넷은 워드펜에 대한 오감을 나열한다.:

펜-잉크가 흐르는 지점이있는 쓰기 구현입니다.
펜-가축을 가두기위한 인클로저.
놀이 틀,펜-아기가 놀 수 있도록 남겨 둘 수있는 휴대용 인클로저.
교도소,펜-주요 범죄로 유죄 판결을받은 사람들을위한 교정 기관.
펜-여성 백조.

연구는 여러 단어 유형과 모호성에 대해 일관된 수준의 정확성을 달성하는 지점까지 꾸준히 진행되어 왔습니다. 어휘 자원에 인코딩 된 지식을 사용하는 사전 기반 방법에서부터 수동 감각 주석이 달린 예제의 코퍼스에서 각 구별 단어에 대해 분류자가 훈련되는 감독 된 기계 학습 방법,단어의 발생을 클러스터링하는 완전히 감독되지 않은 방법,단어 감각을 유도하는 방법에 이르기까지 다양한 기술이 연구되었습니다. 이 중 감독 학습 접근 방식은 현재까지 가장 성공적인 알고리즘이었습니다.

현재 정확도는 여러 가지 주의 사항 없이 말하기 어렵습니다. 원영어,거친 입자(동형 그래프)수준의 정확도는 일상적으로 90%이상이며,특정 동형 그래프의 일부 방법은 96%이상을 달성합니다. 세밀한 감각 구별에서 59.1%에서 69.0%까지의 최고 정확도는최근 평가 연습(2007 년,2007 년,2007 년)에서보고되었으며,가장 빈번한 감각을 항상 선택하는 가장 간단한 알고리즘의 기본 정확도는 각각 51.4%와 57%였습니다.

주요 내용
역사
응용 분야
기계 번역
정보 검색
정보 추출 및 지식 습득
방법
사전 및 지식 기반 방법
감독 방법
반 감독 방법
감독되지 않은 방법
평가
감지 인벤토리는 작업 독립적 일 수 없음
다른 응용 프로그램에 대한 서로 다른 알고리즘
단어의 의미는 이산 감각으로 나누어지지 않는다
또한 참조

주요 내용

1 역사
2 응용 프로그램
- 2.1.2 기계 번역
- 2.3 정보 검색
- 2.4 정보 추출 및 지식 습득
3 방법
- 3.1 사전 및 지식 기반 방법
- 3.2 감독 방법
- 3.3 반 감독 방법
- 3.4 감독되지 않은 방법
4 평가
5
- 5.1 감지 인벤토리는 태스크와 무관할 수 없습니다
- 5.2 서로 다른 응용 프로그램에 대한 서로 다른 알고리즘
- 5.3 단어의 의미는 분리 된 감각으로 나뉘지 않습니다.
6 참고 문헌
7 외부 링크
8 참조

역사

1940 년대 기계 번역 초기 시절에 세계무역사학대학교는 별개의 계산 과제로 처음 공식화되었으며,이는 전산언어학에서 가장 큰 문제 중 하나였다. 워렌 위버,번역에 그의 유명한 1949 각서,먼저 계산 맥락에서 문제를 소개했다. 초기 연구자들우리 중상 모략의 중요성과 어려움을 잘 이해했습니다. 사실,바 힐렐(1960)는 위의 예를 사용하여”전자 컴퓨터”로 해결할 수 없다고 주장했습니다.일반적으로 모든 세계 지식을 모델링 할 필요가 있습니다.

1970 년대에는 인공지능 분야에서 개발된 의미론적 해석 시스템의 하위 과제였지만,그 이후로는 대부분 규칙 기반이고 손으로 코딩되어 지식 습득 병목 현상이 발생하기 쉬웠다.

1980 년대에는 옥스포드 고급 학습자의 현재 영어 사전(오알드)과 같은 대규모 어휘 리소스가 제공되었습니다.: 핸드 코딩은 자동으로 지식으로 대체되었습니다.이러한 리소스에서 추출되었지만 모호성은 여전히지식 기반 또는 사전 기반.

1990 년대에는 통계 혁명이 컴퓨터 언어학을 휩쓸었고,세계무역기구는 감독된 기계 학습 기술을 적용하는 패러다임 문제가 되었다.

2000 년대는 감독 기술이 정확성이 고원에 도달했기 때문에 관심이 더 거친 감각,도메인 적응,반 감독 및 감독되지 않은 코퍼스 기반 시스템,다양한 방법의 조합 및 그래프 기반 방법을 통한 지식 기반 시스템의 반환으로 이동했습니다. 그럼에도 불구하고 감독 된 시스템은최고를 형성하십시오.

응용 분야

기계 번역은 원래부터 가장 명백한 응용 분야이지만 정보 검색,사전 편찬,지식 채굴/획득 및 의미 해석 등 거의 모든 언어 기술 응용 분야에서 실제로 고려되어 왔으며,생물 정보학 및 시맨틱 웹과 같은 새로운 연구 분야에서 점점 더 중요 해지고 있습니다.

위의 응용 프로그램이 필요 하 고 한 형태 또는 다른에서 단어 감각 명확화를 사용 하 여 의심의 여지가 있다. 그러나,별도의 모듈로서 아직 어떤 응용 프로그램에서 결정적인 차이를 만들기 위해 표시되지 않았습니다. 예를 들어,기계 번역에서 작은 긍정적인 효과를 보여주는 몇 가지 최근의 결과가 있지만,정보 검색에서 잘 알려진 실험의 경우와 같이 세계무역기구도 성능을 저하시키는 것으로 나타났습니다.

이에 대한 몇 가지 가능한 이유가 있습니다. 첫째,응용 프로그램의 도메인은 종종 단어가 가질 수있는 감각의 수를 제한합니다(예:,하나는 금융 응용 프로그램에서 은행의’강 쪽’감각을 볼 것으로 예상하지 않을 것이다),그래서 어휘는 그에 따라 구성 할 수 있습니다. 또한 사용 된 감지 인벤토리는 응용 프로그램에 필요한 특정 감지 구분과 일치하지 않을 수 있습니다. 셋째로,세계무역기구단계를 별도의 구성 요소 또는 모듈로 취급하는 것은 애니 미트 프로세스(즉,아래의 상호 명확성)로 더 긴밀하게 통합되어야 할 수도 있기 때문에 잘못 인도 될 수 있습니다.

기계 번역

WSD 이 필요한 어휘에 대한 선택에서 MT 를 위한 단어가 있는 differenttranslations 다양한 감각입니다. 예를 들어,영어-프랑스어 금융 뉴스 번역기에서 영어 명사 변경은 변경(‘변환’)또는 모네(‘포켓 머니’)로 번역 될 수 있습니다. 그러나 대부분의 번역 시스템은 별도의 모듈을 사용하지 않습니다. 사전은 종종 주어진 도메인에 대한 사전 모호성,또는 손으로 만들어진 규칙이 고안,또는 단어함으로써 컨텍스트를 제공 문구 내에서 번역되는 통계적 번역 모델로 접혀있다.

정보 검색

일부 쿼리에서 모호성을 해결해야 합니다. 예를 들어,시스템이 질병,기상 시스템 또는 경제에 관한 문서를 반환해야 하는가? 현재 적외선 시스템(예:웹 검색 엔진)은 다음과 같습니다.; 그들은 의도 된 의미(예:”열대 우울증”)와 관련된 문서 만 검색 할 수있는 쿼리에 충분한 컨텍스트를 입력하는 사용자에 의존합니다. 이 과정에서 상호 모호성이라고 불리우며,레스크 방법(아래)을 연상케하며,모든 모호한 단어는 의도 된 센스가 동일한 문서에서 공동 발생한다는 점에서 모호합니다.

정보 추출 및 지식 습득

정보 추출 및 텍스트 마이닝에서는 많은 응용 프로그램에서 텍스트를 정확하게 분석하는 데 필요합니다. 예를 들어,정보 수집 시스템은 의료 약물이 아닌 불법 약물에 대한 참조를 표시해야 할 수도 있습니다. 생물 정보학연구는 유전자와 유전자 산물 사이의 관계를 광대 한 과학 문헌에서 분류 할 것을 요구한다;그러나 유전자와 그들의 단백질은 종종 같은 이름을 가지고 있습니다. 보다 일반적으로 의미웹은 에 따라 문서의 자동 주석이 필요합니다.참조 온톨로지. 세계무역기구는 이 분야에만 적용되기 시작했다.

방법

사전 및 지식 기반 방법:이들은 주로 사전,시소러스 및 어휘 지식 기반에 의존하며 코퍼스 증거를 사용하지 않습니다.

감독 된 방법:이들은 감각 주석이 달린 말뭉치를 사용하여 훈련합니다.

반 감독 또는 최소 감독 방법:이들은 부트 스트랩 프로세스의 시드 데이터 또는 단어 정렬 이중 언어 코퍼스와 같은 작은 주석이 달린 코퍼스와 같은 보조 지식 소스를 사용합니다.

감독되지 않은 방법: 이들은(거의)완전히 외부 정보를 피하고 원시 정보가없는 말뭉치에서 직접 작동합니다. 이러한 방법은 단어 감각 차별의 이름으로 알려져 있습니다.

사전 및 지식 기반 방법

레스크 방법(레스크 1986)은 정액 사전 기반 방법이다. 그것은 텍스트에서 함께 사용되는 단어가 서로 관련되어 있고 그 관계가 단어와 그 감각의 정의에서 관찰 될 수 있다는 가설에 근거합니다. 두 개(또는 그 이상)의 단어는 사전 정의에서 가장 큰 단어가 겹치는 사전 감각 쌍을 찾음으로써 모호합니다. 예를 들어,단어를 명확히 할 때소나무 원추형,적절한 감각의 정의는 모두 단어상록색과 나무(적어도 하나의 사전에 있음)를 포함합니다.

정의의 사용에 대한 대안은 일반 단어-감각 관련성을 고려하고 단어 감각과 같은 주어진 어휘 지식 기반에 기초하여 단어 감각의 각 쌍의 의미 론적 유사성을 계산하는 것이다. 확산 활성화를 연상시키는 그래프 기반 방법 인공 지능 연구 초기의 연구가 일부 성공으로 적용되었습니다.

선택 환경 설정(또는 선택 제한)의 사용도 유용합니다. 예를 들어,일반적으로 음식을 요리한다는 것을 알고,나는 저음을 요리하고 있습니다(즉,악기가 아닙니다).

감독 방법

감독 방법은 문맥이 단어를 모호하게 할 충분한 증거를 스스로 제공 할 수 있다는 가정에 기초한다(따라서 세계 지식과 추론은 불필요한 것으로 간주된다). 아마도 모든 기계 학습 알고리즘이 기능 선택,매개 변수 최적화 및 앙상블 학습과 같은 관련 기술을 포함하여 세계 표준 학습 알고리즘에 적용되었을 것입니다. 지원 벡터 기계 및 메모리 기반 학습은 기능 공간의 높은 차원에 대처할 수 있기 때문에 현재까지 가장 성공적인 접근 방식으로 나타났습니다. 그러나 이러한 감독 방법은 새로운 지식 습득 병목 현상이 발생할 수 있습니다.

반 감독 방법

부트스트래핑 접근법은 각 단어에 대한 소량의 시드 데이터로부터 시작한다:수동 태그가 지정된 훈련 예 또는 확실한 결정 규칙의 작은 숫자(예:베이스의 맥락에서 연주하는 것은 거의 항상 악기를 나타냄). 씨앗은감독 된 방법을 사용하여 초기 분류기를 훈련하십시오. 그런 다음 이 분류기는 가장 신뢰도가 높은 분류만 포함되는 더 큰 학습 집합을 추출하기 위해 모음의 태그가 지정되지 않은 부분에 사용됩니다. 전체 코퍼스가 소비 될 때까지 또는 주어진 최대 반복 횟수에 도달 할 때까지 연속적으로 더 큰 훈련 코퍼스에 대해 훈련 된 각각의 새로운 분류가 반복됩니다.

기타 반 감독 기술은 태그가 지정된 말뭉치를 보완하는 동시 발생 정보를 제공하기 위해 많은 양의 태그가 지정되지 않은 코포라를 사용합니다. 이러한 기술은 감독 된 모델을 다른 도메인에 적응시키는 데 도움이 될 가능성이 있습니다.

또한 한 언어의 모호한 단어는 단어의 의미에 따라 제 2 언어의 다른 단어로 번역되는 경우가 많습니다. 단어 정렬 이중 언어 말뭉치는 반 감독 시스템의 일종 인 언어 간 감각 구분을 추론하는 데 사용되었습니다.

감독되지 않은 방법

감독되지 않은 학습은 연구자들에게 가장 큰 도전 과제입니다. 근본적인 가정은 유사한 감각이 유사한 컨텍스트에서 발생하므로 텍스트의 유사성을 측정하여 텍스트 클러스터링 단어 발생에서 감각을 유도 할 수 있다는 것입니다. 그런 다음 단어의 새로운 발생을 가장 가까운 유도 클러스터/감각으로 분류 할 수 있습니다. 성능 위의,다른 방법 보다 낮은 되었습니다 하지만 비교 유도 감각 단어 감각의 알려진 사전에 매핑 해야 합니다 때문에 어렵습니다. 또는 사전 감각 집합에 대한 매핑이 필요하지 않은 경우 클러스터 기반 평가(엔트로피 및 순도 측정 포함)를 수행 할 수 있습니다. 감독되지 않은 학습은 설명서에 의존하지 않기 때문에 지식 획득 병목 현상을 극복 할 것입니다.

평가

의 평가 WSD 시스템 검사가 필요한 코퍼 손 annotatedwith 대상거나 올바른 감각과에서는 이러한 코퍼스할 수 있습니다. 두 가지 주요 성능 측정이 사용됩니다:

정밀도:올바른 시스템 할당의 비율
리콜: 시스템

에 의해 올바르게 할당 된 총 단어 인스턴스의 분수 시스템 모든 단어에 대 한 할당을 만드는 경우 다음 정밀도 및 다시 호출은 동일 하 고 정확도라고 할 수 있습니다. 이 모델은각 발생에 대한 가중치와 함께 일련의 감각을 반환하는 시스템을 고려하도록 확장되었습니다.

테스트 말뭉치에는 두 가지 종류가 있습니다:

어휘 샘플:대상 단어의 작은 샘플의 발생은 명확 해져야하고,
모든 단어:실행중인 텍스트의 모든 단어는 명확 해져야합니다.

후자는 보다 현실적인 형태의 평가로 간주되지만,인간 주석자가 동일한 대상 단어에 대한 한 블록의 인스턴스에 대해 한 번이 아니라 태그 지정 판단을 내릴 필요가 있을 때마다 시퀀스의 각 단어에 대한 정의를 읽을 수 있기 때문에 코르푸스는 생산하기에 더 비쌉니다. 공통 평가 데이터 세트 및 절차를 정의하기 위해 공개 평가 캠페인이 조직되었습니다. 센스베일은 센스베일-1(1998),센스베일-2(2001),센스베일-3(2004)및 그 후계자 인 셈베일(2007)의 세 번 실행되었습니다.

이 문서에서는 단어 감각의 고정된 인벤토리에 대 한 명확 하 고 별도 프로세스로의 공통 및 전통적인 특성을 설명 합니다. 단어 일반적으로 유한 하 고 개별 감각 집합,어휘 의미론에서 공부 하는 대로 단어 의미의 복잡성의 총체적인 단순화를 가정 합니다.이러한 특성화는 인류사회적 장애 그 자체에 대한 연구에서는 결실을 맺었지만,위에서 논의한 바와 같이 실제 응용 분야에서 필요한 것으로 보이는 것과는 다소 차이가 있다.

감지 인벤토리는 작업 독립적 일 수 없음

작업 독립적 감지 인벤토리는 일관된 개념이 아닙니다. 예를 들어,마우스(동물 또는 장치)의 모호성은 영어-프랑스어 기계에서는 관련이 없지만 정보 검색과 관련이 있습니다. 반대는 프랑스어로 선택이 필요한 강(플루 베’바다로 흘러 들어간다’또는 리비에르’강으로 흘러 들어간다’)입니다.

다른 응용 프로그램에 대한 서로 다른 알고리즘

다른 응용 프로그램에서 완전히 다른 알고리즘이 필요할 수 있습니다. 기계 번역에서 문제는 다음과 같은 형태를 취합니다.대상 단어 선택. 여기서”감각”은 목표 언어의 단어이며,종종 소스 언어에서 중요한 의미 구분에 해당합니다(은행은 프랑스어 방크’금융 은행’또는 리브’강 가장자리’로 번역 할 수 있음). 즉,어떤 의미인지 중요하지 않습니다.

단어의 의미는 이산 감각으로 나누어지지 않는다

마지막으로,”단어 감각”이라는 개념은 미끄럽고 논쟁의 여지가있다. 대부분의 사람들은 거친 동음 그래프 수준(예:필기구 또는 인클로저로서의 펜)에서 구별에 동의 할 수 있지만 한 단계 아래로 내려갑니다.미세한 다차원,그리고 불일치가 발생합니다. 예를 들어,센스발-2 에서세밀한 감각 구분을 사용하여 인간 노테이터는 단어 발생의 85%에서만 동의했습니다. 단어의 의미는 다음과 같습니다.원칙 무한히 가변적이고 상황에 맞는. 그것은 별개의 또는 이산적인 하위 의미로 쉽게 나누어지지 않습니다.사전 편찬자는 말뭉치에서 느슨하고 겹치는 단어 의미와 표준 또는 기존 의미를 확장,변조 및 다양한 방식으로 악용하는 것을 자주 발견합니다. 사전 편찬의 예술은 말뭉치에서 단어의 의미의 전체 범위를 설명하고 설명하는 정의로 일반화하여 단어가 의미 상 잘 행동하는 것처럼 보이게하는 것입니다. 그러나 사전 편찬자의 결정이 일반적으로 다른 고려 사항에 의해 주도되기 때문에 이러한 동일한 의미 구분이 컴퓨터 응용 프로그램에 적용 가능한지 여부는 전혀 명확하지 않습니다.

또한 참조

언어학,자연어 처리

후원:교수 애 첸,컴퓨터 과학의 학교,맨체스터 대학,영국

검토:익명

검토: 2008-05-23 17:13:44 그리니치 표준시