中脳ドーパミンニューロンの報酬シグナル/生理学

多細胞生物が自己再生分子の進化によって生まれたとき、彼らは福祉と生存のためのニーズが満たされたことを保証する内因性の自己調節メカニズムを開発した。被験者は恒常性のバランスを維持し、自分自身を再現するためのリソースを得るために、様々な形のアプローチ行動に従事します。これらの生物資源は、アプローチ行動を誘発し、強化するため、”やりがいのある”機能を有すると言われています。当初は生物学的ニーズに関連していましたが、より洗練された形態の個人的および社会的行動をサポートするために、高等哺乳動物の進化の間にさらに報酬のより高い形態は、多くの場合、認知表現に基づいており、彼らは目新しさ、挑戦、称賛、権力、お金、領土、およびセキュリティなどのオブジェクトや構したがって、生物学的および認知的ニーズは報酬の性質を定義し、報酬の利用可能性は被験者の生活条件の基本的なパラメータのいくつかを決定する。

報酬は三つの基本的な機能を持っています(1). 第一に、彼らはアプローチと完璧な行動を引き出し、自発的な行動の目標として役立ちます。そうすることで、彼らは進行中の行動を中断し、行動行動の優先順位を変更します。第二に、報酬は肯定的な補強効果を有する。彼らはそのようなオブジェクト（学習）につながる行動の頻度と強度を高め、絶滅を防ぐことによって学習された行動を維持します。この機能は、”より多くのために戻ってくる”の本質を構成し、有用な何かをしたための報酬を受け取るという概念に関連しています。学習は、報酬が予測不可能に発生し、報酬がますます予測されるようになるにつれて遅くなると進行します（8）。したがって、報酬駆動型学習は、報酬の予測とその実際の発生との間の不一致または「エラー」に依存する。彼らの第三の機能では、報酬は主観的な喜びの感情（hedonia）と肯定的な感情状態を誘発する。この機能は動物で調査することは困難です。

parkinsonian患者および実験的に病変した動物におけるドーパミン神経伝達の減少は、運動、動機、注意、および認知における重度の欠損と関連している。一つの一貫した動機付けの赤字は、学習と維持のための報酬情報の使用に関するアプローチと完璧な行動（2、9）。欠損は、主に中脳ドーパミンニューロンから側坐核への突起の破壊、およびより少ない程度で前頭皮質および線条体（尾状核および被殻）への突起の破壊にこれらのシステムはまたコカイン、アンフェタミン、ヘロインおよびニコチンのような乱用の主要な薬剤の習慣性の特性に、かかわります。

中脳ドーパミンニューロンの細胞体は、A8群（背側から側方の黒質）、A9群（黒質のpars compacta）、A10群（黒質の内側の腹側被蓋領域）に位置している。これらのニューロンは、線条体、側坐核、および前頭皮質の軸索静脈瘤から神経インパルスを伴ってドーパミンを放出し、最も重要な部位を命名する（Fig. 1). サルが学習し、行動タスクを実行しながら、我々は細胞外の位置から移動可能な微小電極と20-60分の期間中に単一のドーパミンニューロンの細胞体からのイニューロンは、低周波数で放出される特徴的な多相、比較的長いインパルスによって、他の中脳ニューロンと容易に区別できる。

図1. 中脳ドーパミンニューロンの投影領域の概要。ドーパミンニューロンの細胞体は、主に黒質のpars compactaと内側に隣接する腹側被蓋領域に位置しています。それらの軸索は、主に線条体（尾状核、被殻）、側坐核を含む腹側線条体、および前頭皮質（背外側、腹外側および眼窩前頭前野）に突出する。ドーパミンは、インパルスと軸索末端から放出され、これらの構造のニューロンに影響を与えます。我々の実験は、ドーパミン細胞体のレベルでのインパルス活性を調べます。

私たちは一貫して動きとの明確な共変量を見つけることができません。対照的に、ドーパミンニューロンは、報酬関連イベントと体性感覚、視覚、および聴覚モダリティ（の特定の注意誘導刺激の後に相活性化を示す5、10、12）。これらの応答は、行動状況の範囲でグループA8、A9、およびA10のニューロンの60-80％において非常に同様の方法で起こるが、残りのドーパミンニューロンは全く反応しない。テストされた状況には、古典的なコンディショニング、さまざまな単純な選択反応時間タスク、直接および遅延ゴーゴータスク、空間遅延応答タスク、空間遅延交替、視覚的差別、および自己開始運動が含まれる。ニューロンは、より多くの側方領域、時折統計的有意性に達する差と比較して、そのような腹側被蓋領域と内側黒質などの内側中脳領域でわずかに多く活性化は、食物および体液の報酬、条件刺激、および注意誘導刺激の後、同様の潜時（50-110ms）および持続時間（<200ms）で起こる。したがって、ドーパミン応答は、個々のニューロンの応答の大きさと応答するニューロンの画分によって傾斜される比較的均質な、スカラー集団信号を構成する。

相活性化は、動物が隠された食物の一口に触れたとき、または行動タスクの外または学習中に液体の滴が口に送達されたときに起こる（図2）。 2、上）。ドーパミンニューロンは報酬を非方向性の物体と区別するが、異なる食物物体または液体の報酬を区別するようには見えない。わずか数は、このような口に手や高張生理食塩水に非毒性空気パフなどの一次嫌悪刺激、後に相活性化を示しています（7）。これらの刺激は、行動を混乱させ、積極的な回避反応を誘発するため、嫌悪的である。

ほとんどのドーパミンニューロンは、オペラントまたは古典的な条件付け手順における報酬との反復および偶発的なペアリングを通じて有効な報酬予測因子となっている条件付けされた視覚および聴覚刺激によっても活性化される(図1)。 2、中）。対照的に、少数のドーパミンニューロンだけが、動物が空気パフまたは高張生理食塩水のドロップを避けるためにキーを解放するアクティブな回避タスクで学習された視覚的または聴覚的刺激によって段階的に活性化される。

学習中の報酬予測刺激に対するドーパミン応答の発達と同時に、報酬から報酬予測刺激に応答が伝達されるかのように、予測された報酬自体への応答 2、トップ対ミドル）。これは、自由な報酬が行動課題の外で提供され、学習を通じて条件刺激によって予測される場合、または個々の学習フェーズ中に報酬が驚くほど発生し、相が完全に獲得されたときに予測される場合に観察されます。従って報酬はphasic刺激によって予測されないときドーパミンニューロンを活動化させることでだけ有効です。

ドーパミンニューロンは、食欲刺激と中性刺激または嫌悪刺激を区別する能力が限られています。物理的に十分に類似していない刺激だけがよく区別されます。明示的に報酬を予測するが、物理的に報酬予測刺激に似ていない刺激は、ニューロンの限られた割合でうつ病に続いて小さな活性化を誘発する。

ドーパミンニューロンは、動物の誤り、実験者による源泉徴収、または配達の遅れの後に予測された報酬が起こらなかったときに、報酬の習慣的な時に抑 2、下）。うつ病は、省略された報酬の直前に刺激がない場合に発生します。これは、予測された報酬の正確な時間に関係する内部時計に基づく期待プロセスを反映しています。一方、活性化は、これが予測された時間とは異なる時間に提示されたときに報酬に従う（図２）。 3). これらのデータは，ドーパミンニューロンに影響を与える予測が報酬の発生と時間の両方に関係することを示唆している。

図3。ドーパミンニューロンによって符号化された予測誤差は、時間的側面を含む。行動の仕事では、よく学んだ色映像はコンピュータモニター（CS）で現われ、動物は行為CSが転換し、ジュースの報酬の低下が動物の口でその後すぐに渡される映像の下のレバーを押す。レバーの接触報酬間隔が変えられている間活動は単一のドーパミンのニューロンから記録されます。予測された習慣的な時間に発生する報酬はドーパミン応答を誘発しないが（トップ試験ブロック）、0.5秒による報酬の突然の遅延は、報酬の元の時にドパミンニューロンの活性を低下させ、新しい時間に活性化を誘導する（後続の試験ブロック）。活性化は、報酬が予測よりも早く発生した場合にのみ観察されます（下からの第二の試行ブロック）。オリジナルの試行順序は上から下にあります。参考文献から転載。ネイチャーアメリカの許可を得て4。

必ずしも報酬に関連していない新規または物理的に強い刺激などの注意誘導刺激は、しばしばうつ病が続くドーパミンニューロンの活性化を引き起こ新規性応答は、いくつかの刺激の繰り返しの後に行動指向反応と一緒に治まり、持続時間は物理的により顕著な刺激で長くなる。動物のすぐ前で大きなクリックや大きな写真などの強烈な刺激は、>1,000回の試験の後でも測定可能な活性化を誘導する強い反応を誘発する。しかし、新規または強烈な刺激への応答は、アクティブな回避行動のコンディショニング中に急速に治まる。これらのデータは、ドーパミンニューロンが排他的に報酬関連刺激によって駆動されるのではなく、注意誘導刺激によっても影響されることを示唆して

をまとめると、ほとんどのドーパミンニューロンは、食物と体液の報酬の後、および条件付けされた報酬予測刺激の後に相活性化を示す。彼らは、報酬予測刺激に似ているか、または新規または特に顕著である刺激の後に二相性活性化-うつ病応答を示す。しかし、いくつかの相活性化は、嫌悪刺激に従います。したがって、ドーパミンニューロンは、食欲をそそる”タグ”で環境刺激にラベルを付け、報酬を予測して検出し、警告し、イベントをやる気にさせる信号を送ります。

報酬と報酬予測刺激に対するすべての応答は、報酬の正確な時間に関係するイベント予測可能性に依存します。報酬が発生する環境の状況を予測するより強壮な報酬は、ドーパミンニューロンに影響を与えないようである。ドーパミン報酬応答は、報酬の予測における「エラー」と呼ばれる、予測とは異なる報酬がどの程度発生するかを示すように見える。したがって、ドーパミンニューロンは、無条件に報酬をシグナリングするのではなく、その予測に関連した報酬を報告します。それらは、予測と比較して環境事象の良さの特徴検出器であり、予測よりも優れている報いのある事象によって活性化され、予測よりも優れている事象に影響されず、予測よりも悪い事象によって抑制されているように見える(図1)。 2). しかし、彼らは異なる報酬を区別することができず、したがって、各報酬の特定の性質を示すことなく、報酬の驚くべき存在または不在についての警告彼らは報酬の時間と予測を処理しますが、特定の報酬の性質は処理しません。

報酬予測誤差信号の潜在的な使用

ドーパミンニューロンの大部分の適度に破裂し、短い期間、ほぼ同期応答は、線条体と前頭皮質の密接に間隔のvaricositiesの大部分から最適な、同時ドーパミン放出につながります。ドーパミンの短いパフはすぐにおそらくすべての線条体および多くの皮質ニューロンの樹状突起に影響を与える可能性が高い地域的に均一な濃度に達このようにして、ドーパミンニューロンの60-80％における報酬予測エラーメッセージは、線条体、側坐核、および前頭皮質への発散、むしろグローバルな補強信号として放送され、段階的に刺激と報酬につながるアクションの処理に関与するシナプスの最大数に影響を与えます。報酬を省略したうつ病によって誘発されるドーパミン放出の減少は、周囲のドーパミンによるドーパミン受容体の強壮刺激を減少させるであろう。

線条体および前頭皮質ニューロンに対するドーパミンニューロンのシナプス影響の基本的な配置は、樹状棘、樹状棘の先端の興奮性皮質末端、および同じ樹状棘に接触するドーパミンvaricositiesからなるトライアドからなる（図。 4). すべての中型の線条体棘ニューロンは、その樹状突起棘と-5,000皮質シナプスで-1,000ドーパミン作動性シナプスを受け取ります。この配置は、ドーパミンニューロンが線条体ニューロンへの皮質入力のシナプス効果に影響を与えることを可能にするであろう。放出されたドーパミンは、いくつかの可能な方法で線条体および皮質ニューロンに作用する可能性がある。 1)即時の効果はcorticostriatal neurotransmissionの変更で成っているかもしれません。これは、皮質-大脳基底核ループで循環する情報を変更し、行動出力の構造化に関与する皮質構造におけるニューロンに影響を与えるだろう。 2)ドーパミンの膜の行為の比較的遅い時間のコースは報酬のでき事の短い跡を残し、短い間すべてのそれに続く活動に影響を与えるかもしれません。 3)線条体の潜在的なドーパミン依存性可塑性とドーパミン応答の観察された形態は、同時に報酬につながるイベントによって活性化線条体と皮質シナプスの塑性変化を誘発する可能性があります。

線条体神経伝達に対するドーパミンの影響のモデルでは、AおよびBは、線条体ニューロンIの樹状突起棘と別々に接触する入力である（図10A）。 4). シナプスの重みA→IとB→Iは、短期または長期のヘブビアン変更可能です。同じ棘は、ドーパミン入力Xからのグローバル報酬予測誤差信号によって無差別に接触しているニューロンXとニューロンAの両方ではなく、ニューロンBは、報 Neuron Xは、特定の詳細を与えずに報酬イベントが発生したというメッセージを送信しますが、neuron Aは、色、テクスチャ、位置、周囲など、報酬関連イベントのいくつかの詳細な側面のいずれかについてのメッセージを送信します。刺激のまたは報酬を得ることにつながる動きをコードすることができます。線条体シナプスの重みは，ωはシナプスの重み，γは学習定数，ｒはドーパミン予測誤差信号，ｉは入力活性化，ｏは線条体ニューロンの活性化である学習規則Δ Ω＝γ-ｒ-ｉ-ｏに従って修正することができた。したがって、aとXの活性の同時性またはほぼ同時性を介して、ニューロンXの活性は、アクティブなA→Iシナプスで神経伝達の変化を誘導するが、不活性なB→I神経伝達は変更されないままにすることができる。シナプス伝達の持続的な変化の場合には、ニューロンBからの入力は、このように、a→iとB→I神経伝達のシナプス変化は、ドーパミンニューロンXがaまたはBと結合して活性であることを条件としているのに対し、ニューロンaからのその後の入力は、ニューロンIの増加した応答につながる。

報酬の予測における誤差を符号化するドーパミン応答は、すべての主要な側面において、時間差アルゴリズムを組み込む特に効果的なクラスの補強それらは、学習が強化の予測とその実際の発生との間の不一致または誤差に決定的に依存すると仮定する行動学習理論に基づいている（1、8）。これらのモデルでは、criticモジュールがグローバル補強信号を生成し、それをactorモジュールに送信して、行動出力を学習して実行します。批評家-俳優のアーキテクチャは密接に線条体へのドーパミン投影と相互線条体投影を含む大脳基底核の接続性に似ています。時間差アルゴリズムを使用したモデルは、カートホイール上のポールのバランスをとることから世界クラスのバックギャモンをプレイすることまで、多種多様な行動タスクを学習します(参考文献については、Ref. 11). 時間差アルゴリズムを使用したロボットは、二次元空間を移動し、障害物を回避したり、到達して把握したり、穴にペグを挿入したりすることを学びます。神経生物学的に触発された時間差モデルは、ミツバチの採餌行動を複製し、人間の意思決定をシミュレートし、反応、眼球運動、逐次運動、および空間的遅延応答予測誤差を使用して信号を教えることは、無条件の補強信号と比較して、より速く、より完全な学習をもたらすことを見ることは特に興味深い。

結論と拡張

ドーパミンニューロンの活動の調査は、運動がパーキンソン病患者では不十分であるが、これらのニューロンが運動に関連して調節されていないという驚くべき発見をもたらした。むしろ、ドーパミンニューロンは、環境刺激のやりがいのある側面を非常に特別な形でコード化し、特定の注意誘導特性とともにコード化します。応答は、一次報酬（「無条件刺激」）、条件付き報酬予測刺激、報酬関連刺激に似た刺激、および新規または強烈な刺激によって誘発される。しかし、報酬関連の刺激は、それらが予測されたものとは異なる場合にのみ報告され、イベントの発生と時間の両方に関する予測である。予測エラーメッセージは、動物の学習理論と強化モデルによれば、行動を指示し、学習を誘導するための非常に強力な信号である。しかし、ドーパミン信号は、予測とは異なる報酬がどの報酬であるか、またはそれが実際に報酬であるか、むしろ報酬予測刺激であるかを正確に指定し報酬および新規または特に顕著な刺激に似た刺激は、予測不可能な報酬関連刺激によって誘発される単相活性化に似た活性化抑制配列を引き出す。したがって、ドーパミン信号は主に報酬警告信号であるように見え、他の脳システムは、環境刺激をやる気にさせるための正しい行動反応を学習するた

食物および体液の報酬に関する情報は、ドーパミンニューロン以外の脳構造（背側および腹側線条体、視床下部核、扁桃体、背外側前頭前野、眼窩前頭前野、前帯状皮質）でも処理される。しかし、これらの構造は、ドーパミンニューロンと同様のグローバル報酬予測誤差信号を放出するようには見えません。これらの構造は、1）報酬の送達後の一時的な応答、2）報酬予測手がかりへの一時的な応答、3）報酬の期待中の持続的な活性化、および4）予測された報酬によ 11). これらのニューロンの多くは、異なる食物または体液の報酬をよく区別します。従って彼らは報酬を与えるでき事の特定の性質を処理するかもしれない。いくつかの報酬応答は、条件付き刺激によって報酬が予測されるときに減少または不在の報酬予測不可能性に依存するが、ドーパミンニューロンに似た予測誤差を示すかどうかは不明である。したがって、学習とアプローチ行動を維持するための特定の報酬の処理は、報酬の予期せぬ発生または省略を知らせるドーパミンニューロンと、報酬の特定の性質を同時に示す他の構造のニューロンとの間の協力から強く利益を得ることが表示されます。

パーキンソン病、実験病変、または神経弛緩治療によるドーパミン神経伝達の障害は、運動（無動、振戦、剛性）、認知（注意、bradyphrenia、計画、学習）、および動機（感情反応の低下、抑うつ）の多くの行動障害と関連している。ほとんどの赤字は、全身ドーパミン前駆体または受容体アゴニスト療法によってかなり改善され、これは単純な方法で神経インパルスによる相状情報伝達を回復させることができない。ドーパミン神経伝達は、脳内で二つの別々の機能、食欲と警告情報の段階的処理と時間的コーディングなしで運動、認知、および動機付けのプロセスの多種多様強壮性のドーパミン機能は線条体（5-10nM）および他のドーパミン神経支配された区域の低く、支えられた細胞外のドーパミンの集中に基づいています。周囲のドーパミン濃度は、自発的なインパルス、シナプスオーバーフロー、再取り込み輸送、代謝、自己受容体制御放出と合成、およびシナプス前トランスミッタ相互作用ドーパミン受容体の強壮刺激は、与えられた脳領域の最適な機能のためには低すぎず高すぎずでなければならない。他の神経伝達物質は、線条体、大脳皮質、海馬および小脳のグルタミン酸塩、線条体および前頭皮質のアスパラギン酸塩およびGABA、および海馬のアデノシンのような同様に低い包囲された集中に、あります。多くの脳構造のニューロンは、明らかに神経興奮性に強力で特定の生理学的効果を有する神経伝達物質の”スープ”に浸されている。神経伝達物質の細胞外濃度の一般的な重要性を考えると、パーキンソン症状の広い範囲は、ドーパミンニューロンによる報酬情報の不十分な伝達によって引き起こされるのではなく、周囲のドーパミンの減少によって障害された可能性によって引き起こされる線条体および皮質ニューロンの機能不全を反映すると思われる。ドーパミンニューロンは積極的にパーキンソニズムが不足しているプロセスの広い範囲に関与していないだろうが、これらのプロセスに関与する線条体と皮質ニューロンの適切な機能を維持するために必要なドーパミンの重要な背景濃度を提供するであろう。

この実験は、スイス国立科学財団、人的資本と移動性、およびスイス教育科学局James Sを介して欧州共同体のBiomed2プログラムによって支援されました。マクドネル財団、ロシュ研究財団、ユナイテッド-パーキンソン財団（シカゴ）、ブリティッシュ-カウンシル。

W.Schultzは、この記事でレビューされた研究に対して、1997年にスイス医学アカデミーのTheodore Ott賞を受賞しました。

参考文献の引用は、編集上の制限のために制限されています

1 Dickinson,A.Contemporary Animal Learning Theory. ケンブリッジ大学（英：Cambridge Univ. プレス、1980年。
Google Scholar
2Fibiger,H.C.,A.G.Phillips. 報酬、動機、認知: 中脳ドーパミン系の心理生物学。で：生理学のハンドブック。神経系。脳の内因性調節システム。ベセスダ,MD:Am. フィジオール Soc.、1986年、セクト。 1、vol. 第四章 12,p.647-675.
Google Scholar
3Freund,T.F.,J.F.Powell,A.D.Smith. チロシンヒドロキシラーゼ-樹状突起棘を特に参照して、同定された線条体ニューロンとのシナプス接触における免疫反応性boutons。神経科学13:1189-1215,1984.
Crossref|PubMed|ISI|Google Scholar
4Hollerman,J.R.,W.Schultz. ドーパミンニューロンは、学習中の報酬の時間的予測に誤りを報告する。ネイチャー-ニューロシ… 1: 304–309, 1998.
Crossref|PubMed|ISI|Google Scholar
5Ljungberg,T.,P.Apicella,W.Schultz. 行動反応の学習中のサルのドーパミンニューロンの応答。 J.Neurophysiol。 67: 145–163, 1992.
Link|ISI|Google Scholar
6Montague,P.R.,P.Dayan,t.J.Sejnowski. 予測Hebbian学習に基づく中脳ドーパミンシステムのためのフレームワーク。 J.Neurosci. 16: 1936–1947, 1996.
Crossref|PubMed|ISI|Google Scholar
7Mirenowicz,J.,w.Schultz. 食欲刺激ではなく嫌悪刺激による中脳ドーパミンニューロンの優先活性化。Ｎａｔｕｒｅ３７９：４４９−４５１，１９９６．
Crossref|PubMed|ISI|Google Scholar
8Rescorla,R.A.,A.R.Wagner. パブロフの条件付けの理論:補強およびnonreinforcementの有効性の変化。で：古典的なコンディショニングII：現在の研究と理論、A.H.ブラックとW.F.Prokasyによって編集されました。ニューヨーク:アップルトン世紀クロフツ,1972,p.64-99.
Google Scholar
9Robbins,T.W.,b.J.Everitt. 報酬と動機の神経行動メカニズム。カーオピンニューロビオール 6: 228–236, 1996.
Crossref|PubMed|ISI|Google Scholar
10Romo,R.,W.Schultz. サル中脳のドーパミンニューロン：自己開始腕の動きの間にアクティブなタッチへの応答の偶発。 J.Neurophysiol。 63: 592–606, 1990.
Link|ISI|Google Scholar
11Schultz,W.ドーパミンニューロンの予測報酬シグナル。 J.Neurophysiol。 80: 1–27, 1998.
Link|ISI|Google Scholar
12Schultz,W.,P.Apicella,t.Ljungberg. サルのドーパミンニューロンの応答は、遅延応答タスクを学習する連続したステップの間に報酬と条件刺激に応答します。 J.Neurosci. 13: 900–913, 1993.
Crossref|PubMed|ISI|Google Scholar
13Schultz,W.,P.Dayan,R.P.Montague. 予測と報酬の神経基質。 Science275:1593-1599,1997.
Crossref|PubMed|ISI|Google Scholar
14Smith,A.D.,J.P.Bolam. 同定されたニューロンのシナプス接続の研究によって明らかにされた大脳基底核のニューラルネットワーク。トレンド-ニュース-ニュース-ニュース-ニュース-ニュース 13: 259–265, 1990.
Crossref|PubMed|ISI|Google Scholar
15Sutton,R.S.,A.G.Barto. 適応ネットワークの現代理論に向けて：期待と予測。サイコル Rev.88:135-170,1981.
Crossref|PubMed|ISI/Google Scholar

中脳ドーパミンニューロンの報酬シグナル

報酬予測誤差信号の潜在的な使用

結論と拡張

You might also like

子供のためのクールなウェブサイトを作成するための理想的な

Wickersham Commission

コメントを残すコメントをキャンセル

報酬予測誤差信号の潜在的な使用

結論と拡張

You might also like

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル