Das Belohnungssignal von Dopaminneuronen des Mittelhirns / Physiologie

Als mehrzellige Organismen durch die Evolution sich selbst reproduzierender Moleküle entstanden, entwickelten sie endogene, autoregulatorische Mechanismen, die sicherstellten, dass ihre Bedürfnisse nach Wohlergehen und Überleben erfüllt wurden. Die Probanden üben verschiedene Formen des Annäherungsverhaltens aus, um Ressourcen zur Aufrechterhaltung des homöostatischen Gleichgewichts zu erhalten und sich selbst zu reproduzieren. Diese biologischen Ressourcen sollen „belohnende“ Funktionen haben, weil sie das Annäherungsverhalten hervorrufen und verstärken. Obwohl ursprünglich mit biologischen Bedürfnissen verbunden, entwickelten sich Belohnungen während der Evolution höherer Säugetiere weiter, um anspruchsvollere Formen des individuellen und sozialen Verhaltens zu unterstützen. Höhere Formen von Belohnungen basieren oft auf kognitiven Repräsentationen und betreffen Objekte und Konstrukte wie Neuheit, Herausforderung, Anerkennung, Macht, Geld, Territorium und Sicherheit. So definieren biologische und kognitive Bedürfnisse die Art der Belohnungen, und die Verfügbarkeit von Belohnungen bestimmt einige der grundlegenden Parameter der Lebensbedingungen des Subjekts.

Belohnungen haben drei grundlegende Funktionen (1). Erstens rufen sie Annäherungs- und Konsumverhalten hervor und dienen als Ziele freiwilligen Verhaltens. Dabei unterbrechen sie das laufende Verhalten und ändern die Prioritäten von Verhaltenshandlungen. Zweitens haben Belohnungen positive verstärkende Effekte. Sie erhöhen die Häufigkeit und Intensität des Verhaltens, das zu solchen Objekten führt (Lernen), und behalten das erlernte Verhalten bei, indem sie das Aussterben verhindern. Diese Funktion bildet die Essenz von „coming back for more“ und bezieht sich auf den Begriff, Belohnungen dafür zu erhalten, etwas Nützliches getan zu haben. Das Lernen geht weiter, wenn Belohnungen unvorhersehbar auftreten, und verlangsamt sich, wenn Belohnungen immer mehr vorhergesagt werden (8). Belohnungsgesteuertes Lernen hängt also von der Diskrepanz oder dem „Fehler“ zwischen der Vorhersage der Belohnung und ihrem tatsächlichen Auftreten ab. In ihrer dritten Funktion induzieren Belohnungen subjektive Lustgefühle (Hedonie) und positive emotionale Zustände. Diese Funktion ist bei Tieren schwer zu untersuchen.

Eine verminderte Dopamin-Neurotransmission bei Parkinson-Patienten und experimentell geschädigten Tieren ist mit schweren Defiziten in Bewegung, Motivation, Aufmerksamkeit und Kognition verbunden. Ein konsistentes Motivationsdefizit betrifft die Verwendung von Belohnungsinformationen zum Lernen und Aufrechterhalten von Ansatz- und Konsumverhalten (2, 9). Die Defizite treten hauptsächlich bei der Zerstörung von Projektionen von Dopaminneuronen des Mittelhirns zum Nucleus accumbens und in geringerem Maße zum frontalen Kortex und Striatum (Nucleus caudatus und Putamen) auf. Diese Systeme sind auch an den suchterzeugenden Eigenschaften wichtiger Missbrauchsdrogen wie Kokain, Amphetamin, Heroin und Nikotin beteiligt.

Zellkörper von Dopamin-Neuronen des Mittelhirns befinden sich in den Gruppen A8 (dorsale bis laterale Substantia nigra), A9 (Pars compacta der Substantia nigra) und A10 (ventraler tegmentaler Bereich medial zur Substantia nigra). Diese Neuronen setzen Dopamin mit Nervenimpulsen von axonalen Varikositäten im Striatum, Nucleus accumbens und frontalen Kortex frei, um die wichtigsten Stellen zu nennen (Abb. 1). Wir erfassen die Impulsaktivität von Zellkörpern einzelner Dopamin-Neuronen während Perioden von 20-60 min mit beweglichen Mikroelektroden aus extrazellulären Positionen, während Affen lernen und Verhaltensaufgaben ausführen. Die Neuronen sind leicht von anderen Mittelhirnneuronen durch ihre charakteristischen polyphasischen, relativ langen Impulse zu unterscheiden, die bei niedrigen Frequenzen abgegeben werden.

ABBILDUNG 1. Überblick über die Projektionsgebiete von Dopaminneuronen des Mittelhirns. Zellkörper von Dopaminneuronen befinden sich hauptsächlich in der Pars compacta der Substantia nigra und im medial angrenzenden ventralen Tegmentalbereich. Ihre Axone projizieren hauptsächlich auf das Striatum (Nucleus caudatus, Putamen), das ventrale Striatum einschließlich Nucleus accumbens und den frontalen Kortex (dorsolateraler, ventrolateraler und orbitaler präfrontaler Kortex). Dopamin wird aus Axonterminals mit Impulsen freigesetzt und beeinflusst Neuronen in diesen Strukturen. Unsere Experimente untersuchen die Impulsaktivität auf der Ebene von Dopaminzellkörpern.

Wir finden immer wieder keine klaren Kovariationen mit Bewegungen. Im Gegensatz dazu zeigen Dopaminneuronen phasische Aktivierungen nach belohnungsbezogenen Ereignissen und bestimmten aufmerksamkeitsinduzierenden Reizen der somatosensorischen, visuellen und auditiven Modalität (5, 10, 12). Diese Reaktionen treten in einer sehr ähnlichen Weise in 60-80% der Neuronen in den Gruppen A8, A9 und A10 in einer Reihe von Verhaltenssituationen auf, während die verbleibenden Dopaminneuronen überhaupt nicht reagieren. Zu den getesteten Situationen gehören klassische Konditionierung, verschiedene einfache und schnelle Reaktionszeitaufgaben, direkte und verzögerte Go-No-Go-Aufgaben, räumliche verzögerte Reaktionsaufgaben, räumlicher verzögerter Wechsel, visuelle Diskriminierung und selbstinitiierte Bewegungen. Neuronen reagieren in medialen Mittelhirnregionen, wie dem ventralen Tegmentbereich und der medialen Substantia nigra, etwas stärker als in lateralen Regionen, ein Unterschied, der gelegentlich statistische Signifikanz erreicht. Die Aktivierungen treten mit ähnlichen Latenzen (50-110 ms) und Dauern (< 200 ms) nach Nahrungs- und Flüssigkeitsbelohnungen, konditionierten Reizen und aufmerksamkeitsinduzierenden Reizen auf. Somit stellt die Dopaminantwort ein relativ homogenes, skalares Populationssignal dar, das durch die Reaktionsgröße einzelner Neuronen und durch die Anteile der reagierenden Neuronen bewertet wird.

Phasische Aktivierungen treten auf, wenn Tiere einen Bissen versteckter Nahrung berühren oder wenn Flüssigkeitstropfen außerhalb von Verhaltensaufgaben oder während des Lernens in den Mund gelangen (Abb. 2, oben). Dopaminneuronen unterscheiden Belohnungen von Nonreward-Objekten, scheinen jedoch nicht zwischen verschiedenen Nahrungsobjekten oder flüssigen Belohnungen zu unterscheiden. Nur wenige zeigen die phasischen Aktivierungen nach primären aversiven Reizen, wie nicht-schädliche Luftstöße in die Hand oder hypertonische Kochsalzlösung in den Mund (7). Diese Reize sind aversiv, weil sie das Verhalten stören und aktive Vermeidungsreaktionen auslösen.

ABBILDUNG 2. Dopaminneuronen melden Belohnungen, soweit sie von der Vorhersage abweichen (Fehler bei der Vorhersage der Belohnung). Oberen: ein Tropfen flüssiger Belohnung (R) tritt auf, obwohl zu diesem Zeitpunkt keine Belohnung vorhergesagt wird. Das Auftreten einer Belohnung stellt somit einen positiven Fehler in der Vorhersage der Belohnung dar. Das Dopamin-Neuron wird durch das unvorhergesehene Auftreten der Flüssigkeit aktiviert. Mitte: Ein erlernter Stimulus (konditionierter Stimulus, CS) sagt eine Belohnung voraus, und die Belohnung erfolgt gemäß der Vorhersage, daher kein Fehler bei der Vorhersage der Belohnung. Das Dopamin-Neuron wird durch die vorhergesagte Belohnung nicht aktiviert (rechts). Es zeigt auch eine Aktivierung nach dem belohnungsvorhersagenden Stimulus (links). Unteren: ein konditionierter Stimulus sagt eine Belohnung voraus, aber die Belohnung wird weggelassen. Die Aktivität des Dopaminneurons wird genau zu dem Zeitpunkt unterdrückt, zu dem die Belohnung stattgefunden hätte. Beachten Sie die Depression, die > 1 s nach dem konditionierten Stimulus ohne dazwischenliegende Stimuli auftritt und einen internen Prozess der Erwartung einer Belohnung zu einem bestimmten Zeitpunkt aufdeckt. Die Punkte in den einzelnen Feldern bezeichnen neuronale Impulse. Jede Punktlinie zeigt einen Versuch, wobei die ursprüngliche Sequenz in jedem Feld von oben nach unten verläuft. Nachdruck mit freundlicher Genehmigung von Ref. 11. Copyright (1997) Amerikanische Vereinigung zur Förderung der Wissenschaft.

Die meisten Dopaminneuronen werden auch durch konditionierte visuelle und auditive Reize aktiviert, die durch wiederholte und kontingente Paarung mit Belohnungen in operanten oder klassischen Konditionierungsverfahren zu gültigen Belohnungsprädiktoren geworden sind (Abb. 2, Mitte). Im Gegensatz dazu werden bei aktiven Vermeidungsaufgaben, bei denen Tiere einen Schlüssel loslassen, um einen Luftstoß oder einen Tropfen hypertoner Kochsalzlösung zu vermeiden, nur wenige Dopaminneuronen durch erlernte visuelle oder auditive Reize phasenweise aktiviert.

Gleichzeitig mit der Entwicklung der Dopaminantwort auf belohnungsvorhersagende Reize während des Lernens geht die Reaktion auf die vorhergesagte Belohnung selbst verloren, als ob die Antwort von der Belohnung auf den belohnungsvorhersagenden Reiz übertragen würde (Abb. 2, oben vs. Mitte). Dies wird beobachtet, wenn freie Belohnungen außerhalb von Verhaltensaufgaben geliefert werden und durch konditionierte Stimuli durch Lernen vorhergesagt werden oder wenn Belohnungen überraschend während einzelner Lernphasen auftreten und vorhergesagt werden, wenn eine Phase vollständig erworben ist. Daher sind Belohnungen bei der Aktivierung von Dopaminneuronen nur dann wirksam, wenn sie nicht durch phasische Reize vorhergesagt werden.

Dopaminneuronen haben eine begrenzte Fähigkeit, zwischen appetitiven und neutralen oder aversiven Reizen zu unterscheiden. Nur Reize, die physikalisch ausreichend unterschiedlich sind, werden gut diskriminiert. Stimuli, die Belohnungen nicht explizit vorhersagen, aber physisch belohnungsvorhersagenden Stimuli ähneln, induzieren kleine Aktivierungen, gefolgt von Depressionen in einem begrenzten Teil der Neuronen.

Dopaminneuronen werden zum gewohnten Zeitpunkt der Belohnung deprimiert, wenn eine vorhergesagte Belohnung nach einem Fehler des Tieres, einem Zurückhalten durch den Experimentator oder einer verzögerten Abgabe (Abb. 2, unten). Die Depression tritt in Abwesenheit eines Stimulus unmittelbar vor der ausgelassenen Belohnung auf. Dies spiegelt einen Erwartungsprozess wider, der auf einer internen Uhr basiert, die den genauen Zeitpunkt der vorhergesagten Belohnung betrifft. Andererseits folgt eine Aktivierung der Belohnung, wenn diese zu einem anderen Zeitpunkt als vorhergesagt präsentiert wird (Abb. 3). Diese Daten legen nahe, dass die Vorhersage, die Dopaminneuronen beeinflusst, sowohl das Auftreten als auch den Zeitpunkt der Belohnung betrifft.

ABBILDUNG 3. Der von Dopaminneuronen codierte Vorhersagefehler umfasst zeitliche Aspekte. Bei der Verhaltensaufgabe erscheint ein gut erlerntes Farbbild auf einem Computermonitor (CS on), das Tier drückt einen Hebel unterhalb des Bildes, woraufhin das CS ausschaltet und kurz darauf ein Tropfen Saftbelohnung an das Maul des Tieres abgegeben wird. Die Aktivität wird von einem einzelnen Dopamin-Neuron aufgezeichnet, während das Hebel-Belohnungsintervall variiert wird. Obwohl die Belohnung, die zur vorhergesagten, gewohnheitsmäßigen Zeit auftritt, keine Dopaminantwort hervorruft (oberer Versuchsblock), drückt eine plötzliche Verzögerung der Belohnung um 0,5 s die Aktivität des Dopaminneurons zum ursprünglichen Belohnungszeitpunkt und induziert eine Aktivierung zum neuen Zeitpunkt (nachfolgender Versuchsblock). Eine Aktivierung wird nur beobachtet, wenn die Belohnung früher als vorhergesagt erfolgt (zweiter Versuchsblock von unten). Ursprüngliche Versuchssequenz ist von oben nach unten. Nachdruck von Ref. 4 mit Genehmigung von Nature America.

Aufmerksamkeitsauslösende Reize, wie neuartige oder körperlich intensive Reize, die nicht unbedingt mit Belohnungen zusammenhängen, lösen Aktivierungen in Dopaminneuronen aus, auf die häufig Depressionen folgen. Neuheitsreaktionen klingen zusammen mit verhaltensorientierten Reaktionen nach mehreren Reizwiederholungen ab, wobei die Dauer bei körperlich ausgeprägteren Reizen länger ist. Intensive Reize, wie laute Klicks oder große Bilder unmittelbar vor einem Tier, lösen starke Reaktionen aus, die nach > 1.000 Versuchen noch messbare Aktivierungen induzieren. Die Reaktionen auf neuartige oder intensive Reize klingen jedoch während der Konditionierung des aktiven Vermeidungsverhaltens schnell ab. Diese Daten legen nahe, dass Dopaminneuronen nicht ausschließlich von belohnungsbezogenen Reizen angetrieben werden, sondern auch von aufmerksamkeitsauslösenden Reizen beeinflusst werden.

Zusammengenommen zeigen die meisten Dopaminneuronen phasische Aktivierungen nach Nahrungsmittel- und Flüssigkeitsbelohnungen und nach konditionierten, belohnungsvorhersagenden Reizen. Sie zeigen biphasische Aktivierungs-Depressions-Reaktionen nach Stimuli, die belohnungsvorhersagenden Stimuli ähneln oder neu oder besonders hervorstechend sind. Allerdings folgen nur wenige a-phasische Aktivierungen aversiven Reizen. So kennzeichnen Dopaminneuronen Umweltreize mit einem appetitlichen „Tag“, sagen Belohnungen voraus und erkennen sie und signalisieren alarmierende und motivierende Ereignisse.

Alle Reaktionen auf Belohnungen und belohnungsvorhersagende Stimuli hängen von der Vorhersagbarkeit von Ereignissen ab, die den genauen Zeitpunkt der Belohnung betreffen. Der tonischere belohnungsvorhersagende Umweltkontext, in dem eine Belohnung auftritt, scheint Dopaminneuronen nicht zu beeinflussen. Die Dopamin-Belohnungsreaktion scheint anzuzeigen, inwieweit eine Belohnung anders als vorhergesagt auftritt, was als „Fehler“ bei der Vorhersage der Belohnung bezeichnet wird. Daher melden Dopaminneuronen Belohnungen relativ zu ihrer Vorhersage, anstatt Belohnungen bedingungslos zu signalisieren. Sie scheinen Merkmalsdetektoren für die Güte von Umweltereignissen im Verhältnis zur Vorhersage zu sein, die durch die Belohnung von Ereignissen aktiviert werden, die besser als vorhergesagt sind, unbeeinflusst von Ereignissen bleiben, die so gut wie vorhergesagt sind, und durch Ereignisse, die schlechter als vorhergesagt sind, unterdrückt werden (Abb. 2). Sie unterscheiden jedoch nicht zwischen verschiedenen Belohnungen und scheinen daher eine Warnmeldung über das überraschende Vorhandensein oder Fehlen von Belohnungen auszusenden, ohne die besondere Art jeder Belohnung anzugeben. Sie verarbeiten die Zeit und Vorhersage von Belohnungen, aber nicht die Art der jeweiligen Belohnung.

Mögliche Verwendung des Belohnungsvorhersagefehlersignals

Die mäßig platzende, kurzzeitige, nahezu synchrone Reaktion der Mehrheit der Dopaminneuronen führt zu einer optimalen, gleichzeitigen Dopaminfreisetzung aus der Mehrheit der eng beieinander liegenden Varikositäten im Striatum und im frontalen Kortex. Der kurze Zug von Dopamin erreicht schnell regional homogene Konzentrationen, die wahrscheinlich die Dendriten aller striatalen und vieler kortikaler Neuronen beeinflussen. Auf diese Weise wird die Belohnungsvorhersagefehlermeldung in 60-80% der Dopaminneuronen als divergentes, eher globales Verstärkungssignal an das Striatum, den Nucleus accumbens und den frontalen Kortex gesendet, wodurch eine maximale Anzahl von Synapsen beeinflusst wird, die an der Verarbeitung von Reizen und Handlungen beteiligt sind, die zur Belohnung führen. Die Verringerung der Dopaminfreisetzung, die durch Depressionen mit ausgelassenen Belohnungen induziert wird, würde die tonische Stimulation von Dopaminrezeptoren durch umgebendes Dopamin verringern.

Die grundlegende Anordnung der synaptischen Einflüsse von Dopaminneuronen auf striatale und frontale Kortexneuronen besteht aus einer Triade, die dendritische Stacheln, exzitatorische kortikale Endpunkte an der Spitze dendritischer Stacheln und Dopaminvarikositäten umfasst, die dieselben dendritischen Stacheln kontaktieren (Abb. 4). Jedes mittelgroße striatale stachelige Neuron erhält ~ 1.000 dopaminerge Synapsen an seinen dendritischen Stacheln und ~ 5.000 kortikale Synapsen. Diese Anordnung würde es Dopaminneuronen ermöglichen, die synaptischen Effekte kortikaler Inputs auf striatale Neuronen zu beeinflussen. Das freigesetzte Dopamin kann auf verschiedene Arten auf die striatalen und kortikalen Neuronen einwirken. 1) Die unmittelbare Wirkung kann in einer Veränderung der kortikostriatalen Neurotransmission bestehen. Dies würde die in kortiko-basalen Ganglienschleifen zirkulierenden Informationen modifizieren und Neuronen in kortikalen Strukturen beeinflussen, die an der Strukturierung der Verhaltensleistung beteiligt sind. 2) Der relativ langsame zeitliche Verlauf der Dopaminmembranwirkung kann eine kurze Spur des Belohnungsereignisses hinterlassen und alle nachfolgenden Aktivitäten für kurze Zeit beeinflussen. 3) Die potentielle dopaminabhängige Plastizität im Striatum und die beobachteten Formen von Dopaminreaktionen können plastische Veränderungen in striatalen und kortikalen Synapsen induzieren, die gleichzeitig durch die Ereignisse aktiviert werden, die zur Belohnung führen.

ABBILDUNG 4. Grundlegendes Design des möglichen Einflusses des Dopamin-Vorhersagefehlersignals auf die Neurotransmission im Striatum. Synaptische Inputs von einem einzelnen Dopaminaxon X und 2 kortikalen Axonen A und B kontaktieren ein typisches mittelgroßes stacheliges striatales Neuron I. Die kortikostriatale Transmission kann modifiziert werden, indem der Dopamin-Input X wahllos die Stängel von dendritischen Stacheln kontaktiert, die auch von spezifischen kortikalen Inputs A und B kontaktiert werden. Im vorliegenden Beispiel ist der kortikale Input A, aber nicht B, gleichzeitig mit dem Dopamin-Neuron X (schattierter Bereich) aktiv, z.B. nach einem belohnungsbedingten Ereignis. Dies könnte zu einer Modifikation des A → I-Getriebes führen, aber das B → I-Getriebe unverändert lassen. Die anatomische Zeichnung basiert auf anatomischen Daten (3) und wurde von einer vorherigen Figur (14) geändert.

In einem Modell von Dopamineinflüssen auf die striatale Neurotransmission sind A und B Eingänge, die getrennt dendritische Stacheln eines striatalen Neurons I kontaktieren (Abb. 4). Die synaptischen Gewichte A → I und B → I sind kurz- oder langfristig Hebbisch modifizierbar. Dieselben Stacheln werden wahllos durch das globale Belohnungsvorhersagefehlersignal vom Dopamineingang X kontaktiert. Neuron X sendet die Nachricht, dass ein Belohnungsereignis stattgefunden hat, ohne bestimmte Details anzugeben, während Neuron A eine Nachricht über einen von mehreren detaillierten Aspekten des belohnungsbezogenen Ereignisses sendet, wie Farbe, Textur, Position, Umgebung usw. kann eine Bewegung kodieren, die zum Erhalt der Belohnung führt. Die Gewichte der striatalen Synapsen könnten gemäß der Lernregel Δω = ϵ • r • i • o modifiziert werden, wobei ω das synaptische Gewicht, ϵ die Lernkonstante, r das Dopamin-Vorhersagefehlersignal, i die Eingangsaktivierung und o die Aktivierung des striatalen Neurons ist. Somit kann durch die Gleichzeitigkeit oder nahezu Gleichzeitigkeit der Aktivität in A und X die Aktivität des Neurons X eine Änderung der Neurotransmission an der aktiven A → I-Synapse induzieren, die inaktive B → I-Neurotransmission jedoch unverändert lassen. Bei dauerhaften Veränderungen der synaptischen Transmission würde ein nachfolgender Input von Neuron A zu einer verstärkten Response in Neuron I führen, wohingegen Input von Neuron B zu einer unveränderten Response in Neuron I führt. Somit sind die synaptischen Veränderungen der A → I- und B → I-Neurotransmission davon abhängig, dass Dopamin-Neuron X gemeinsam mit A oder B aktiv ist.

Die Dopaminantwort, die einen Fehler bei der Vorhersage der Belohnung codiert, ähnelt in allen wesentlichen Aspekten dem Verstärkungssignal einer besonders effektiven Klasse von Verstärkungsmodellen, die Zeitdifferenzalgorithmen enthalten (6, 13, 15). Sie basieren auf Verhaltenslerntheorien, die davon ausgehen, dass das Lernen entscheidend von der Diskrepanz oder dem Fehler zwischen der Vorhersage der Verstärkung und ihrem tatsächlichen Auftreten abhängt (1, 8). In diesen Modellen erzeugt ein Kritikermodul ein globales Verstärkungssignal und sendet es an das Akteurmodul, das die Verhaltensausgabe lernt und ausführt. Die Kritiker-Akteur-Architektur ähnelt stark der Konnektivität der Basalganglien, einschließlich der Dopaminprojektion zum Striatum und der reziproken striatonigralen Projektion. Modelle, die Zeitdifferenzalgorithmen verwenden, lernen eine Vielzahl von Verhaltensaufgaben, die vom Balancieren einer Stange auf einem Wagenrad bis zum Spielen von Weltklasse-Backgammon reichen (Referenzen siehe Ref. 11). Roboter mit Zeitdifferenzalgorithmen lernen, sich im zweidimensionalen Raum zu bewegen und Hindernissen auszuweichen, zu greifen oder einen Stift in ein Loch zu stecken. Neurobiologisch inspirierte Zeitdifferenzmodelle replizieren das Nahrungssuchverhalten von Honigbienen, simulieren menschliche Entscheidungen und lernen Orientierungsreaktionen, Augenbewegungen, sequentielle Bewegungen und räumliche Aufgaben mit verzögerter Reaktion. Es ist besonders interessant zu sehen, dass Unterrichtssignale, die Vorhersagefehler verwenden, zu einem schnelleren und vollständigeren Lernen führen, verglichen mit bedingungslosen Verstärkungssignalen.

Schlussfolgerungen und Erweiterungen

Die Untersuchung der Aktivität von Dopamin-Neuronen führte zu dem überraschenden Befund, dass diese Neuronen in Bezug auf Bewegungen nicht moduliert sind, obwohl Bewegungen bei Parkinson-Patienten mangelhaft sind. Vielmehr kodieren Dopaminneuronen in einer ganz besonderen Form die belohnenden Aspekte von Umweltreizen zusammen mit bestimmten aufmerksamkeitsfördernden Eigenschaften. Die Reaktionen werden durch primäre Belohnungen („unkonditionierte Stimuli“), konditionierte belohnungsvorhersagende Stimuli, Stimuli, die belohnungsbezogenen Stimuli ähneln, und neuartige oder intensive Stimuli hervorgerufen. Belohnungsbezogene Stimuli werden jedoch nur gemeldet, wenn sie anders als vorhergesagt auftreten, wobei die Vorhersage sowohl das Auftreten als auch den Zeitpunkt des Ereignisses betrifft. Die Vorhersagefehlermeldung ist ein sehr starkes Signal, um das Verhalten zu lenken und das Lernen zu induzieren, gemäß Tierlerntheorien und Verstärkungsmodellen. Das Dopaminsignal gibt jedoch nicht genau an, welche Belohnung anders als vorhergesagt auftritt oder ob es sich wirklich um eine Belohnung oder vielmehr um einen belohnungsvorhersagenden Reiz handelt. Stimuli, die Belohnungen ähneln, und neuartige oder besonders hervorstechende Stimuli lösen Aktivierungs-Depressionssequenzen aus, die den monophasischen Aktivierungen ähneln, die durch unvorhergesehene belohnungsbezogene Stimuli hervorgerufen werden. Das Dopaminsignal scheint also ein überwiegend belohnungsalarmierendes Signal zu sein, und andere Gehirnsysteme müssen zusätzliche Informationen verarbeiten, um korrekte Verhaltensreaktionen auf motivierende Umweltreize zu lernen.

Informationen über Nahrungsmittel- und Flüssigkeitsbelohnungen werden auch in anderen Gehirnstrukturen als Dopaminneuronen verarbeitet, wie dem dorsalen und ventralen Striatum, dem Nucleus subthalamicus, der Amygdala, dem dorsolateralen präfrontalen Kortex, dem orbitofrontalen Kortex und dem anterioren cingulären Kortex. Diese Strukturen scheinen jedoch kein globales Belohnungsvorhersagefehlersignal auszusenden, das Dopaminneuronen ähnelt. Diese Strukturen zeigen 1) transiente Reaktionen nach der Abgabe von Belohnungen, 2) transiente Reaktionen auf belohnungsvorhersagende Hinweise, 3) anhaltende Aktivierungen während der Erwartung von Belohnungen und 4) Modulationen verhaltensbezogener Aktivitäten durch vorhergesagte Belohnungen (für Referenzen siehe Ref. 11). Viele dieser Neuronen unterscheiden gut zwischen verschiedenen Nahrungs- oder Flüssigkeitsbelohnungen. So können sie die spezifische Art des lohnenden Ereignisses verarbeiten. Einige Belohnungsreaktionen hängen von der Unvorhersehbarkeit der Belohnung ab, wenn sie reduziert oder nicht vorhanden sind, wenn die Belohnung durch einen konditionierten Stimulus vorhergesagt wird, obwohl unklar ist, ob sie Vorhersagefehler ähnlich wie Dopaminneuronen signalisieren. Es scheint also, dass die Verarbeitung spezifischer Belohnungen für das Lernen und Aufrechterhalten des Annäherungsverhaltens stark von einer Kooperation zwischen Dopaminneuronen profitieren würde, die das unvorhergesehene Auftreten oder Weglassen von Belohnung signalisieren, und Neuronen in den anderen Strukturen, die gleichzeitig die spezifische Natur der Belohnung anzeigen.

Eine beeinträchtigte Dopamin-Neurotransmission mit Parkinson-Krankheit, experimentellen Läsionen oder neuroleptischer Behandlung ist mit vielen Verhaltensdefiziten in Bewegung (Akinesie, Tremor, Starrheit), Kognition (Aufmerksamkeit, Bradyphrenie, Planung, Lernen) und Motivation (reduzierte emotionale Reaktionen, Depression) verbunden. Die meisten Defizite werden durch eine systemische Dopaminvorläufer- oder Rezeptoragonist-Therapie erheblich gelindert, die die phasische Informationsübertragung durch neuronale Impulse nicht auf einfache Weise wiederherstellen kann. Es scheint, dass die Dopamin-Neurotransmission im Gehirn zwei getrennte Funktionen spielt, die phasische Verarbeitung von appetitanregenden und alarmierenden Informationen und die tonische Aktivierung einer Vielzahl von motorischen, kognitiven und motivationalen Prozessen ohne zeitliche Kodierung (11). Die tonische Dopaminfunktion basiert auf niedrigen, anhaltenden extrazellulären Dopaminkonzentrationen im Striatum (5-10 nM) und anderen Dopamin-innervierten Bereichen. Die umgebende Dopaminkonzentration wird lokal in einem engen Bereich durch spontane Impulse, synaptischen Überlauf, Wiederaufnahmetransport, Metabolismus, autorezeptorgesteuerte Freisetzung und Synthese sowie präsynaptische Transmitterinteraktion reguliert. Die tonische Stimulation der Dopaminrezeptoren sollte für eine optimale Funktion einer bestimmten Hirnregion weder zu niedrig noch zu hoch sein. Andere Neurotransmitter existieren in ähnlich niedrigen Umgebungskonzentrationen, wie Glutamat im Striatum, Großhirnrinde, Hippocampus und Kleinhirn, Aspartat und GABA im Striatum und frontalen Kortex und Adenosin im Hippocampus. Neuronen in vielen Gehirnstrukturen sind offenbar in einer „Suppe“ von Neurotransmittern gebadet, die starke, spezifische physiologische Wirkungen auf die neuronale Erregbarkeit haben. Angesichts der allgemeinen Bedeutung tonischer extrazellulärer Konzentrationen von Neurotransmittern scheint es, dass die breite Palette von Parkinson-Symptomen nicht durch eine mangelhafte Übertragung von Belohnungsinformationen durch Dopaminneuronen verursacht wird, sondern eine Fehlfunktion von striatalen und kortikalen Neuronen widerspiegeln würde, die durch eine gestörte Aktivierung durch reduziertes Umgebungsdopamin verursacht wird. Dopaminneuronen wären nicht aktiv an der Vielzahl von Prozessen beteiligt, bei denen Parkinsonismus fehlt, würden jedoch die wichtige Hintergrundkonzentration von Dopamin bereitstellen, die erforderlich ist, um die ordnungsgemäße Funktion der an diesen Prozessen beteiligten striatalen und kortikalen Neuronen aufrechtzuerhalten.

Die experimentelle Arbeit wurde vom Schweizerischen Nationalfonds, den Programmen Human Capital and Mobility und Biomed 2 der Europäischen Gemeinschaft über das Schweizerische Amt für Bildung und Wissenschaft, James S., unterstützt. McDonnell Foundation, der Roche Research Foundation, der United Parkinson Foundation (Chicago) und dem British Council.

W. Schultz erhielt 1997 den Theodore-Ott-Preis der Schweizerischen Akademie der Medizinischen Wissenschaften für die in diesem Artikel besprochene Arbeit.

Referenzzitate sind aufgrund redaktioneller Einschränkungen begrenzt

1 Dickinson, A. Zeitgenössische Tierlerntheorie. Cambridge, Vereinigtes Königreich: Cambridge Univ. Presse, 1980.
Google Scholar
2 Fibiger, H. C. und A. G. Phillips. Belohnung, Motivation, Kognition: psychobiologie mesotelenzephalischer Dopaminsysteme. In: Handbuch der Physiologie. Nervensystem. Intrinsische Regulationssysteme des Gehirns. Bethesda, MD: Bin. In: Physiol. Soc., 1986, sect. 1, vol. IV, Kap. 12, S. 647-675.
Google Scholar
3 Freund, T. F., J. F. Powell und A. D. Smith. Tyrosinhydroxylase-immunreaktive Boutons in synaptischem Kontakt mit identifizierten striatonigralen Neuronen, insbesondere in Bezug auf dendritische Stacheln. Neurowissenschaft 13: 1189-1215, 1984.
Crossref | PubMed | ISI / Google Scholar
4 Hollerman, J. R. und W. Schultz. Dopaminneuronen melden einen Fehler in der zeitlichen Vorhersage der Belohnung während des Lernens. In: Nature Neuroscience. 1: 304–309, 1998.
Crossref | PubMed | ISI / Google Scholar
5 Ljungberg, T., P. Apicella und W. Schultz. Reaktionen von Affen-Dopamin-Neuronen während des Lernens von Verhaltensreaktionen. In: J. Neurophysiol. 67: 145–163, 1992.
Link | ISI / Google Scholar
6 Montague, P. R., P. Dayan und T. J. Sejnowski. Ein Framework für mesencephalische Dopaminsysteme basierend auf prädiktivem Hebbian-Lernen. In: J. Neurosci. 16: 1936–1947, 1996.
Crossref | PubMed | ISI / Google Scholar
7 Mirenowicz, J. und W. Schultz. Bevorzugte Aktivierung von Dopamin-Neuronen des Mittelhirns durch appetitanregende statt aversive Reize. Natur 379: 449-451, 1996.
Crossref | PubMed | ISI / Google Scholar
8 Rescorla, R. A. und A. R. Wagner. Eine Theorie der Pawlowschen Konditionierung: Variationen in der Wirksamkeit von Verstärkung und Nichtverstärkung. In: Klassische Konditionierung II: Aktuelle Forschung und Theorie, herausgegeben von A. H. Black und W. F. Prokasy. New York: Appleton Century Crofts, 1972, S. 64-99.
Google Scholar
9 Robbins, T. W. und B. J. Everitt. Neurobehavioural Mechanismen der Belohnung und Motivation. Curr. Opin. Neurobiol. 6: 228–236, 1996.
Crossref | PubMed | ISI / Google Scholar
10 Romo, R. und W. Schultz. Dopaminneuronen des Affenmittelhirns: Kontingenzen von Reaktionen auf aktive Berührung während selbstinitiierter Armbewegungen. In: J. Neurophysiol. 63: 592–606, 1990.
Link / ISI / Google Scholar
11 Schultz, W. Prädiktives Belohnungssignal von Dopaminneuronen. In: J. Neurophysiol. 80: 1–27, 1998.
Link | ISI / Google Scholar
12 Schultz, W., P. Apicella und T. Ljungberg. Reaktionen von Affen-Dopamin-Neuronen auf Belohnungs- und Konditionierungsreize während aufeinanderfolgender Lernschritte einer verzögerten Reaktionsaufgabe. In: J. Neurosci. 13: 900–913, 1993.
Crossref | PubMed | ISI / Google Scholar
13 Schultz, W., P. Dayan und R. P. Montague. Ein neuronales Substrat der Vorhersage und Belohnung. Wissenschaft 275: 1593-1599, 1997.
Crossref | PubMed | ISI / Google Scholar
14 Smith, A. D. und J. P. Bolam. Das neuronale Netzwerk der Basalganglien, wie durch die Untersuchung der synaptischen Verbindungen identifizierter Neuronen aufgedeckt. In: Trends Neuroscience. 13: 259–265, 1990.
Crossref | PubMed | ISI / Google Scholar
15 Sutton, R. S. und A. G. Barto. Auf dem Weg zu einer modernen Theorie adaptiver Netzwerke: Erwartung und Vorhersage. Psychol. Offenbarung 88: 135-170, 1981.
Crossref / PubMed | ISI / Google Scholar

Das Belohnungssignal von Dopaminneuronen des Mittelhirns

Mögliche Verwendung des Belohnungsvorhersagefehlersignals

Schlussfolgerungen und Erweiterungen

You might also like

Elefantenemotionen

Courage to Be Safe Kursbeschreibung

Schreibe einen Kommentar Antworten abbrechen