Lorsque des organismes multicellulaires sont apparus grâce à l’évolution de molécules auto-reproductrices, ils ont développé des mécanismes autorégulateurs endogènes qui assuraient que leurs besoins en bien-être et en survie étaient satisfaits. Les sujets s’engagent dans diverses formes de comportement d’approche pour obtenir des ressources pour maintenir l’équilibre homéostatique et se reproduire. On dit que ces ressources biologiques ont des fonctions « enrichissantes » car elles suscitent et renforcent le comportement d’approche. Bien qu’initialement liées aux besoins biologiques, les récompenses se sont développées au cours de l’évolution des mammifères supérieurs pour soutenir des formes plus sophistiquées de comportement individuel et social. Les formes supérieures de récompenses sont souvent basées sur des représentations cognitives, et elles concernent des objets et des constructions tels que la nouveauté, le défi, la reconnaissance, le pouvoir, l’argent, le territoire et la sécurité. Ainsi, les besoins biologiques et cognitifs définissent la nature des récompenses, et la disponibilité des récompenses détermine certains des paramètres de base des conditions de vie du sujet.
Les récompenses ont trois fonctions de base (1). Premièrement, ils suscitent une approche et un comportement consommé et servent d’objectifs de comportement volontaire. Ce faisant, ils interrompent le comportement en cours et modifient les priorités des actions comportementales. Deuxièmement, les récompenses ont des effets de renforcement positifs. Ils augmentent la fréquence et l’intensité du comportement conduisant à de tels objets (apprentissage) et maintiennent le comportement appris en empêchant l’extinction. Cette fonction constitue l’essence du « retour pour plus » et se rapporte à la notion de recevoir des récompenses pour avoir fait quelque chose d’utile. L’apprentissage se poursuit lorsque les récompenses se produisent de manière imprévisible et ralentit à mesure que les récompenses sont de plus en plus prédites (8). Ainsi, l’apprentissage axé sur la récompense dépend de l’écart ou « erreur » entre la prédiction de la récompense et son occurrence réelle. Dans leur troisième fonction, les récompenses induisent des sentiments subjectifs de plaisir (hédonie) et des états émotionnels positifs. Cette fonction est difficile à étudier chez les animaux.
Une neurotransmission dopaminergique réduite chez les patients parkinsoniens et les animaux lésés expérimentalement est associée à de graves déficits de mouvement, de motivation, d’attention et de cognition. Un déficit de motivation constant concerne l’utilisation des informations de récompense pour l’apprentissage et le maintien de l’approche et du comportement consommé (2, 9). Les déficits se produisent principalement avec la destruction des projections des neurones dopaminergiques du mésencéphale vers le noyau accumbens et, dans une moindre mesure, vers le cortex frontal et le striatum (noyau caudé et putamen). Ces systèmes sont également impliqués dans les propriétés addictives des principales drogues d’abus, telles que la cocaïne, l’amphétamine, l’héroïne et la nicotine.
Les corps cellulaires des neurones dopaminergiques du mésencéphale sont situés dans les groupes A8 (substantia nigra dorsale à latérale), A9 (pars compacta de substantia nigra) et A10 (zone tegmentale ventrale médiale à substantia nigra). Ces neurones libèrent de la dopamine avec l’influx nerveux à partir de varicosités axonales dans le striatum, le noyau accumbens et le cortex frontal, pour ne nommer que les sites les plus importants (Fig. 1). Nous enregistrons l’activité impulsionnelle des corps cellulaires de neurones dopaminergiques uniques pendant des périodes de 20 à 60 minutes avec des microélectrodes mobiles à partir de positions extracellulaires pendant que les singes apprennent et effectuent des tâches comportementales. Les neurones se distinguent facilement des autres neurones du mésencéphale par leurs impulsions polyphasiques caractéristiques, relativement longues, déchargées à basse fréquence.
Nous échouons constamment à trouver des covariations claires avec les mouvements. En revanche, les neurones dopaminergiques présentent des activations phasiques après des événements liés à la récompense et certains stimuli induisant l’attention de la modalité somatosensorielle, visuelle et auditive (5, 10, 12). Ces réponses se produisent de manière très similaire dans 60 à 80% des neurones des groupes A8, A9 et A10 dans une gamme de situations comportementales, alors que les neurones dopaminergiques restants ne répondent pas du tout. Les situations testées incluent le conditionnement classique, diverses tâches de temps de réaction simples et de choix, des tâches go-no go directes et retardées, des tâches de réponse différée spatiale, une alternance différée spatiale, une discrimination visuelle et des mouvements auto-initiés. Les neurones réagissent légèrement plus dans les régions médiales du mésencéphale, telles que la zone tegmentale ventrale et la substantia nigra médiale, par rapport à des régions plus latérales, une différence qui atteint parfois une signification statistique. Les activations se produisent avec des latences similaires (50-110 ms) et des durées (< 200 ms) après des récompenses alimentaires et liquides, des stimuli conditionnés et des stimuli induisant l’attention. Ainsi, la réponse à la dopamine constitue un signal de population scalaire relativement homogène qui est gradué par l’amplitude de la réponse des neurones individuels et par les fractions de neurones répondant.
Les activations phasiques se produisent lorsque les animaux touchent un morceau de nourriture cachée ou lorsque des gouttes de liquide sont livrées à leur bouche en dehors des tâches comportementales ou pendant l’apprentissage (Fig. 2, en haut). Les neurones dopaminergiques distinguent les récompenses des objets non reculés, mais ne semblent pas discriminer les différents objets alimentaires ou récompenses liquides. Seuls quelques-uns montrent les activations phasiques après des stimuli aversifs primaires, tels que des bouffées d’air non toxiques à la main ou une solution saline hypertonique à la bouche (7). Ces stimuli sont aversifs car ils perturbent le comportement et induisent des réactions d’évitement actives.
La plupart des neurones dopaminergiques sont également activés par des stimuli visuels et auditifs conditionnés qui sont devenus des prédicteurs de récompense valides grâce à des appariements répétés et contingents avec des récompenses dans des procédures de conditionnement opérantes ou classiques (Fig. 2, milieu). En revanche, seuls quelques neurones dopaminergiques sont activés phasiquement par des stimuli visuels ou auditifs appris dans des tâches d’évitement actif dans lesquelles les animaux libèrent une clé pour éviter une bouffée d’air ou une goutte de solution saline hypertonique.
Parallèlement au développement de la réponse dopaminergique aux stimuli de prédiction de récompense pendant l’apprentissage, la réponse à la récompense prévue elle-même est perdue, comme si la réponse était transférée de la récompense au stimulus de prédiction de récompense (Fig. 2, haut vs milieu). Ceci est observé lorsque des récompenses gratuites sont délivrées en dehors des tâches comportementales et sont prédites par des stimuli conditionnés par l’apprentissage ou lorsque les récompenses se produisent de manière surprenante pendant les phases d’apprentissage individuelles et deviennent prédites lorsqu’une phase est entièrement acquise. Ainsi, les récompenses ne sont efficaces pour activer les neurones dopaminergiques que lorsqu’elles ne sont pas prédites par des stimuli phasiques.
Les neurones dopaminergiques ont une capacité limitée à distinguer les stimuli appétitifs des stimuli neutres ou aversifs. Seuls les stimuli qui sont physiquement suffisamment dissemblables sont bien discriminés. Les stimuli qui ne prédisent pas explicitement les récompenses mais ressemblent physiquement à des stimuli prédisant les récompenses induisent de petites activations suivies de dépressions dans une fraction limitée des neurones.
Les neurones dopaminergiques sont déprimés au moment habituel de la récompense lorsqu’une récompense prédite ne se produit pas après une erreur de l’animal, une retenue par l’expérimentateur ou un retard d’accouchement (Fig. 2, en bas). La dépression se produit en l’absence d’un stimulus précédant immédiatement la récompense omise. Cela reflète un processus d’attente basé sur une horloge interne qui concerne l’heure précise de la récompense prévue. D’autre part, une activation suit la récompense lorsque celle-ci est présentée à un moment différent de celui prévu (Fig. 3). Ces données suggèrent que la prédiction influençant les neurones dopaminergiques concerne à la fois l’occurrence et le moment de la récompense.
Les stimuli induisant l’attention, tels que des stimuli nouveaux ou physiquement intenses qui ne sont pas nécessairement liés à des récompenses, provoquent des activations dans les neurones dopaminergiques qui sont souvent suivies de dépressions. Les réponses de nouveauté disparaissent avec les réactions d’orientation comportementale après plusieurs répétitions de stimulus, la durée étant plus longue avec des stimuli physiquement plus saillants. Des stimuli intenses, tels que des clics forts ou de grandes images immédiatement devant un animal, suscitent des réponses fortes qui induisent encore des activations mesurables après > 1 000 essais. Cependant, les réponses à des stimuli nouveaux ou intenses s’atténuent rapidement lors du conditionnement du comportement d’évitement actif. Ces données suggèrent que les neurones dopaminergiques ne sont pas exclusivement entraînés par des stimuli liés à la récompense, mais sont également influencés par des stimuli induisant l’attention.
Pris ensemble, la plupart des neurones dopaminergiques présentent des activations phasiques après des récompenses alimentaires et liquides, et après des stimuli conditionnés et prévisibles. Ils montrent des réponses d’activation-dépression biphasiques après des stimuli qui ressemblent à des stimuli prédisant la récompense ou qui sont nouveaux ou particulièrement saillants. Cependant, seules quelques activations phasiques suivent des stimuli aversifs. Ainsi, les neurones dopaminergiques étiquettent les stimuli environnementaux avec une « étiquette » appétitive, prédisent et détectent les récompenses et signalent des événements d’alerte et de motivation.
Toutes les réponses aux récompenses et aux stimuli de prédiction des récompenses dépendent de la prévisibilité des événements qui concerne le moment précis de la récompense. Le contexte environnemental de prédiction de récompense plus tonique dans lequel une récompense se produit ne semble pas influencer les neurones dopaminergiques. La réponse à la récompense dopaminergique semble indiquer dans quelle mesure une récompense se produit différemment de celle prévue, appelée « erreur » dans la prédiction de la récompense. Ainsi, les neurones dopaminergiques rapportent des récompenses par rapport à leur prédiction, plutôt que de signaler des récompenses inconditionnellement. Ils semblent être des détecteurs de la qualité des événements environnementaux par rapport à la prédiction, étant activés en récompensant des événements meilleurs que prévus, en restant non influencés par des événements aussi bons que prévus et en étant déprimés par des événements pires que prévus (Fig. 2). Cependant, ils ne font pas de distinction entre les différentes récompenses et semblent donc émettre un message d’alerte sur la présence ou l’absence surprenante de récompenses sans indiquer la nature particulière de chaque récompense. Ils traitent le temps et la prédiction des récompenses, mais pas la nature de la récompense particulière.
Utilisation potentielle du signal d’erreur de prédiction de récompense
La réponse modérément éclatante, de courte durée et presque synchrone de la majorité des neurones dopaminergiques conduit à une libération optimale et simultanée de dopamine de la majorité des varicosités étroitement espacées dans le striatum et le cortex frontal. La courte bouffée de dopamine atteint rapidement des concentrations homogènes au niveau régional susceptibles d’influencer les dendrites de probablement tous les neurones striataux et de nombreux neurones corticaux. De cette façon, le message d’erreur de prédiction de récompense dans 60 à 80% des neurones dopaminergiques est diffusé sous la forme d’un signal de renforcement divergent, plutôt global, vers le striatum, le noyau accumbens et le cortex frontal, influençant phasiquement un nombre maximum de synapses impliquées dans le traitement des stimuli et des actions conduisant à la récompense. La réduction de la libération de dopamine induite par des dépressions avec des récompenses omises réduirait la stimulation tonique des récepteurs de la dopamine par la dopamine ambiante.
La disposition de base des influences synaptiques des neurones dopaminergiques sur les neurones du cortex striatal et frontal consiste en une triade comprenant des épines dendritiques, des terminaisons corticales excitatrices à l’extrémité des épines dendritiques et des varicosités dopaminergiques en contact avec les mêmes épines dendritiques (Fig. 4). Chaque neurone épineux striatal de taille moyenne reçoit ~ 1 000 synapses dopaminergiques au niveau de ses épines dendritiques et ~ 5 000 synapses corticales. Cette disposition permettrait aux neurones dopaminergiques d’influencer les effets synaptiques des entrées corticales aux neurones striataux. La dopamine libérée peut agir sur les neurones striataux et corticaux de plusieurs manières possibles. 1) L’effet immédiat peut consister en une modification de la neurotransmission corticostriatale. Cela modifierait l’information circulant dans les boucles des ganglions cortico-basaux et influencerait les neurones des structures corticales impliquées dans la structuration de la sortie comportementale. 2) Le cours temporel relativement lent de l’action de la membrane dopaminergique peut laisser une courte trace de l’événement de récompense et influencer toute activité ultérieure pendant un court moment. 3) La plasticité potentielle dépendante de la dopamine dans le striatum et les formes de réponses dopaminergiques observées peuvent induire des modifications plastiques des synapses striatales et corticales activées simultanément par les événements conduisant à la récompense.
Dans un modèle d’influence de la dopamine sur la neurotransmission striatale, A et B sont des entrées qui entrent en contact séparément avec les épines dendritiques d’un neurone striatal I (Fig. 4). Les poids synaptiques A → I et B → I sont modifiables Hebbiens à court ou à long terme. Les mêmes épines sont contactées sans discernement par le signal d’erreur de prédiction de récompense globale provenant de l’entrée dopaminergique X. Le neurone X et le neurone A, mais pas le neurone B, sont activés lorsqu’un signal lié à la récompense est rencontré. Le neurone X transmet le message qu’un événement de récompense s’est produit sans donner de détails spécifiques, tandis que le neurone A envoie un message sur l’un des nombreux aspects détaillés de l’événement lié à la récompense, tels que la couleur, la texture, la position, l’environnement, etc. du stimulus ou peut coder un mouvement conduisant à l’obtention de la récompense. Les poids des synapses striatales pourraient être modifiés selon la règle d’apprentissage Δω = ϵ * r * i * o, où ω est le poids synaptique, ω est la constante d’apprentissage, r est le signal d’erreur de prédiction de la dopamine, i est l’activation d’entrée et o est l’activation du neurone striatal. Ainsi, par la simultanéité ou la quasi-simultanéité de l’activité dans A et X, l’activité du neurone X peut induire un changement de neurotransmission au niveau de la synapse A → I active, mais laisser inchangée la neurotransmission B → I inactive. Dans le cas de modifications durables de la transmission synaptique, une entrée ultérieure du neurone A entraînerait une réponse accrue dans le neurone I, tandis que l’entrée du neurone B entraînerait une réponse inchangée dans le neurone I. Ainsi, les modifications synaptiques de la neurotransmission A → I et B → I sont conditionnelles au fait que le neurone dopaminergique X soit conjointement actif avec A ou B.
La réponse dopaminergique codant une erreur dans la prédiction de la récompense ressemble dans tous les aspects majeurs au signal de renforcement d’une classe particulièrement efficace de modèles de renforcement intégrant des algorithmes de différence temporelle (6, 13, 15). Ils sont basés sur des théories d’apprentissage comportemental qui supposent que l’apprentissage dépend de manière cruciale de l’écart ou de l’erreur entre la prédiction du renforcement et son occurrence réelle (1, 8). Dans ces modèles, un module critique génère un signal de renforcement global et l’envoie au module acteur qui apprend et exécute la sortie comportementale. L’architecture critique-acteur ressemble étroitement à la connectivité des ganglions de la base, y compris la projection de dopamine au striatum et la projection striatonigrale réciproque. Les modèles utilisant des algorithmes de différence temporelle apprennent une grande variété de tâches comportementales, allant de l’équilibrage d’un poteau sur une roue de chariot au jeu de backgammon de classe mondiale (pour les références, voir Réf. 11). Les robots utilisant des algorithmes de différence temporelle apprennent à se déplacer dans l’espace bidimensionnel et à éviter les obstacles, à atteindre et à saisir, ou à insérer une cheville dans un trou. Les modèles de différences temporelles d’inspiration neurobiologique reproduisent le comportement de recherche de nourriture des abeilles domestiques, simulent la prise de décision humaine et apprennent les réactions d’orientation, les mouvements oculaires, les mouvements séquentiels et les tâches de réponse différée spatiale. Il est particulièrement intéressant de voir que les signaux d’enseignement utilisant des erreurs de prédiction entraînent un apprentissage plus rapide et plus complet, par rapport aux signaux de renforcement inconditionnel.
Conclusions et extensions
L’étude de l’activité des neurones dopaminergiques a conduit à la découverte surprenante que ces neurones ne sont pas modulés par rapport aux mouvements, bien que les mouvements soient déficients chez les patients parkinsoniens. Au contraire, les neurones dopaminergiques codent sous une forme très spéciale les aspects enrichissants des stimuli environnementaux, ainsi que certaines caractéristiques induisant l’attention. Les réponses sont provoquées par des récompenses primaires (« stimuli inconditionnels »), des stimuli prédisant les récompenses conditionnées, des stimuli ressemblant à des stimuli liés à la récompense et des stimuli nouveaux ou intenses. Cependant, les stimuli liés à la récompense ne sont rapportés que lorsqu’ils se produisent différemment des prévisions, la prédiction concernant à la fois l’occurrence et l’heure de l’événement. Le message d’erreur de prédiction est un signal très puissant pour diriger le comportement et induire l’apprentissage, selon les théories d’apprentissage des animaux et les modèles de renforcement. Cependant, le signal dopaminergique ne spécifie pas exactement quelle récompense se produit différemment de celle prévue ou s’il s’agit vraiment d’une récompense ou, plutôt, d’un stimulus prédisant la récompense. Des stimuli ressemblant à des récompenses et des stimuli nouveaux ou particulièrement saillants provoquent des séquences d’activation-dépression qui ressemblent aux activations monophasiques provoquées par des stimuli imprévus liés à la récompense. Le signal dopaminergique semble donc être un signal d’alerte de récompense prédominant, et d’autres systèmes cérébraux doivent traiter des informations supplémentaires pour apprendre des réactions comportementales correctes aux stimuli environnementaux motivants.
Les informations concernant les récompenses alimentaires et liquides sont également traitées dans des structures cérébrales autres que les neurones dopaminergiques, telles que le striatum dorsal et ventral, le noyau sous-thalamique, l’amygdale, le cortex préfrontal dorsolatéral, le cortex orbitofrontal et le cortex cingulaire antérieur. Cependant, ces structures ne semblent pas émettre un signal d’erreur de prédiction de récompense globale similaire aux neurones dopaminergiques. Ces structures montrent 1) des réponses transitoires après la délivrance des récompenses, 2) des réponses transitoires aux signaux de prédiction des récompenses, 3) des activations soutenues pendant l’attente des récompenses et 4) des modulations de l’activité liée au comportement par des récompenses prédites (pour les références, voir Réf. 11). Beaucoup de ces neurones se différencient bien entre les différentes récompenses alimentaires ou liquides. Ainsi, ils peuvent traiter la nature spécifique de l’événement gratifiant. Certaines réponses de récompense dépendent de l’imprévisibilité de la récompense lorsqu’elle est réduite ou absente lorsque la récompense est prédite par un stimulus conditionné, bien qu’il ne soit pas clair si elles signalent des erreurs de prédiction similaires aux neurones dopaminergiques. Il apparaît ainsi que le traitement de récompenses spécifiques pour l’apprentissage et le maintien du comportement d’approche profiterait fortement d’une coopération entre les neurones dopaminergiques signalant l’apparition ou l’omission imprévue de la récompense et les neurones dans les autres structures indiquant simultanément la nature spécifique de la récompense.
Une neurotransmission dopaminergique altérée avec la maladie de Parkinson, des lésions expérimentales ou un traitement neuroleptique est associée à de nombreux déficits comportementaux dans le mouvement (akinésie, tremblement, rigidité), la cognition (attention, bradyphrénie, planification, apprentissage) et la motivation (réponses émotionnelles réduites, dépression). La plupart des déficits sont considérablement atténués par un traitement systémique par un précurseur de dopamine ou un agoniste des récepteurs, qui ne peut pas restituer de manière simple la transmission d’informations phasiques par des impulsions neuronales. Il semble que la neurotransmission de la dopamine joue deux fonctions distinctes dans le cerveau, le traitement phasique des informations appétitives et d’alerte et la activation tonique d’une grande variété de processus moteurs, cognitifs et motivationnels sans codage temporel (11). La fonction dopaminergique tonique est basée sur des concentrations de dopamine extracellulaire faibles et soutenues dans le striatum (5-10 nM) et d’autres zones innervées par la dopamine. La concentration de dopamine ambiante est régulée localement dans une plage étroite par des impulsions spontanées, un débordement synaptique, un transport de recapture, un métabolisme, une libération et une synthèse contrôlées par les autorécepteurs et une interaction transmettrice présynaptique. La stimulation tonique des récepteurs de la dopamine ne doit être ni trop faible ni trop élevée pour une fonction optimale d’une région cérébrale donnée. D’autres neurotransmetteurs existent à des concentrations ambiantes également faibles, telles que le glutamate dans le striatum, le cortex cérébral, l’hippocampe et le cervelet, l’aspartate et le GABA dans le striatum et le cortex frontal, et l’adénosine dans l’hippocampe. Les neurones de nombreuses structures cérébrales sont apparemment baignés dans une « soupe » de neurotransmetteurs qui ont de puissants effets physiologiques spécifiques sur l’excitabilité neuronale. Compte tenu de l’importance générale des concentrations extracellulaires toniques de neurotransmetteurs, il semble que le large éventail de symptômes parkinsoniens ne serait pas causé par une transmission déficiente de l’information de récompense par les neurones dopaminergiques, mais refléterait un dysfonctionnement des neurones striataux et corticaux causé par une altération de l’activation par une diminution de la dopamine ambiante. Les neurones dopaminergiques ne seraient pas activement impliqués dans le large éventail de processus déficients en parkinsonisme, mais fourniraient l’importante concentration de fond de dopamine nécessaire au bon fonctionnement des neurones striataux et corticaux impliqués dans ces processus.
Le travail expérimental a été soutenu par le Fonds National Suisse de la Science, les programmes Capital Humain et Mobilité et Biomed 2 de la Communauté Européenne via l’Office Suisse de l’Éducation et des Sciences, le James S. La Fondation McDonnell, la Roche Research Foundation, la United Parkinson Foundation (Chicago) et le British Council.
W. Schultz a reçu le Prix Théodore Ott 1997 de l’Académie Suisse des Sciences médicales pour les travaux examinés dans cet article.
Les citations de référence sont limitées en raison de restrictions éditoriales
- 1 Dickinson, A. Théorie Contemporaine de l’apprentissage des Animaux. Cambridge, Royaume-Uni: Cambridge Univ. Presse, 1980.
Google Scholar - 2 Fibiger, H. C. et A. G. Phillips. Récompense, motivation, cognition: psychobiologie des systèmes dopaminergiques mésotélencéphaliques. Dans: Manuel de physiologie. Le Système Nerveux. Systèmes de régulation intrinsèques du Cerveau. Bethesda, MD: Un matin. Physiol. Soc., 1986, sect. 1, vol. IV, chap. 12, p. 647 à 675.
Google Scholar - 3 Freund, T. F., J. F. Powell et A. D. Smith. Boutons de tyrosine hydroxylase-immunoréactifs en contact synaptique avec des neurones striatonigraux identifiés, en particulier les épines dendritiques. Neuroscience 13:1189-1215, 1984.
Crossref |PubMed | ISI / Google Scholar - 4 Hollerman, J. R. et W. Schultz. Les neurones dopaminergiques signalent une erreur dans la prédiction temporelle de la récompense pendant l’apprentissage. Nature Neurosci. 1: 304–309, 1998.
Crossref | PubMed | ISI / Google Scholar - 5 Ljungberg, T., P. Apicella et W. Schultz. Réponses des neurones dopaminergiques du singe lors de l’apprentissage des réactions comportementales. J. Neurophysiol. 67: 145–163, 1992.
Lien/ ISI/ Google Scholar - 6 Montague, P. R., P. Dayan et T. J. Sejnowski. Un cadre pour les systèmes dopaminergiques mésencéphaliques basé sur l’apprentissage Hebbien prédictif. J. Neurosci. 16: 1936–1947, 1996.
Crossref|PubMed|ISI/Google Scholar - 7 Mirenowicz, J. et W. Schultz. Activation préférentielle des neurones dopaminergiques du mésencéphale par des stimuli appétitifs plutôt qu’aversifs. Nature 379:449-451, 1996.
Crossref|PubMed|ISI/ Google Scholar - 8 Rescorla, R. A. et A. R. Wagner. Une théorie du conditionnement pavlovien: variations de l’efficacité du renforcement et du non-renforcement. Dans: Conditionnement classique II: Recherche et théorie actuelles, édité par A. H. Black et W. F. Prokasy. Il est l’auteur de plusieurs ouvrages de référence.
Google Scholar - 9 Robbins, T. W. et B. J. Everitt. Mécanismes neurocomportementaux de récompense et de motivation. Curr. Opin. Neurobiol. 6: 228–236, 1996.
Crossref|PubMed|ISI/ Google Scholar - 10 Romo, R. et W. Schultz. Neurones dopaminergiques du mésencéphale du singe: contingences de réponses au toucher actif lors de mouvements de bras auto-initiés. J. Neurophysiol. 63: 592–606, 1990.
Lien / ISI / Google Scholar - 11 Schultz, W. Signal de récompense prédictif des neurones dopaminergiques. J. Neurophysiol. 80: 1–27, 1998.
Lien / ISI / Google Scholar - 12 Schultz, W., P. Apicella et T. Ljungberg. Réponses des neurones dopaminergiques de singe à la récompense et aux stimuli conditionnés lors des étapes successives d’apprentissage d’une tâche de réponse retardée. J. Neurosci. 13: 900–913, 1993.
Crossref |PubMed| ISI / Google Scholar - 13 Schultz, W., P. Dayan et R. P. Montague. Un substrat neural de prédiction et de récompense. Science 275: 1593-1599, 1997.
Crossref / PubMed / ISI / Google Scholar - 14 Smith, A. D. et J. P. Bolam. Le réseau neuronal des ganglions de la base tel que révélé par l’étude des connexions synaptiques des neurones identifiés. Tendances Neurosci. 13: 259–265, 1990.
Crossref|PubMed| ISI/ Google Scholar - 15 Sutton, R.S. et A. G. Barto. Vers une théorie moderne des réseaux adaptatifs: attente et prédiction. Psychol. Rév. 88:135-170, 1981.
Crossref/PubMed/ISI/Google Scholar