når multicellulære organismer opstod gennem udviklingen af selvreproducerende molekyler, udviklede de endogene, autoregulatoriske mekanismer, der forsikrede, at deres behov for velfærd og overlevelse blev opfyldt. Emner engagerer sig i forskellige former for tilgangsadfærd for at få ressourcer til at opretholde homeostatisk balance og reproducere sig selv. Disse biologiske ressourcer siges at have “givende” funktioner, fordi de fremkalder og styrker tilgangsadfærd. Selvom det oprindeligt var relateret til biologiske behov, udviklede belønninger sig yderligere under udviklingen af højere pattedyr for at understøtte mere sofistikerede former for individuel og social adfærd. Højere former for belønninger er ofte baseret på kognitive repræsentationer, og de vedrører sådanne genstande og konstruktioner som nyhed, udfordring, anerkendelse, magt, penge, territorium og sikkerhed. Således definerer biologiske og kognitive behov karakteren af belønninger, og tilgængeligheden af belønninger bestemmer nogle af de grundlæggende parametre for motivets livsbetingelser.
belønninger har tre grundlæggende funktioner (1). For det første fremkalder de tilgang og fuldbyrdende adfærd og tjener som mål for frivillig adfærd. Dermed afbryder de løbende adfærd og ændrer prioriteterne for adfærdsmæssige handlinger. For det andet har belønninger positive forstærkende virkninger. De øger hyppigheden og intensiteten af adfærd, der fører til sådanne objekter (læring) og opretholder indlært adfærd ved at forhindre udryddelse. Denne funktion udgør essensen af at” komme tilbage efter mere ” og vedrører forestillingen om at modtage belønninger for at have gjort noget nyttigt. Læring fortsætter, når belønninger forekommer uforudsigeligt og bremser, da belønninger bliver mere og mere forudsagt (8). Således afhænger belønningsdrevet læring af uoverensstemmelsen eller” fejlen ” mellem forudsigelsen af belønning og dens faktiske forekomst. I deres tredje funktion fremkalder belønninger subjektive følelser af glæde (hedonia) og positive følelsesmæssige tilstande. Denne funktion er vanskelig at undersøge hos dyr.
reduceret dopamin-neurotransmission hos Parkinson-patienter og eksperimentelt læsionerede dyr er forbundet med alvorlige underskud i bevægelse, motivation, opmærksomhed og kognition. Et konsekvent motivationsunderskud vedrører brugen af belønningsoplysninger til læring og vedligeholdelse af tilgang og fuldbyrdende adfærd (2, 9). Underskuddene forekommer hovedsageligt med ødelæggelse af fremspring fra mellemhjernens dopaminneuroner til nucleus accumbens og i mindre grad til frontalbark og striatum (caudatkernen og putamen). Disse systemer er også involveret i de vanedannende egenskaber ved større misbrugsmedicin, såsom kokain, amfetamin, heroin og nikotin.
cellelegemer af mellemhjernedopaminneuroner er placeret i grupper A8 (dorsal til lateral substantia nigra), A9 (pars compacta af substantia nigra) og A10 (ventral tegmental område medial til substantia nigra). Disse neuroner frigiver dopamin med nerveimpulser fra aksonale varicositeter i striatum, nucleus accumbens og frontalbarken for at nævne de vigtigste steder (Fig. 1). Vi registrerer impulsaktiviteten fra cellelegemer af enkelte dopaminneuroner i perioder på 20-60 minutter med bevægelige mikroelektroder fra ekstracellulære positioner, mens aber lærer og udfører adfærdsmæssige opgaver. Neuronerne kan let skelnes fra andre mellemhjerneneuroner ved deres karakteristiske polyfasiske, relativt lange impulser, der udledes ved lave frekvenser.
vi konsekvent undlader at finde klare kovariationer med bevægelser. I modsætning hertil viser dopaminneuroner fasiske aktiveringer efter belønningsrelaterede begivenheder og visse opmærksomhedsfremkaldende stimuli af den somatosensoriske, visuelle og auditive modalitet (5, 10, 12). Disse reaktioner forekommer på en meget lignende måde i 60-80% af neuronerne i gruppe A8, A9 og A10 i en række adfærdsmæssige situationer, mens de resterende dopaminneuroner slet ikke reagerer. Testede situationer inkluderer klassisk konditionering, forskellige enkle og valgte reaktionstidsopgaver, direkte og forsinkede GO-no go-opgaver, rumlig forsinket responsopgave, rumlig forsinket veksling, visuel diskrimination og selvinitierede bevægelser. Neuroner reagerer lidt mere i mediale mellemhjerneområder, såsom det ventrale tegmentale område og mediale substantia nigra sammenlignet med flere laterale regioner, en forskel, der lejlighedsvis når statistisk signifikans. Aktiveringerne forekommer med lignende forsinkelser (50-110 ms) og varigheder (<200 ms) efter belønning af mad og væske, konditionerede stimuli og opmærksomhedsfremkaldende stimuli. Dopaminresponsen udgør således et relativt homogent, skalært populationssignal, der klassificeres af responsstørrelsen af individuelle neuroner og af fraktionerne af neuroner, der reagerer.
fasiske aktiveringer opstår, når Dyr rører ved et stykke skjult mad, eller når dråber væske leveres til deres mund uden for adfærdsmæssige opgaver eller under læring (Fig. 2, top). Dopaminneuroner skelner belønninger fra ikke-belånte genstande, men ser ikke ud til at skelne mellem forskellige madgenstande eller flydende belønninger. Kun få viser de fasiske aktiveringer efter primære aversive stimuli, såsom ikke-giftige luftpust til hånden eller hypertonisk saltvand til munden (7). Disse stimuli er aversive, fordi de forstyrrer adfærd og inducerer aktive undgåelsesreaktioner.
de fleste dopaminneuroner aktiveres også af konditionerede visuelle og auditive stimuli, der er blevet gyldige belønningsprædiktorer gennem gentagen og betinget parring med belønninger i operante eller klassiske konditioneringsprocedurer (Fig. 2, midten). I modsætning hertil aktiveres kun nogle få dopaminneuroner phasically af indlærte visuelle eller auditive stimuli i aktive undgåelsesopgaver, hvor dyr frigiver en nøgle for at undgå en luftpust eller en dråbe hypertonisk saltvand.
samtidig med udviklingen af dopaminresponset til belønningsforudsigende stimuli under læring går svaret på den forudsagte belønning selv tabt, som om svaret overføres fra belønningen til belønningsforudsigende stimulus (Fig. 2, top vs. midten). Dette observeres, når gratis belønninger leveres uden for adfærdsmæssige opgaver og forudsiges af konditionerede stimuli gennem læring, eller når belønninger forekommer overraskende i individuelle læringsfaser og forudsiges, når en fase er fuldt erhvervet. Således er belønninger kun effektive til aktivering af dopaminneuroner, når de ikke forudsiges af fasiske stimuli.
dopaminneuroner har en begrænset kapacitet til at skelne mellem appetitlige og neutrale eller aversive stimuli. Kun stimuli, der er fysisk tilstrækkeligt forskellige, diskrimineres godt. Stimuli, der ikke eksplicit forudsiger belønninger, men fysisk ligner belønningsforudsigende stimuli, fremkalder små aktiveringer efterfulgt af depressioner i en begrænset brøkdel af neuroner.
dopaminneuroner er deprimeret på det sædvanlige tidspunkt for belønning, når en forudsagt belønning ikke forekommer efter en fejl i dyret, tilbageholdelse af eksperimentatoren eller forsinket levering (Fig. 2, bunden). Depressionen forekommer i fravær af en stimulus umiddelbart forud for den udeladte belønning. Dette afspejler en forventningsproces baseret på et internt ur, der vedrører den præcise tid for den forudsagte belønning. På den anden side følger en aktivering belønningen, når denne præsenteres på et andet tidspunkt end forudsagt (Fig. 3). Disse data antyder, at forudsigelsen, der påvirker dopaminneuroner, vedrører både forekomsten og tidspunktet for belønning.
Opmærksomhedsfremkaldende stimuli, såsom nye eller fysisk intense stimuli, der ikke nødvendigvis er relateret til belønninger, fremkalder aktiveringer i dopaminneuroner, der ofte efterfølges af depressioner. Nyhedsresponser aftager sammen med adfærdsmæssige orienterende reaktioner efter flere stimulusrepetitioner, hvor varigheden er længere med fysisk mere fremtrædende stimuli. Intense stimuli, såsom høje klik eller store billeder umiddelbart foran et dyr, fremkalder stærke reaktioner, der stadig fremkalder målbare aktiveringer efter >1.000 forsøg. Imidlertid aftager reaktioner på nye eller intense stimuli hurtigt under konditionering af aktiv undgåelsesadfærd. Disse data antyder, at dopaminneuroner ikke udelukkende drives af belønningsrelaterede stimuli, men også påvirkes af opmærksomhedsfremkaldende stimuli.
samlet set viser de fleste dopaminneuroner fasiske aktiveringer efter mad-og væskebelønninger og efter konditioneret belønningforudsigende stimuli. De viser bifasiske aktiveringsdepressionsresponser efter stimuli, der ligner belønningsforudsigende stimuli eller er nye eller særligt fremtrædende. Imidlertid følger kun få fasiske aktiveringer aversive stimuli. Dopaminneuroner mærker således miljømæssige stimuli med et appetitligt “tag”, forudsiger og registrerer belønninger og signalerer alarmering og motiverende begivenheder.
alle svar på belønninger og belønningsforudsigende stimuli afhænger af hændelsesforudsigelighed, der vedrører det præcise tidspunkt for belønning. Den mere toniske belønningsforudsigende miljøkontekst, hvor en belønning forekommer, ser ikke ud til at påvirke dopaminneuroner. Dopaminbelønningsresponsen ser ud til at indikere, i hvilket omfang en belønning forekommer anderledes end forudsagt, betegnet en “fejl” i forudsigelsen af belønning. Således rapporterer dopaminneuroner belønninger i forhold til deres forudsigelse snarere end at signalere belønninger ubetinget. De ser ud til at være funktionsdetektorer for godheden ved miljøhændelser i forhold til forudsigelse, aktiveres ved at belønne begivenheder, der er bedre end forudsagt, forbliver upåvirket af begivenheder, der er så gode som forudsagt, og bliver deprimeret af begivenheder, der er værre end forudsagt (Fig. 2). De undlader imidlertid at skelne mellem forskellige belønninger og ser således ud til at udsende en advarselsmeddelelse om den overraskende tilstedeværelse eller fravær af belønninger uden at indikere den særlige karakter af hver belønning. De behandler tiden og forudsigelsen af belønninger, men ikke arten af den særlige belønning.
potentiel anvendelse af belønningsforudsigelsesfejlsignalet
den moderat sprængende, kortvarige, næsten synkrone respons fra flertallet af dopaminneuroner fører til optimal, samtidig dopaminfrigivelse fra størstedelen af tæt adskilte varicositeter i striatum og frontalbarken. Den korte pust af dopamin når hurtigt regionalt homogene koncentrationer, der sandsynligvis vil påvirke dendritterne af sandsynligvis alle striatale og mange kortikale neuroner. På denne måde udsendes belønningsforudsigelsesfejlmeddelelsen i 60-80% af dopaminneuroner som et divergerende, ret globalt forstærkningssignal til striatum, nucleus accumbens og frontalbarken, der phasically påvirker et maksimalt antal synapser involveret i behandlingen af stimuli og handlinger, der fører til belønning. Reduktionen af dopaminfrigivelse induceret af depressioner med udeladte belønninger ville reducere den toniske stimulering af dopaminreceptorer med omgivende dopamin.
det grundlæggende arrangement af synaptiske påvirkninger af dopaminneuroner på striatale og frontale hjernebarkneuroner består af en triade omfattende dendritiske rygsøjler, spændende kortikale terminaler ved spidsen af dendritiske rygsøjler og dopaminvarikositeter, der kontakter de samme dendritiske rygsøjler (Fig. 4). Hver mellemstor striatal spiny neuron modtager ~1.000 dopaminerge synapser ved sine dendritiske rygsøjler og ~5.000 kortikale synapser. Dette arrangement ville gøre det muligt for dopaminneuroner at påvirke de synaptiske virkninger af kortikale input til striatale neuroner. Den frigivne dopamin kan virke på striatale og kortikale neuroner på flere mulige måder. 1) den umiddelbare virkning kan bestå i en ændring af kortikostriatal neurotransmission. Dette ville ændre information, der cirkulerer i cortico-basale ganglier sløjfer og påvirke neuroner i kortikale strukturer involveret i strukturering af adfærdsmæssig output. 2) den relativt langsomme tidsforløb for dopaminmembranvirkning kan efterlade et kort spor af belønningsbegivenheden og påvirke al efterfølgende aktivitet i et kort stykke tid. 3) den potentielle dopaminafhængige plasticitet i striatum og de observerede former for dopaminresponser kan inducere plastiske ændringer i striatale og kortikale synapser, der samtidig aktiveres af begivenhederne, der fører til belønning.
i en model af dopaminpåvirkninger på striatal neurotransmission er A og B input, der separat kontakter dendritiske rygsøjler af en striatal neuron i (Fig. 4). De synaptiske vægte a kurr I og B kurr I er kortsigtede eller langsigtede Hebbian modificerbare. De samme rygsøjler kontaktes uden forskel af det globale fejlsignal for belønningsforudsigelse fra dopamininput. både neuron og neuron A, men ikke neuron B, aktiveres, når der opstår et belønningsrelateret signal. Neuron sender meddelelsen om, at en givende begivenhed har fundet sted uden at give specifikke detaljer, mens neuron a sender en besked om et af flere detaljerede aspekter af den belønningsrelaterede begivenhed, såsom farve, tekstur, position, omgivelser osv. af stimulus eller kan kode en bevægelse, der fører til opnåelse af belønningen. Vægtene af striatale synapser kunne modificeres i henhold til læringsreglen prit = prit• r•I•o, hvor prit er synaptisk vægt, prit lærer konstant, r er dopaminforudsigelsesfejlsignal, jeg er inputaktivering, og O er aktivering af striatalneuron. I modsætning til den aktive a-Siri I-synaps kan aktiviteten af neuron inducere en ændring i neurotransmission ved den aktive a-Siri I-synapse, men lade den inaktive B-Siriri-sirisation være uændret. I tilfælde af varige ændringer i synaptisk transmission, efterfølgende input fra neuron a ville føre til et øget respons i neuron i, hvorimod input fra neuron B fører til et uændret respons i neuron I. således er de synaptiske ændringer af en karrus i og B karrus i neurotransmission betinget af, at dopaminneuron H er sammenfaldende aktiv med A eller B.
dopaminresponset, der koder for en fejl i forudsigelsen af belønning, ligner i alle større aspekter forstærkningssignalet fra en særlig effektiv klasse af forstærkningsmodeller, der inkorporerer tidsforskelalgoritmer (6, 13, 15). De er baseret på adfærdsmæssige læringsteorier, der antager, at læring afhænger afgørende af uoverensstemmelsen eller fejlen mellem forudsigelsen af forstærkning og dens faktiske forekomst (1, 8). I disse modeller genererer et kritikermodul et globalt forstærkningssignal og sender det til skuespillermodulet, der lærer og udfører adfærdsmæssig output. Kritiker-aktørarkitekturen ligner tæt forbindelsen mellem de basale ganglier, inklusive dopaminprojektionen til striatum og den gensidige striatonigral projektion. Modeller, der bruger tidsmæssige forskelalgoritmer, lærer en bred vifte af adfærdsmæssige opgaver, der når fra at afbalancere en stang på et vognhjul til at spille backgammon i verdensklasse (for referencer, se Ref. 11). Robotter, der bruger tidsmæssige forskelalgoritmer, lærer at bevæge sig rundt i todimensionelt rum og undgå forhindringer, nå og forstå eller indsætte en pind i et hul. Neurobiologisk inspirerede tidsmæssige forskelmodeller replikerer honningbiers foderadfærd, simulerer menneskelig beslutningstagning og lærer orienterende reaktioner, øjenbevægelser, sekventielle bevægelser og rumlige forsinkede responsopgaver. Det er især interessant at se, at undervisningssignaler ved hjælp af forudsigelsesfejl resulterer i hurtigere og mere komplet læring sammenlignet med ubetingede forstærkningssignaler.
konklusioner og udvidelser
undersøgelsen af aktiviteten af dopaminneuroner resulterede i det overraskende fund, at disse neuroner ikke moduleres i forhold til bevægelser, selvom bevægelser er mangelfulde hos parkinsonpatienter. Snarere koder dopaminneuroner i en meget speciel form de givende aspekter af miljømæssige stimuli sammen med visse opmærksomhedsfremkaldende egenskaber. Svarene fremkaldes af primære belønninger (“ubetingede stimuli”), konditioneret belønningsforudsigende stimuli, stimuli, der ligner belønningsrelaterede stimuli, og nye eller intense stimuli. Imidlertid rapporteres belønningsrelaterede stimuli kun, når de forekommer anderledes end forudsagt, forudsigelsen vedrørende både forekomsten og tidspunktet for begivenheden. Forudsigelsesfejlmeddelelsen er et meget kraftigt signal til at styre adfærd og inducere læring i henhold til dyrelæringsteorier og forstærkningsmodeller. Dopaminsignalet specificerer imidlertid ikke nøjagtigt, hvilken belønning det er, der forekommer anderledes end forudsagt, eller om det virkelig er en belønning eller snarere en belønningsforudsigende stimulus. Stimuli, der ligner belønninger og nye eller særligt fremtrædende stimuli, fremkalder aktiverings-depressionssekvenser, der ligner de monofasiske aktiveringer fremkaldt af uforudsigelig belønningsrelateret stimuli. Dopaminsignalet ser således ud til at være et overvejende belønningsadvarslende signal, og andre hjernesystemer skal behandle yderligere information for at lære korrekte adfærdsmæssige reaktioner på motiverende miljømæssige stimuli.
oplysninger om fødevarer og væskebelønninger behandles også i andre hjernestrukturer end dopaminneuroner, såsom dorsal og ventral striatum, subthalamisk kerne, amygdala, dorsolateral præfrontal hjernebark, orbitofrontal hjernebark og forreste cingulatabark. Imidlertid ser disse strukturer ikke ud til at udsende et globalt belønningsfejl, der ligner dopaminneuroner. Disse strukturer viser 1) forbigående reaktioner efter levering af belønninger, 2) forbigående reaktioner på belønningsforudsigende signaler, 3) vedvarende aktiveringer under forventningen om belønninger og 4) moduleringer af adfærdsrelateret aktivitet ved forudsagte belønninger (for referencer, se Ref. 11). Mange af disse neuroner skelner godt mellem forskellige fødevarer eller væskebelønninger. Således kan de behandle den særlige karakter af den givende begivenhed. Nogle belønningsresponser afhænger af belønningens uforudsigelighed ved at blive reduceret eller fraværende, når belønningen forudsiges af en betinget stimulus, skønt det er uklart, om de signalerer forudsigelsesfejl svarende til dopaminneuroner. Det ser således ud til, at behandlingen af specifikke belønninger for læring og vedligeholdelse af tilgangsadfærd stærkt ville drage fordel af et samarbejde mellem dopaminneuroner, der signaliserer den uforudsigelige forekomst eller udeladelse af belønning og neuroner i de andre strukturer, der samtidig indikerer belønningens specifikke karakter.
nedsat dopamin-neurotransmission med Parkinsons sygdom, eksperimentelle læsioner eller neuroleptisk behandling er forbundet med mange adfærdsmæssige underskud i bevægelse (akinesi, rysten, stivhed), kognition (opmærksomhed, bradyphreni, planlægning, læring) og motivation (reducerede følelsesmæssige reaktioner, depression). De fleste underskud forbedres betydeligt ved systemisk dopaminprecursor eller receptoragonistbehandling, som ikke på en enkel måde kan genoprette den fasiske informationstransmission ved neuronale impulser. Det ser ud til, at dopamin-neurotransmission spiller to separate funktioner i hjernen, den fasiske behandling af appetitlig og alarmerende information og den toniske aktivering af en lang række motoriske, kognitive og motiverende processer uden tidsmæssig kodning (11). Den toniske dopaminfunktion er baseret på lave, vedvarende ekstracellulære dopaminkoncentrationer i striatum (5-10 nM) og andre dopamin-innerverede områder. Den omgivende dopaminkoncentration reguleres lokalt inden for et snævert område ved spontane impulser, synaptisk overløb, genoptagelsestransport, stofskifte, autoreceptor-kontrolleret frigivelse og syntese og presynaptisk transmitterinteraktion. Den toniske stimulering af dopaminreceptorer bør hverken være for lav eller for høj til en optimal funktion af et givet hjerneområde. Andre neurotransmittere findes i tilsvarende lave omgivende koncentrationer, såsom glutamat i striatum, hjernebark, hippocampus og cerebellum, aspartat og GABA i striatum og frontalbark og adenosin i hippocampus. Neuroner i mange hjernestrukturer bades tilsyneladende i en” suppe ” af neurotransmittere, der har kraftige, specifikke fysiologiske virkninger på neuronal ophidselse. I betragtning af den generelle betydning af toniske ekstracellulære koncentrationer af neurotransmittere ser det ud til, at den brede vifte af parkinsonsymptomer ikke ville være forårsaget af mangelfuld transmission af belønningsinformation af dopaminneuroner, men ville afspejle en funktionsfejl i striatale og kortikale neuroner forårsaget af nedsat aktivering af reduceret omgivende dopamin. Dopaminneuroner ville ikke være aktivt involveret i den brede vifte af processer, der er mangelfulde i parkinsonisme, men ville give den vigtige baggrundskoncentration af dopamin, der er nødvendig for at opretholde korrekt funktion af striatale og kortikale neuroner involveret i disse processer.
det eksperimentelle arbejde blev støttet af det svenske National Science Foundation, Human Capital and Mobility og Biomed 2 programmer i Det Europæiske Fællesskab via det svenske kontor for uddannelse og videnskab, James S. McDonnell Foundation, Roche Research Foundation, United Parkinson Foundation (Chicago) og British Council.
blev tildelt 1997 Theodore Ott-prisen for det arbejde, der blev gennemgået i denne artikel.
Referencecitationer er begrænsede på grund af redaktionelle begrænsninger
- 1 Dickinson, A. moderne Dyrelæringsteori. Cambridge, Storbritannien: Cambridge Univ. Presse, 1980.
Google Scholar - 2 Fibiger, H. C. og A. G. Phillips. Belønning, motivation, kognition: psykobiologi af mesotelencephalic dopaminsystemer. In: Håndbog om fysiologi. nervesystem. Intrinsiske reguleringssystemer i hjernen. Bethesda, MD: er. Physiol. Soc., 1986, sekt. 1, vol. IV, chapt. 12, s. 647-675.
Google Scholar - 3 Freund, T. F., J. F. Immunoreaktive boutoner i synaptisk kontakt med identificerede striatonigral neuroner, med særlig henvisning til dendritiske rygsøjler. Neurovidenskab 13: 1189-1215, 1984.
Crossref / PubMed / Isi / Google Scholar - 4 Hollerman, J. R. Dopaminneuroner rapporterer en fejl i den tidsmæssige forudsigelse af belønning under læring. Natur Neurosci. 1: 304–309, 1998.
Crossref | PubMed | Isi | Google Scholar - 5 Ljungberg, T., P. Apicella og H. Schult. Svar af abe dopamin neuroner under indlæring af adfærdsmæssige reaktioner. J. Neurofysiol. 67: 145–163, 1992.
Link | Isi | Google Scholar - 6 Montague, P. R., P. Dayan og T. J. Sejnovsky. En ramme for mesencephalic dopaminsystemer baseret på forudsigelig Hebbian læring. J. Neurosci. 16: 1936–1947, 1996.
Crossref / PubMed / Isi / Google Scholar - 7 Mirenovic, J. og H. Schult. Præferenceaktivering af mellemhjernedopaminneuroner ved appetitlig snarere end aversiv stimuli. Natur 379: 449-451, 1996.
Crossref / PubMed / Isi / Google Scholar - 8 Rescorla, R. A. og A. R. En teori om Pavlovian conditioning: variationer i effektiviteten af forstærkning og ikke-forstærkning. In: klassisk konditionering II: aktuel forskning og teori, redigeret af A. H. Black og Prokasy. Ny York: Appleton Century Crofts, 1972, s. 64-99.
Google Scholar - 9 Robbins, T. V. og B. J. Everitt. Neuroadfærdsmekanismer for belønning og motivation. Curr. Opin. Neurobiol. 6: 228–236, 1996.
Crossref / PubMed / Isi / Google Scholar - 10 Rømø, R. og V. Schult. Dopaminneuroner af aben midthjernen: beredskaber af reaktioner på aktiv berøring under selvinitierede armbevægelser. J. Neurofysiol. 63: 592–606, 1990.
Link | Isi | Google Scholar - 11. J. Neurofysiol. 80: 1–27, 1998.
Link | Isi | Google Scholar - 12. Svar fra abe-dopaminneuroner til belønning og konditioneret stimuli under successive trin for at lære en forsinket responsopgave. J. Neurosci. 13: 900–913, 1993.
Crossref | PubMed | Isi | Google Scholar - 13 Schult, P. Dayan og R. P. Montague. Et neuralt substrat af forudsigelse og belønning. Videnskab 275: 1593-1599, 1997.
Crossref / PubMed / Isi / Google Scholar - 14 Smith, A. D. og J. P. Bolam. Det neurale netværk af de basale ganglier som afsløret ved undersøgelsen af synaptiske forbindelser af identificerede neuroner. Tendenser Neurosci. 13: 259–265, 1990.
Crossref / PubMed / Isi / Google Scholar - 15 Sutton, R. S. og A. G. Barto. Mod en moderne teori om adaptive netværk: forventning og forudsigelse. Psychol. Åb. 88: 135-170, 1981.
Crossref / PubMed / Isi / Google Scholar