când organismele multicelulare au apărut prin evoluția moleculelor de auto-reproducere, au dezvoltat mecanisme endogene, autoregulatorii care au asigurat că nevoile lor de bunăstare și supraviețuire au fost satisfăcute. Subiecții se angajează în diferite forme de comportament de abordare pentru a obține resurse pentru menținerea echilibrului homeostatic și pentru a se reproduce. Se spune că aceste resurse biologice au funcții „recompensatoare”, deoarece provoacă și întăresc comportamentul de abordare. Deși inițial legate de nevoile biologice, recompensele s-au dezvoltat în continuare în timpul evoluției mamiferelor superioare pentru a susține forme mai sofisticate de comportament individual și social. Formele superioare de recompense se bazează adesea pe reprezentări cognitive și se referă la astfel de obiecte și construcții ca noutate, provocare, aclamare, putere, bani, teritoriu și securitate. Astfel, nevoile biologice și cognitive definesc natura recompenselor, iar disponibilitatea recompenselor determină unii dintre parametrii de bază ai condițiilor de viață ale subiectului.
recompensele au trei funcții de bază (1). În primul rând, ele provoacă o abordare și un comportament desăvârșit și servesc drept obiective ale comportamentului voluntar. Procedând astfel, ei întrerup comportamentul continuu și schimbă prioritățile acțiunilor comportamentale. În al doilea rând, recompensele au efecte pozitive de întărire. Ele cresc frecvența și intensitatea comportamentului care duce la astfel de obiecte (învățare) și mențin comportamentul învățat prin prevenirea dispariției. Această funcție constituie esența „revenirii pentru mai mult” și se referă la noțiunea de a primi recompense pentru că a făcut ceva util. Învățarea continuă atunci când recompensele apar imprevizibil și încetinește pe măsură ce recompensele devin din ce în ce mai prezise (8). Astfel, învățarea bazată pe recompensă depinde de discrepanța sau „eroarea” dintre predicția recompensei și apariția ei reală. În cea de-a treia funcție, recompensele induc sentimente subiective de plăcere (hedonia) și stări emoționale pozitive. Această funcție este dificil de investigat la animale.
neurotransmisia redusă a dopaminei la pacienții parkinsonieni și la animalele cu leziuni experimentale este asociată cu deficite severe de mișcare, motivație, atenție și cunoaștere. Un deficit motivațional consistent se referă la utilizarea informațiilor despre recompensă pentru învățarea și menținerea abordării și a comportamentului consumator (2, 9). Deficitele apar în principal cu distrugerea proiecțiilor de la neuronii dopaminergici din creierul mijlociu la nucleul accumbens și, într-o măsură mai mică, la cortexul frontal și striatum (nucleul caudat și putamen). Aceste sisteme sunt, de asemenea, implicate în proprietățile de dependență ale drogurilor majore de abuz, cum ar fi cocaina, amfetamina, heroina și nicotina.
corpurile celulare ale neuronilor dopaminergici din creierul mijlociu sunt localizate în grupurile A8 (substanța dorsală până la laterală), A9 (pars compacta din substanța nigra) și A10 (zona tegmentală ventrală medial la substanța nigra). Acești neuroni eliberează dopamina cu impulsuri nervoase din varicozitățile axonale din striat, nucleul accumbens și cortexul frontal, pentru a numi cele mai importante site-uri (Fig. 1). Înregistrăm activitatea de impuls din corpurile celulare ale neuronilor dopaminergici unici în perioadele de 20-60 de minute cu microelectrozi mobili din poziții extracelulare în timp ce maimuțele învață și îndeplinesc sarcini comportamentale. Neuronii se disting ușor de alți neuroni din creierul mijlociu prin impulsurile lor polifazice caracteristice, relativ lungi, descărcate la frecvențe joase.
în mod constant nu reușim să găsim covariații clare cu mișcările. În schimb, neuronii dopaminergici prezintă activări fazice după evenimente legate de recompensă și anumiți stimuli care induc atenția modului somatosenzorial, vizual și auditiv (5, 10, 12). Aceste răspunsuri apar într-un mod foarte similar în 60-80% din neuronii din grupurile A8, A9 și A10 într-o serie de situații comportamentale, în timp ce neuronii dopaminergici rămași nu răspund deloc. Situațiile testate includ condiționarea clasică, diverse sarcini simple și de alegere a timpului de reacție, SARCINI directe și întârziate go-no go, sarcină spațială cu răspuns întârziat, alternanță spațială întârziată, discriminare vizuală și mișcări auto-inițiate. Neuronii răspund puțin mai mult în regiunile mediane ale creierului mijlociu, cum ar fi zona tegmentală ventrală și substanța mediană nigra, comparativ cu regiunile mai laterale, diferență care atinge ocazional semnificație statistică. Activările apar cu latențe similare (50-110 ms) și durate (<200 ms) după recompense alimentare și fluide, stimuli condiționați și stimuli care induc atenția. Astfel, răspunsul dopaminei constituie un semnal de populație relativ omogen, scalar, care este clasificat de magnitudinea răspunsului neuronilor individuali și de fracțiunile neuronilor care răspund.
activările fazice apar atunci când animalele ating o bucată de mâncare ascunsă sau când picături de lichid sunt livrate în gură în afara sarcinilor comportamentale sau în timpul învățării (Fig. 2, sus). Neuronii dopaminergici disting recompensele de obiectele nonreward, dar nu par să discrimineze între diferite obiecte alimentare sau recompense lichide. Doar câteva arată activările fazice după stimuli aversivi primari, cum ar fi pufuri de aer neoxioase la mână sau soluție salină hipertonică la gură (7). Acești stimuli sunt aversivi, deoarece perturbă comportamentul și induc reacții active de evitare.
majoritatea neuronilor dopaminergici sunt, de asemenea, activați de stimuli vizuali și auditivi condiționați care au devenit predictori de recompensă valizi prin asocierea repetată și contingentă cu recompense în procedurile de condiționare operantă sau clasică (Fig. 2, mijloc). În schimb, doar câțiva neuroni dopaminergici sunt activați fazic de stimuli vizuali sau auditivi învățați în sarcinile de evitare activă în care animalele eliberează o cheie pentru a evita un puf de aer sau o picătură de soluție salină hipertonică.
concomitent cu dezvoltarea răspunsului dopaminei la stimulii care prezic recompensa în timpul învățării, răspunsul la recompensa prezisă în sine este pierdut, ca și cum răspunsul este transferat de la recompensă la stimulul care prezice recompensa (Fig. 2, sus vs. mijloc). Acest lucru se observă atunci când recompensele gratuite sunt livrate în afara sarcinilor comportamentale și devin prezise de stimuli condiționați prin învățare sau când recompensele apar surprinzător în timpul fazelor individuale de învățare și devin prezise atunci când o fază este dobândită pe deplin. Astfel, recompensele sunt eficiente numai în activarea neuronilor dopaminergici atunci când nu sunt prezise de stimuli fazici.
neuronii dopaminergici au o capacitate limitată de a discrimina între stimulii apetisanți și neutri sau aversivi. Numai stimulii care sunt suficient de diferiți din punct de vedere fizic sunt bine discriminați. Stimulii care nu prezic în mod explicit recompensele, dar seamănă fizic cu stimulii care prezic recompensa induc mici activări urmate de depresii într-o fracțiune limitată de neuroni.
neuronii dopaminergici sunt deprimați în momentul obișnuit al recompensei atunci când o recompensă prezisă nu reușește să apară după o eroare a animalului, reținerea de către experimentator sau livrarea întârziată (Fig. 2, partea de jos). Depresia apare în absența unui stimul care precede imediat recompensa omisă. Aceasta reflectă un proces de așteptare bazat pe un ceas intern care se referă la ora exactă a recompensei prezise. Pe de altă parte, o activare urmează recompensa atunci când aceasta este prezentată la un moment diferit de cel prevăzut (Fig. 3). Aceste date sugerează că predicția care influențează neuronii dopaminergici se referă atât la apariția, cât și la momentul recompensei.
stimulii care induc atenția, cum ar fi stimulii noi sau intensi fizic, care nu sunt neapărat legați de recompense, provoacă activări în neuronii dopaminergici care sunt adesea urmați de depresii. Răspunsurile de noutate scad împreună cu reacțiile de orientare comportamentală după mai multe repetări ale stimulului, durata fiind mai lungă cu stimuli fizici mai importanți. Stimulii intensi, cum ar fi clicurile puternice sau imaginile mari imediat în fața unui animal, provoacă răspunsuri puternice care încă induc activări măsurabile după >1.000 de încercări. Cu toate acestea, răspunsurile la stimuli noi sau intensi scad rapid în timpul condiționării comportamentului activ de evitare. Aceste date sugerează că neuronii dopaminergici nu sunt conduși exclusiv de stimuli legați de recompensă, ci sunt influențați și de stimuli care induc atenția.
luate împreună, majoritatea neuronilor dopaminergici prezintă activări fazice după recompense alimentare și lichide și după stimuli condiționați, care anticipează recompensele. Acestea prezintă răspunsuri bifazice de activare-depresie după stimuli care seamănă cu stimuli care prezic recompense sau sunt noi sau deosebit de importanți. Cu toate acestea, doar câteva activări fazice urmează stimuli aversivi. Astfel, neuronii dopaminergici etichetează stimulii de mediu cu o „etichetă” apetisantă, prezic și detectează recompensele și semnalează alertarea și motivarea evenimentelor.
toate răspunsurile la recompense și stimulii de predicție a recompenselor depind de predictibilitatea evenimentului care se referă la momentul precis al recompensei. Contextul de mediu mai tonic care prezice recompensa în care apare o recompensă nu pare să influențeze neuronii dopaminergici. Răspunsul la recompensa dopaminei pare să indice în ce măsură o recompensă apare diferit decât s-a prezis, denumită „eroare” în predicția recompensei. Astfel, neuronii dopaminergici raportează recompense în raport cu predicția lor, mai degrabă decât să semnaleze recompense necondiționat. Ele par a fi detectoare de caracteristici pentru bunătatea evenimentelor de mediu în raport cu predicția, fiind activate prin recompensarea evenimentelor care sunt mai bune decât cele prezise, rămânând neinfluențate de evenimente care sunt la fel de bune ca cele prezise și fiind deprimate de evenimente care sunt mai rele decât cele prezise (Fig. 2). Cu toate acestea, ei nu reușesc să discrimineze între diferite recompense și, prin urmare, par să emită un mesaj de alertă despre prezența sau absența surprinzătoare a recompenselor fără a indica natura particulară a fiecărei recompense. Ei procesează timpul și predicția recompenselor, dar nu natura recompensei particulare.
utilizarea potențială a semnalului de eroare de predicție a recompensei
răspunsul moderat, de scurtă durată, aproape sincron al majorității neuronilor dopaminergici duce la eliberarea optimă și simultană a dopaminei din majoritatea varicozităților strâns distanțate în striatum și cortexul frontal. Puful scurt de dopamină atinge rapid concentrații omogene la nivel regional, susceptibile de a influența dendritele probabil tuturor neuronilor striatali și mulți corticali. În acest fel, mesajul de eroare de predicție a recompensei în 60-80% din neuronii dopaminergici este difuzat ca un semnal de întărire divergent, mai degrabă global, către striatum, nucleul accumbens și cortexul frontal, influențând fazic un număr maxim de sinapse implicate în procesarea stimulilor și acțiunilor care duc la recompensă. Reducerea eliberării dopaminei indusă de depresii cu recompense omise ar reduce stimularea tonică a receptorilor dopaminergici de către dopamina ambientală.
aranjamentul de bază al influențelor sinaptice ale neuronilor dopaminergici asupra neuronilor cortexului striatal și frontal constă dintr-o triadă care cuprinde spini dendritici, terminale corticale excitatorii la vârful coloanei vertebrale dendritice și varicozități dopaminergice care intră în contact cu aceleași spini dendritici (Fig. 4). Fiecare neuron spinos striatal de dimensiuni medii primește ~1.000 de sinapse dopaminergice la coloanele sale dendritice și ~5.000 de sinapse corticale. Acest aranjament ar permite neuronilor dopaminergici să influențeze efectele sinaptice ale intrărilor corticale la neuronii striatali. Dopamina eliberată poate acționa asupra neuronilor striatali și corticali în mai multe moduri posibile. 1) efectul imediat poate consta într-o schimbare a neurotransmisiei corticostriatale. Acest lucru ar modifica informațiile care circulă în buclele ganglionare cortico-bazale și ar influența neuronii în structurile corticale implicate în structurarea producției comportamentale. 2) Cursul relativ lent al acțiunii membranei dopaminei poate lăsa o scurtă urmă a evenimentului de recompensă și poate influența toată activitatea ulterioară pentru o perioadă scurtă de timp. 3) plasticitatea potențială dependentă de dopamină în striat și formele observate de răspunsuri la dopamină pot induce modificări plastice în sinapsele striatale și corticale activate concomitent de evenimentele care duc la recompensă.
într-un model de influențe ale dopaminei asupra neurotransmisiei striatale, a și B sunt intrări care intră în contact separat cu coloanele vertebrale dendritice ale unui neuron striatal I (Fig. 4). Greutățile sinaptice a și B și B sunt modificabile Hebbian pe termen scurt sau lung. Aceiași spini sunt contactați fără discriminare de semnalul global de eroare de predicție a recompensei de la intrarea dopaminei X. atât neuronul X, cât și neuronul a, dar nu neuronul B, sunt activate atunci când se întâlnește un semnal legat de recompensă. Neuron x transmite mesajul că un eveniment Recompensator a avut loc fără a oferi detalii specifice, în timp ce neuron a trimite un mesaj despre unul dintre mai multe aspecte detaliate ale evenimentului legat de recompensă, cum ar fi culoarea, textura, poziția, împrejurimile etc. a stimulului sau poate codifica o mișcare care duce la obținerea recompensei. Greutățile sinapselor striatale ar putea fi modificate în conformitate cu regula de învățare:• R•I•O, unde * XC este greutatea sinaptică, * XC este constanta de învățare, * XC este semnalul de eroare de predicție a dopaminei, * XC este activarea intrărilor și * XC este activarea neuronului striatal. Astfel, prin simultaneitatea sau aproape simultaneitatea activității în A și X, activitatea neuronului X poate induce o modificare a neurotransmisiei la sinapsa activă a inox I, dar lasă neschimbată neurotransmisia inactivă b inox I. În cazul unor modificări de durată ale transmisiei sinaptice, aportul ulterior de la neuronul a ar duce la un răspuns crescut în neuronul I, în timp ce aportul de la neuronul B duce la un răspuns neschimbat în neuronul I. Astfel, modificările sinaptice ale neurotransmisiei a-i și b-i-i sunt condiționate de neuronul X al dopaminei fiind activ în comun cu A sau B.
răspunsul dopaminei codifică o eroare în predicția recompensei seamănă în toate aspectele majore cu semnalul de întărire al unei clase deosebit de eficiente de modele de armare care încorporează algoritmi de diferență temporală (6, 13, 15). Ele se bazează pe teorii de învățare comportamentală care presupun că învățarea depinde în mod crucial de discrepanța sau eroarea dintre predicția întăririi și apariția ei reală (1, 8). În aceste modele, un modul critic generează un semnal global de întărire și îl trimite modulului actor care învață și execută ieșirea comportamentală. Arhitectura critic-actor seamănă foarte mult cu conectivitatea ganglionilor bazali, inclusiv proiecția dopaminei la striat și proiecția striatonigrală reciprocă. Modelele care utilizează algoritmi de diferență temporală învață o mare varietate de sarcini comportamentale, ajungând de la echilibrarea unui stâlp pe o roată de căruță la jocul de table de clasă mondială (pentru referințe, vezi Ref. 11). Roboții care folosesc algoritmi de diferență temporală învață să se deplaseze în spațiul bidimensional și să evite obstacolele, să ajungă și să înțeleagă sau să introducă un cuier într-o gaură. Modelele de diferențe temporale inspirate din neurobiologie reproduc comportamentul de hrănire al albinelor, simulează luarea deciziilor umane și învață reacțiile de orientare, mișcările ochilor, mișcările secvențiale și sarcinile spațiale cu răspuns întârziat. Este deosebit de interesant să vedem că semnalele de predare folosind erori de predicție au ca rezultat o învățare mai rapidă și mai completă, în comparație cu semnalele de întărire necondiționate.
concluzii și extensii
investigarea activității neuronilor dopaminergici a dus la constatarea surprinzătoare că acești neuroni nu sunt modulați în raport cu mișcările, deși mișcările sunt deficitare la pacienții parkinsonieni. Mai degrabă, neuronii dopaminergici codifică într-o formă foarte specială aspectele recompensatoare ale stimulilor de mediu, împreună cu anumite caracteristici care induc atenția. Răspunsurile sunt provocate de recompense primare („stimuli necondiționați”), stimuli condiționați care prezic recompensa, stimuli asemănători stimulilor legați de recompensă și stimuli noi sau intensi. Cu toate acestea, stimulii legați de recompensă sunt raportați numai atunci când apar diferit decât s-a prezis, predicția privind atât apariția, cât și momentul evenimentului. Mesajul de eroare de predicție este un semnal foarte puternic pentru direcționarea comportamentului și inducerea învățării, conform teoriilor de învățare a animalelor și modelelor de întărire. Cu toate acestea, semnalul dopaminei nu specifică exact ce recompensă are loc diferit decât s-a prezis sau dacă este într-adevăr o recompensă sau, mai degrabă, un stimul care prezice recompensa. Stimulii asemănători recompenselor și stimulii noi sau deosebit de importanți provoacă secvențe de activare-depresie care seamănă cu activările monofazice provocate de stimulii imprevizibili legați de recompensă. Astfel, semnalul dopaminei pare a fi un semnal predominant de avertizare a recompenselor, iar alte sisteme cerebrale trebuie să proceseze informații suplimentare pentru a învăța reacțiile comportamentale corecte la stimulii de mediu motivanți.
informațiile privind recompensele alimentare și fluide sunt, de asemenea, procesate în alte structuri ale creierului decât neuronii dopaminergici, cum ar fi striatul dorsal și ventral, nucleul subtalamic, amigdala, cortexul prefrontal dorsolateral, cortexul orbitofrontal și cortexul cingulat anterior. Cu toate acestea, aceste structuri nu par să emită un semnal global de eroare de predicție a recompensei similar cu neuronii dopaminergici. Aceste structuri arată 1) răspunsuri tranzitorii după livrarea recompenselor, 2) răspunsuri tranzitorii la indicii de predicție a recompenselor, 3) activări susținute în timpul așteptării recompenselor și 4) modulații ale activității legate de comportament prin recompense prezise (pentru referințe, vezi Ref. 11). Mulți dintre acești neuroni se diferențiază bine între diferite recompense alimentare sau lichide. Astfel, ei pot procesa natura specifică a evenimentului Recompensator. Unele răspunsuri de recompensă depind de imprevizibilitatea recompensei în a fi reduse sau absente atunci când recompensa este prezisă de un stimul condiționat, deși nu este clar dacă semnalează erori de predicție similare neuronilor dopaminergici. Astfel, se pare că procesarea recompenselor specifice pentru învățarea și menținerea comportamentului de abordare ar profita puternic de o cooperare între neuronii dopaminergici care semnalează apariția sau omiterea imprevizibilă a recompensei și neuronii din celelalte structuri care indică simultan natura specifică a recompensei.
afectarea neurotransmisiei dopaminei cu boala Parkinson, leziuni experimentale sau tratament neuroleptic este asociată cu multe deficite comportamentale în mișcare (akinezie, tremor, rigiditate), cogniție (atenție, bradifrenie, planificare, învățare) și motivație (răspunsuri emoționale reduse, depresie). Majoritatea deficitelor sunt ameliorate considerabil prin terapia sistemică de precursor al dopaminei sau agonist al receptorilor, care nu poate restitui într-o manieră simplă transmiterea informațiilor fazice prin impulsuri neuronale. Se pare că neurotransmisia dopaminei joacă două funcții separate în creier, procesarea fazică a informațiilor apetisante și de alertă și activarea tonică a unei mari varietăți de procese motorii, cognitive și motivaționale fără codificare temporală (11). Funcția dopaminei tonice se bazează pe concentrații scăzute, susținute de dopamină extracelulară în striat (5-10 nM) și în alte zone inervate de dopamină. Concentrația ambientală a dopaminei este reglată local într-un interval îngust prin impulsuri spontane, revărsare sinaptică, transport de recaptare, metabolism, eliberare și sinteză controlată de autoreceptor și interacțiunea transmițătorului presinaptic. Stimularea tonică a receptorilor dopaminergici nu trebuie să fie nici prea mică, nici prea mare pentru o funcție optimă a unei regiuni cerebrale date. Alți neurotransmițători există în concentrații ambientale similare scăzute, cum ar fi glutamatul în striatum, cortexul cerebral, hipocampul și cerebelul, aspartatul și GABA în striatum și cortexul frontal și adenozina în hipocamp. Neuronii din multe structuri ale creierului sunt aparent scăldați într-o” supă ” de neurotransmițători care au efecte fiziologice puternice și specifice asupra excitabilității neuronale. Având în vedere importanța generală a concentrațiilor extracelulare tonice ale neurotransmițătorilor, se pare că gama largă de simptome parkinsoniene nu ar fi cauzată de transmiterea deficitară a informațiilor de recompensă de către neuronii dopaminergici, ci ar reflecta o defecțiune a neuronilor striatali și corticali cauzată de afectarea activării prin reducerea dopaminei ambientale. Neuronii dopaminergici nu ar fi implicați activ în gama largă de procese deficitare în parkinsonism, dar ar oferi concentrația importantă de dopamină necesară pentru a menține buna funcționare a neuronilor striatali și corticali implicați în aceste procese.
lucrarea experimentală a fost susținută de Fundația Națională Elvețiană pentru științe, capitalul uman și mobilitatea și programele Biomed 2 ale Comunității Europene prin intermediul Biroului elvețian de educație și știință, James S. McDonnell Foundation, Roche Research Foundation, United Parkinson Foundation (Chicago) și British Council.
W. Schultz a primit Premiul Theodore Ott din 1997 al Academiei elvețiene de științe medicale pentru lucrarea revizuită în acest articol.
citările de referință sunt limitate din cauza restricțiilor editoriale
- 1 Dickinson, A. Teoria contemporană a învățării animalelor. Cambridge, Marea Britanie: Cambridge Univ. Presă, 1980.
Google Scholar - 2 Fibiger, H. C. și A. G. Phillips. Recompensă, motivație, cunoaștere: psihobiologia sistemelor dopaminergice mezotelencefalice. În: manual de Fiziologie. Sistemul Nervos. Sisteme de reglementare intrinseci ale creierului. Bethesda, MD: Am. Physiol. Soc., 1986, sectă. 1, vol. IV, Capt. 12, p. 647-675.
Google Scholar - 3 Freund, T. F., J. F. Powell și A. D. Smith. Tirozină hidroxilază-butoni imunoreactivi în contact sinaptic cu neuronii striatonigrali identificați, cu referire specială la coloanele vertebrale dendritice. Neuroștiințe 13: 1189-1215, 1984.
Crossref / PubMed | ISI / Google Scholar - 4 Hollerman, J. R., și W. Schultz. Neuronii dopaminergici raportează o eroare în predicția temporală a recompensei în timpul învățării. Nature Neurosci. 1: 304–309, 1998.
Crossref | PubMed | ISI | Google Scholar - 5 Ljungberg, T., P. Apicella, și W. Schultz. Răspunsurile neuronilor dopaminergici de maimuță în timpul învățării reacțiilor comportamentale. J. Neurofiziol. 67: 145–163, 1992.
Link | ISI | Google Scholar - 6 Montague, P. R., P. Dayan și T. J. Sejnowski. Un cadru pentru sistemele de dopamină mezencefalică bazate pe învățarea hebbiană predictivă. J. Neurosci. 16: 1936–1947, 1996.
Crossref | PubMed | ISI | Google Scholar - 7 Mirenowicz, J., și W. Schultz. Activarea preferențială a neuronilor dopaminergici din creierul mijlociu prin stimuli apetisanți, mai degrabă decât aversivi. Natură 379: 449-451, 1996.
Crossref / PubMed | ISI / Google Scholar - 8 Rescorla, R. A. și A. R. Wagner. O teorie a condiționării Pavloviene: variații în eficacitatea întăririi și a neînarmării. În: condiționarea clasică II: cercetări și teorii actuale, editat de A. H. negru și W. F. Prokasy. New York: Appleton Century Crofts, 1972, p. 64-99.
Google Scholar - 9 Robbins, T. W. și B. J. Everitt. Mecanisme neurocomportamentale de recompensă și motivație. Curr. Opin. Neurobiol. 6: 228–236, 1996.
Crossref / PubMed | ISI / Google Scholar - 10 Romo, R., și W. Schultz. Neuronii dopaminergici ai creierului mijlociu al Maimuței: contingențe ale răspunsurilor la atingerea activă în timpul mișcărilor brațelor auto-inițiate. J. Neurofiziol. 63: 592–606, 1990.
Link / ISI / Google Scholar - 11 Schultz, W. semnal de recompensă predictivă a neuronilor dopaminergici. J. Neurofiziol. 80: 1–27, 1998.
Link / ISI / Google Scholar - 12 Schultz, W., P. Apicella și T. Ljungberg. Răspunsurile neuronilor dopaminergici de maimuță la recompensarea și stimulii condiționați în timpul etapelor succesive de învățare a unei sarcini de răspuns întârziat. J. Neurosci. 13: 900–913, 1993.
Crossref | PubMed | ISI | Google Scholar - 13 Schultz, W., P. Dayan și R. P. Montague. Un substrat neural de predicție și recompensă. Știință 275: 1593-1599, 1997.
Crossref / PubMed | ISI / Google Scholar - 14 Smith, AD, și jp Bolam. Rețeaua neuronală a ganglionilor bazali, așa cum a fost dezvăluită prin studiul conexiunilor sinaptice ale neuronilor identificați. Tendințe Neurosci. 13: 259–265, 1990.
Crossref / PubMed | ISI / Google Scholar - 15 Sutton, R. S. și A. G. Barto. Către o teorie modernă a rețelelor adaptive: așteptare și predicție. Psihol. Apocalipsa 88: 135-170, 1981.
Crossref / PubMed | ISI / Google Scholar