A Recompensa Sinal de Midbrain os Neurónios da Dopamina

Quando os organismos multicelulares surgiram através da evolução da auto-reprodução de moléculas, eles desenvolveram endógena, autoregulatory mecanismos que a certeza de que suas necessidades de bem-estar e de sobrevivência foram atendidas. Os sujeitos se envolvem em várias formas de comportamento de aproximação para obter recursos para manter o equilíbrio homeostático e se reproduzir. Estes recursos biológicos são ditos ter funções “gratificantes” porque eles induzem e reforçam o comportamento de aproximação. Embora inicialmente relacionadas às necessidades biológicas, recompensas desenvolveram-se ainda mais durante a evolução dos mamíferos superiores para suportar formas mais sofisticadas de comportamento individual e social. Formas mais elevadas de recompensas são muitas vezes baseadas em representações cognitivas, e elas dizem respeito a objetos e construções como novidade, desafio, aclamação, Poder, Dinheiro, território e segurança. Assim, as necessidades biológicas e cognitivas definem a natureza das recompensas, e a disponibilidade das recompensas determina alguns dos parâmetros básicos das condições de vida do sujeito.

Recompensas têm três funções básicas (1). Primeiro, eles induzem a abordagem e o comportamento consumatório e servem como objetivos de comportamento voluntário. Ao fazê-lo, eles interrompem o comportamento contínuo e mudam as prioridades das ações comportamentais. Em segundo lugar, as recompensas têm efeitos positivos de reforço. Eles aumentam a frequência e intensidade do comportamento que leva a tais objetos (aprendizagem) e mantêm o comportamento aprendido ao prevenir a extinção. Esta função constitui a essência de” voltar para mais ” e relaciona-se com a noção de receber recompensas por ter feito algo útil. A aprendizagem prossegue quando as recompensas ocorrem imprevisivelmente e abranda à medida que as recompensas se tornam cada vez mais previstas (8). Assim, a aprendizagem orientada pela recompensa depende da discrepância ou “erro” entre a previsão da recompensa e sua ocorrência real. Em sua terceira função, recompensas induzem sentimentos subjetivos de prazer (hedonia) e estados emocionais positivos. Esta função é difícil de investigar em animais.

a redução da neurotransmissão dopamina em doentes parkinsónicos e animais experimentalmente lesionados está associada a graves défices de movimento, motivação, atenção e cognição. Um déficit motivacional consistente diz respeito ao uso de informações de recompensa para a aprendizagem e manutenção da abordagem e comportamento consumatório (2, 9). Os déficits ocorrem principalmente com a destruição de projeções de neurônios dopaminérgicos do mesencéfalo para o núcleo accumbens e, em menor extensão, para o córtex frontal e estriado (núcleo caudado e putâmen). Estes sistemas também estão envolvidos nas propriedades viciantes das principais drogas de abuso, como a cocaína, anfetamina, heroína e nicotina.Os corpos celulares dos neurônios dopaminérgicos do mesencéfalo estão localizados nos grupos A8 (substância negra dorsal à lateral), A9 (pars compacta da substância negra) e A10 (área tegmental ventral média à substância negra). Estes neurónios libertam dopamina com impulsos nervosos de varicosidades axonais no estriato, nos núcleos accumbens e no córtex frontal, para nomear os locais mais importantes (Fig. 1). Registamos a atividade de impulso de corpos celulares de neurônios dopaminérgicos únicos durante períodos de 20-60 minutos com microelectrodes móveis de posições extracelulares, enquanto os macacos aprendem e realizam tarefas comportamentais. Os neurônios são facilmente distinguíveis de outros neurônios do mesencéfalo por sua característica polifásica, impulsos relativamente longos liberados em baixas frequências.

Figura 1. Visão geral dos territórios de projeção dos neurônios dopaminérgicos do mesencéfalo. Os corpos celulares dos neurônios dopaminérgicos estão localizados principalmente na compacta pars da substância negra e na área tegmental medialmente adjacente. Os seus axônios projectam-se principalmente para o estriato (núcleo caudado, putamen), estriato ventral, incluindo o núcleo accumbens, e córtex frontal (córtex pré-frontal, dorsolateral, ventrolateral e orbital). A dopamina é libertada de terminais axônios com impulsos e influências dos neurônios nestas estruturas. As nossas experiências investigam a actividade de impulso ao nível dos corpos das células de dopamina.

nós constantemente não encontramos covariações claras com movimentos. Em contraste, os neurônios dopaminérgicos mostram ativações fasicas após eventos relacionados com a recompensa e certos estímulos indutores de atenção da modalidade somatosensorial, visual e auditiva (5, 10, 12). Estas respostas ocorrem de forma muito semelhante em 60-80% dos neurônios nos grupos A8, A9 e A10 em uma série de situações comportamentais, enquanto os neurônios restantes da dopamina não respondem de todo. Situações testadas incluem condicionamento clássico, várias tarefas de tempo de reação simples e de escolha, tarefas de go-no-go diretas e atrasadas, tarefas de resposta retardada espacial, alternância retardada espacial, discriminação visual e movimentos auto-iniciados. Os neurônios respondem um pouco mais nas regiões do mesencéfalo medial, como a área tegmental ventral e a substância medial nigra, em comparação com regiões mais laterais, uma diferença que ocasionalmente atinge significância estatística. As ativações ocorrem com latências similares (50-110 ms) e durações (<200 ms) após recompensas de alimentos e fluidos, estímulos condicionados e estímulos de atenção. Assim, a resposta dopamina constitui um sinal populacional relativamente homogêneo, escalar, que é classificado pela magnitude de resposta dos neurônios individuais e pelas frações de neurônios que respondem.As ativações Fasicas ocorrem quando os animais tocam um pedaço de alimento escondido ou quando gotas de líquido são entregues à boca fora de Tarefas comportamentais ou durante o aprendizado (Fig. 2, top). Os neurônios dopaminérgicos distinguem recompensas de objetos não-posteriores, mas não parecem discriminar entre diferentes objetos alimentares ou recompensas líquidas. Apenas alguns mostram as ativações fásicas após estímulos aversivos primários, tais como sopros de ar nonóxio para a mão ou salina hipertônica para a boca (7). Estes estímulos são aversivos porque perturbam o comportamento e induzem reações de evasão ativa.

Figura 2. Os neurônios dopaminérgicos relatam recompensas na medida em que se desviam da previsão (erro na previsão da recompensa). Superior: uma gota de recompensa líquida (R) ocorre, embora nenhuma recompensa é prevista neste momento. A ocorrência da recompensa constitui, assim, um erro positivo na previsão da recompensa. O neurônio dopaminérgico é ativado pela imprevisibilidade do líquido. Meio: um estímulo aprendido (estímulo condicionado, CS) prevê uma recompensa, e a recompensa ocorre de acordo com a predição, portanto, nenhum erro na predição da recompensa. O neurônio da dopamina não é ativado pela recompensa prevista (direita). Ele também mostra uma ativação após o estímulo de previsão de recompensas (esquerda). Inferior: um estímulo condicionado prevê uma recompensa, mas a recompensa é omitida. A atividade do neurônio dopaminérgico está deprimida exatamente no momento em que a recompensa teria ocorrido. Note – se que a depressão ocorre >1 s após o estímulo condicionado sem qualquer estímulo intermediário, revelando um processo interno de expectativa de recompensa em um momento preciso. Os pontos nos painéis individuais indicam impulsos neuronais. Cada linha de pontos mostra um ensaio, sendo a sequência original em cada painel de cima para baixo. Reprinted with permission from Ref. 11. Copyright (1997) American Association for the Advancement of Science.

a maioria dos neurônios de dopamina também são ativados por estímulos visuais e auditivos condicionados que se tornaram predicadores de recompensa válidos através de emparelhamento repetido e contingente com recompensas em procedimentos de condicionamento operante ou clássico (Fig. 2, middle). Em contraste, apenas alguns neurônios dopaminérgicos são ativados fasicamente por estímulos visuais ou auditivos aprendidos em tarefas de prevenção ativa em que os animais liberam uma chave para evitar uma descarga de ar ou uma gota de salina hipertônica.Paralelamente ao desenvolvimento da resposta dopaminérgica a estímulos preditivos durante a aprendizagem, a resposta à recompensa prevista é perdida, como se a resposta fosse transferida da recompensa para o estímulo preditivo da recompensa (Fig. 2, top vs. middle). Isto é observado quando recompensas livres são entregues fora das tarefas comportamentais e se tornam previstas por estímulos condicionados através da aprendizagem ou quando recompensas ocorrem surpreendentemente durante as fases individuais de aprendizagem e se tornam previstas quando uma fase é totalmente adquirida. Assim, as recompensas só são efetivas na ativação dos neurônios dopaminérgicos quando não são previstas por estímulos fasicos.Os neurónios dopaminérgicos têm uma capacidade limitada para discriminar entre estímulos apetitosos e neutros ou aversivos. Apenas estímulos fisicamente suficientemente diferentes são bem discriminados. Estímulos que não prevêem explicitamente recompensas, mas se assemelham fisicamente a estímulos de previsão de recompensas induzem pequenas ativações seguidas de depressões em uma fração limitada de neurônios.Neurônios dopaminérgicos estão deprimidos na hora habitual da recompensa quando uma recompensa predita não ocorre após um erro do animal, retenção pelo experimentador ou atraso no parto (Fig. 2, bottom). A depressão ocorre na ausência de um estímulo imediatamente antes da recompensa omitida. Isto reflete um processo de expectativa baseado em um relógio interno que diz respeito ao tempo preciso da recompensa prevista. Por outro lado, uma ativação segue a recompensa quando esta é apresentada em um momento diferente do previsto (Fig. 3). Estes dados sugerem que a previsão que influencia os neurônios dopaminérgicos diz respeito tanto à ocorrência como ao tempo de recompensa.

Figura 3. O erro de previsão codificado pelos neurónios dopaminérgicos inclui aspectos temporais. Na tarefa comportamental, uma imagem de cor bem aprendida aparece em um monitor de computador (CS on), o animal pressiona uma alavanca abaixo da imagem, sobre a qual ação o CS desliga e uma gota de recompensa de suco é entregue pouco depois na boca do animal. A actividade é registada a partir de um único neurónio dopamínico, enquanto o intervalo de recompensa do toque da alavanca está a ser variado. Embora a recompensa que ocorre no tempo previsto, habitual, não provoca uma resposta dopamina (bloco de ensaio superior), um atraso súbito de recompensa de 0, 5 s deprime a atividade do neurônio dopaminérgico no momento original da recompensa e induz uma ativação no Novo Tempo (bloco de ensaio subsequente). Uma ativação só é observada quando a recompensa ocorre antes do previsto (segundo bloco experimental a partir do fundo). A sequência original do ensaio é de cima para baixo. Reprinted from Ref. 4 com permissão da Natureza América.

estímulos indutores de atenção, tais como estímulos novos ou fisicamente intensos não necessariamente relacionados com recompensas, desencadeiam ativações em neurônios de dopamina que são frequentemente seguidas por depressões. As respostas de novidade diminuem juntamente com as reações de orientação comportamental após várias repetições de estímulo, sendo a duração mais longa com estímulos fisicamente mais salientes. Estímulos intensos, tais como cliques altos ou imagens grandes imediatamente na frente de um animal, provocam respostas fortes que ainda induzem ativações mensuráveis após >1000 ensaios. No entanto, as respostas a estímulos novos ou intensos diminuem rapidamente durante o condicionamento do comportamento de evasão ativa. Estes dados sugerem que os neurônios dopaminérgicos não são conduzidos exclusivamente por estímulos relacionados com a recompensa, mas também são influenciados por estímulos induzidos pela atenção.A maioria dos neurónios dopamínicos apresentam activações fasicas após recompensas por alimentos e fluidos e após estímulos de reembalagem condicionados. Eles mostram reações de ativação bifásica-depressão após estímulos que se assemelham a estímulos de previsão de recompensas ou são novos ou particularmente salientes. No entanto, apenas algumas ativações fasicas seguem estímulos aversivos. Assim, os neurônios dopaminérgicos rotulam os estímulos ambientais com um “tag” apetitoso, predizem e detectam recompensas, e avisam e motivam eventos.

todas as respostas a recompensas e a estímulos de previsão de recompensas dependem da previsibilidade do evento que diz respeito ao tempo exacto da recompensa. O contexto ambiental mais tónico de previsão de recompensas no qual ocorre uma recompensa não parece influenciar os neurônios dopaminérgicos. A resposta à recompensa pela dopamina parece indicar em que medida uma recompensa ocorre de forma diferente da prevista, denominada um “erro” na previsão da recompensa. Assim, os neurônios dopaminérgicos relatam recompensas em relação à sua previsão, ao invés de recompensas sinalizadoras incondicionalmente. Eles parecem estar recurso detectores para a bondade de eventos ambientais em relação à previsão, sendo ativado por gratificante eventos que são melhores do que o previsto, permanecendo influenciados por eventos que são tão bons como previsto, e sendo pressionado por eventos que são piores do que o previsto (Fig. 2). No entanto, eles não conseguem discriminar entre diferentes recompensas e, assim, parecem emitir uma mensagem de alerta sobre a presença surpreendente ou ausência de recompensas sem indicar a natureza particular de cada recompensa. Eles processam o tempo e a previsão de recompensas, mas não a natureza da recompensa particular.

potencial uso do sinal de erro de previsão de recompensa

a resposta quase síncrona da maioria dos neurónios dopamínicos leva a uma libertação óptima e simultânea de dopamina a partir da maioria das varicosidades próximas no estriato e no córtex frontal. O curto sopro de dopamina rapidamente atinge concentrações regionais homogêneas susceptíveis de influenciar os dendritos de Provavelmente todos os neurônios estriados e corticais. Desta forma, a mensagem de erro de previsão de recompensa em 60-80% dos neurônios dopamina é transmitida como um sinal de reforço divergente, bastante global, para o estriato, núcleo accumbens e córtex frontal, influenciando fasicamente um número máximo de sinapses envolvidas no processamento de estímulos e ações que levam à recompensa. A redução da libertação de dopamina induzida por depressões com recompensas omitidas reduziria a estimulação tônica dos receptores dopamínicos pela dopamina ambiente.O arranjo básico das influências sinápticas dos neurónios dopaminérgicos nos neurónios estriatal e frontal do córtex consiste numa tríade composta por espinhos dendríticos, terminais corticais excitatórios na ponta dos espinhos dendríticos e varicósias dopaminérgicas em contacto com os mesmos espinhos dendríticos (Fig. 4). Cada neurônio espinhoso estriado de tamanho médio recebe ~1.000 sinapses dopaminérgicas em seus espinhos dendríticos e ~5.000 sinapses corticais. Este arranjo permitiria que os neurônios dopaminérgicos influenciassem os efeitos sinápticos das entradas corticais aos neurônios estriatais. A dopamina libertada pode actuar nos neurónios estriados e corticais de várias formas possíveis. 1) o efeito imediato pode consistir numa alteração da neurotransmissão corticostriatal. Isto modificaria a informação que circula em loops de gânglios cortico-basais e influenciaria os neurônios em estruturas corticais envolvidas na estruturação da saída comportamental. 2) o tempo relativamente lento de acção da membrana da dopamina pode deixar um pequeno vestígio do evento de recompensa e influenciar toda a actividade subsequente por um curto período de tempo. 3) a potencial plasticidade dopaminérgica dependente do estriato e as formas observadas de respostas dopaminérgicas podem induzir alterações plásticas nas sinapses estriadas e corticais simultaneamente activadas pelos acontecimentos que conduzem à recompensa.

Figura 4. Concepção básica da possível influência do sinal de erro de previsão da dopamina na neurotransmissão no estriato. Entradas sinápticas de um único axônio dopamínico X e 2 axônios corticais A E B entram em contato com um típico neurônio estriatal espinhoso de tamanho médio I. A transmissão Corticostriatal pode ser modificada pela entrada de dopamina X entrando em contato indiscriminado com os caules de espinhos dendríticos que também são contatados por entradas corticais específicas A E B. No presente exemplo, a entrada cortical A, Mas Não B, é ativa ao mesmo tempo que o neurônio da dopamina X (área sombreada), por exemplo, após um evento relacionado com a recompensa. Isto poderia levar a uma modificação da transmissão a → i, mas deixar a transmissão b → i inalterada. O desenho anatômico é baseado em dados anatômicos (3) e modificado a partir de uma figura anterior (14).

num modelo de influências dopaminérgicas na neurotransmissão estriatal, A E B são entradas que contactam separadamente espinhos dendríticos de um neurónio estriado I (fig. 4). Os pesos sinápticos a → i e B → I são modificáveis a curto ou longo prazo. Os mesmos espinhos são indiscriminadamente contatados pelo sinal de erro de previsão da recompensa global da entrada de dopamina X. tanto o neurônio X como o neurônio a, mas não o neurônio B, são ativados quando um sinal relacionado com a recompensa é encontrado. O neurônio X transmite a mensagem de que um evento gratificante ocorreu sem dar detalhes específicos, enquanto que o neurônio a envia uma mensagem sobre um dos vários aspectos detalhados do evento relacionado com a recompensa, tais como cor, textura, posição, ambiente, etc. do estímulo ou pode codificar um movimento que leva à obtenção da recompensa. Os pesos das sinapses estriadas podem ser modificados de acordo com a regra de aprendizagem Δω = ϵ• r•i•o, onde ω É peso sináptico, ϵ está aprendendo constante, r é sinal de erro de previsão da dopamina, i é Ativação de entrada, e o É ativação do neurônio estriatal. Assim, através da simultaneidade ou quase simultaneidade da atividade em A E X, a atividade do neurônio X pode induzir uma mudança na neurotransmissão na ativa a → i Sinapse, mas deixar a neurotransmissão inativa b → i inalterada. No caso de uma mudança duradoura na transmissão sináptica, subseqüente a entrada de Um neurônio poderia levar a um aumento da resposta do neurônio I, enquanto que a entrada do neurônio B leva a um inalterada resposta no neurônio I. Assim, o synaptic alterações de A → I e B → I neurotransmissão são condicionais dopamina no neurônio X sendo conjuntamente ativa com Um ou B.

a resposta dopamina codificando um erro na previsão da recompensa assemelha-se, em todos os aspectos principais, ao sinal de reforço de uma classe particularmente eficaz de modelos de reforço que incorporam algoritmos de diferença temporal (6, 13, 15). Eles são baseados em teorias de aprendizagem comportamental que assumem que a aprendizagem depende crucialmente da discrepância ou erro entre a previsão de reforço e sua ocorrência real (1, 8). Nestes modelos, um módulo crítico gera um sinal de reforço global e envia-o para o módulo actor que aprende e executa a saída comportamental. A arquitetura crítico-ator assemelha-se muito à conectividade dos gânglios basais, incluindo a projeção dopamina ao estriato e a projeção estriatonigral recíproca. Modelos usando algoritmos de diferença temporal aprendem uma grande variedade de Tarefas comportamentais, alcançando desde Balancear um poste em uma roda de carrinho para jogar gamão de classe mundial (para referências, veja Ref. 11). Robôs usando algoritmos de diferença temporal aprendem a mover-se sobre o espaço bidimensional e evitar obstáculos, alcançar e agarrar, ou inserir uma peg em um buraco. Modelos de diferença temporal inspirados neurobiologicamente replicam o comportamento das abelhas, simulam a tomada de decisões humanas e aprendem a orientar reações, movimentos oculares, movimentos sequenciais e tarefas espaciais de resposta retardada. É particularmente interessante ver que o ensino de sinais usando erros de previsão resulta em aprendizagem mais rápida e completa, em comparação com sinais de reforço incondicional.

conclusões e extensões

a investigação da actividade dos neurónios dopaminérgicos resultou na constatação surpreendente de que estes neurónios não são modulados em relação aos movimentos, embora os movimentos sejam deficientes em doentes parkinsónicos. Em vez disso, o código dos neurônios dopamina em uma forma muito especial os aspectos gratificantes dos estímulos ambientais, juntamente com certas características indutoras de atenção. As respostas são geradas por recompensas primárias (“estímulos incondicionados”), estímulos condicionados de previsão de recompensas, estímulos semelhantes a estímulos relacionados com recompensas, e estímulos novos ou intensos. No entanto, os estímulos relacionados com a recompensa só são relatados quando ocorrem de forma diferente da prevista, a previsão relativa tanto à ocorrência como à hora do evento. A mensagem de erro de predição é um sinal muito poderoso para dirigir o comportamento e induzir a aprendizagem, de acordo com teorias de aprendizagem animal e modelos de reforço. No entanto, o sinal de dopamina não especifica exatamente qual é a recompensa que ocorre de forma diferente da prevista ou se é realmente uma recompensa ou, melhor dizendo, um estímulo de previsão de recompensas. Estímulos semelhantes a recompensas e estímulos novos ou particularmente salientes induzem sequências de ativação-depressão que se assemelham às ativações monofásicas provocadas por estímulos imprevisíveis relacionados com recompensas. O sinal dopaminérgico, portanto, parece ser um sinal predominantemente de alerta de recompensa, e outros sistemas cerebrais devem processar informações adicionais para aprender reações comportamentais corretas para motivar estímulos ambientais.

a informação relativa à recompensa de alimentos e fluidos também é processada em estruturas cerebrais diferentes dos neurónios dopaminérgicos, tais como estriato dorsal e ventral, núcleo subtalâmico, amígdala, córtex pré-frontal dorsolateral, córtex orbitofrontal e córtex cingulado anterior. No entanto, estas estruturas não parecem emitir um sinal de erro de previsão de recompensa global semelhante aos neurônios dopamina. Estas estruturas mostram 1) respostas transitórias após a entrega de recompensas, 2) respostas transitórias a sugestões de previsão de recompensas, 3) ativações sustentadas durante a expectativa de recompensas, e 4) modulações de atividade relacionada ao comportamento por recompensas previstas (para referências, veja Ref. 11). Muitos desses neurônios diferenciam bem entre diferentes alimentos ou recompensas de fluidos. Assim, eles podem processar a natureza específica do evento recompensador. Algumas respostas de recompensa dependem da imprevisibilidade de recompensa em ser reduzida ou ausente quando a recompensa é prevista por um estímulo condicionado, embora não seja claro se eles sinalizam erros de previsão semelhantes aos neurônios de dopamina. Assim, parece que o processamento de recompensas específicas para a aprendizagem e manutenção do comportamento de abordagem iria lucrar fortemente com uma cooperação entre neurônios dopaminérgicos sinalizando a ocorrência imprevisível ou omissão de recompensa e neurônios nas outras estruturas, indicando simultaneamente a natureza específica da recompensa.

neurotransmissão deficiente da dopamina com doença de Parkinson, lesões experimentais ou tratamento neuroléptico está associada a muitos défices comportamentais em movimento (akinesia, tremor, rigidez), cognição (atenção, bradifrenia, planeamento, aprendizagem) e motivação (redução das respostas emocionais, depressão). A maioria dos déficits são consideravelmente melhorados pelo precursor sistêmico da dopamina ou pela terapia agonista do receptor, que não pode, de forma simples, restaurar a transmissão da informação fasica por impulsos neuronais. Parece que a neurotransmissão dopamina desempenha duas funções distintas no cérebro, o processamento fasico da informação apetitosa e alertadora e a habilitação tônica de uma grande variedade de processos motores, cognitivos e motivacionais sem codificação temporal (11). A função tônica da dopamina baseia-se em baixas concentrações extracelulares de dopamina no corpo estriado (5-10 nM) e noutras áreas inervadas pela dopamina. A concentração de dopamina ambiente é regulada localmente dentro de um intervalo estreito por impulsos espontâneos, transbordamento sináptico, transporte de recaptação, metabolismo, libertação e síntese controlada pelo autorreceptor, e interacção pré-sináptica do transmissor. A estimulação tônica dos receptores dopaminérgicos não deve ser demasiado baixa nem demasiado elevada para uma função óptima de uma dada região cerebral. Outros neurotransmissores existem em concentrações ambientais igualmente baixas, como o glutamato em estriado, córtex cerebral, hipocampo e cerebelo, aspartato e GABA em estriato e córtex frontal, e adenosina em hipocampo. Neurônios em muitas estruturas cerebrais são aparentemente banhados em uma “sopa” de neurotransmissores que têm efeitos fisiológicos poderosos e específicos sobre a excitabilidade neuronal. Dada a importância geral do tônico concentrações extracelulares de neurotransmissores, parece que a ampla gama de sintomas parkinsonianos não seria causada por deficiência na transmissão de recompensa informações os neurónios da dopamina, mas gostaria de refletir um mau funcionamento do striatal e neurônios corticais causada por deficiência de habilitação pelo ambiente reduzido a dopamina. Os neurônios dopaminérgicos não estariam ativamente envolvidos na ampla gama de processos deficientes em parkinsonismo, mas proporcionariam a importante concentração de fundo de dopamina necessária para manter o bom funcionamento dos neurônios estriados e corticais envolvidos nestes processos.

O trabalho experimental foi apoiada pelo Swiss National Science Foundation, o Capital Humano e Mobilidade e Biomed 2 programas da Comunidade Europeia, através do Escritório Suíço de Educação e Ciência, o James S. McDonnell Foundation, The Roche Research Foundation, the United Parkinson Foundation (Chicago), and the British Council.Schultz foi agraciado com o Prêmio Theodore Ott da academia suíça de Ciências Médicas de 1997 pelo trabalho revisado neste artigo.As citações de referência são limitadas devido a restrições editoriais .

1 Dickinson, A. Contemporary Animal Learning Theory. Cambridge, UK: Cambridge Univ. Press, 1980.
Google Scholar
2 Fibiger, H. C., and A. G. Phillips. Recompensa, motivação, cognição: Psicobiologia dos sistemas dopaminérgicos mesotelencéficos. In: Handbook of Physiology. nervoso. Sistemas reguladores intrínsecos do cérebro. Bethesda, MD: Am. Physiol. Soc., 1986, sect. 1, vol. IV, chapt. 12, p. 647-675.
Google Scholar
3 Freund, T. F., J. F. Powell, and A. D. Smith. Tirosina hidroxilase-boutons imunoreactivos em contacto sináptico com neurónios estriatonigrais identificados, com especial referência aos espinhos dendríticos. Neuroscience 13: 1189-1215, 1984.
Crossref | PubMed | ISI / Google Scholar
4 Hollerman, J. R., and W. Schultz. Os neurônios dopamínicos relatam um erro na previsão temporal da recompensa durante a aprendizagem. Neurociência Da Natureza. 1: 304–309, 1998.
Crossref | PubMed | ISI / Google Scholar
5 Ljungberg, T., P. Apicella, and W. Schultz. Respostas dos neurônios dopaminérgicos do macaco durante a aprendizagem de reações comportamentais. J. Neurofisiol. 67: 145–163, 1992.
Link | ISI / Google Scholar
6 Montague, P. R., P. Dayan, and T. J. Sejnowski. Um quadro para os sistemas de dopamina mesencéfalo baseado na aprendizagem preditiva Hebbiana. J. Neurosci. 16: 1936–1947, 1996.
Crossref | PubMed | ISI / Google Scholar
7 Mirenowicz, J., and W. Schultz. Activação preferencial dos neurónios dopaminérgicos do mesencéfalo por estímulos apetitosos e não aversivos. Nature 379: 449-451, 1996.
Crossref | PubMed | ISI / Google Scholar
8 Rescorla, R. A., and A. R. Wagner. A theory of Pavlovian condicioning: variations in the effectiveness of reinforcement and nonreinforcement. In: Classical Condition II: Current Research and Theory, edited by A. H. Black and W. F. Prokasy. New York: Appleton Century Crofts, 1972, p. 64-99.
Google Scholar
9 Robbins, T. W., and B. J. Everitt. Mecanismos de recompensa e motivação neurocomportamentais. Moeda. Opin. Neurobiol. 6: 228–236, 1996.
Crossref | PubMed | ISI / Google Scholar
10 Romo, R., and W. Schultz. Neurónios dopaminérgicos do mesencéfalo macaco: contingências das respostas ao toque activo durante os movimentos dos braços auto-iniciados. J. Neurofisiol. 63: 592–606, 1990.
Link | ISI | Google Scholar
11 Schultz, W. sinal de recompensa preditiva dos neurónios dopaminérgicos. J. Neurofisiol. 80: 1–27, 1998.
Link | ISI / Google Scholar
12 Schultz, W., P. Apicella, and T. Ljungberg. Respostas dos neurônios dopaminérgicos macacos para recompensar e condicionar estímulos durante etapas sucessivas de aprendizagem de uma tarefa de resposta atrasada. J. Neurosci. 13: 900–913, 1993.
Crossref | PubMed | ISI / Google Scholar
13 Schultz, W., P. Dayan, and R. P. Montague. Um substrato neural de Previsão e recompensa. Science 275: 1593-1599, 1997.
Crossref | PubMed | ISI / Google Scholar
14 Smith, A. D., and J. P. Bolam. A rede neural dos gânglios basais, como revelado pelo estudo de conexões sinápticas de neurônios identificados. Trends Neurosci. 13: 259–265, 1990.
Crossref | PubMed | ISI / Google Scholar
15 Sutton, R. S., and A. G. Barto. Toward a modern theory of adaptive networks: expectation and prediction. Psychol. Rev. 88: 135-170, 1981.
Crossref | PubMed/ISI | Google Scholar

potencial uso do sinal de erro de previsão de recompensa

conclusões e extensões

You might also like

Lista de 151 Slogans de café cativantes e grandes Taglines

Ava Addams Lifestyle, Height, Wiki, Net Worth, Income, Salary, Cars, Favorites, Affairs, Awards, Family, Facts & Biography

Deixe uma resposta Cancelar resposta