哈佛团队发现了新的多巴胺能神经元机制,自然
作者:365bet体育注册日期:2025/06/09 浏览:
“大自然使用了数十亿年进行优化的神经算法,这对于破坏当前的人工智能瓶颈而言是至关重要的。在鼠标实验中发现了两次练习活动的鼠标实验,当多巴胺能神经元进行了两次练习活动时,他们猜测了他们最近的奖励,他们已经获得了奖励,他们已经获得了奖励,他们已经获得了奖励 - 他们的奖励是奖励的,他们是奖励的。论文在自然界发表[2]。
应当指出的是,折扣是指评估现象的心理现象主观奖励或罚款的NT将减少时间延迟。这个概念在行为,神经科学和强化教育领域具有重要意义。折现因子是主要的加强参数,用于衡量代理商在将来的奖励中的重要性。
该研究还显示了多个时间尺度性能的大脑的Pstrtengents吗?
人工智能领域的许多最新进展希望研究TD增强。在这种研究方法中,使用时间差的研究策略用于确定预言信息。
在这一领域,人们继续根据未来的预期价值来更新当前的估计,从而允许时间安排在解决两种类型的任务时表现出良好的绩效:“未来的未来奖励”和“行动计划的优化”。
对于差异的传统研究 - 它采用了固定折现因素的标准设置,IS,单个研究时间。此设置将导致算法ISConvert之后的指数折扣产生,也就是说,将来的奖励量将以固定的比例腐烂。
尽管有这种固定的折扣因素设置,但对于保持简单性和对学习政策的自我理解至关重要,但是众所周知,在做出临时决定时,人类和动物等有机体并未显示出折现行为。
相比之下,生物通常显示双曲线折扣的行为:也就是说,奖励的量将具有“首先减少,然后放慢速度”时的属性。
人类和动物等有机体可能能够调整自己的折扣,以适应环境的时间统计特征。当该调节是功能性功能的情况时,市长是心理异常或某种疾病的标志。
研究小组说,进一步扩展了研究时机可以使神经系统和生物神经系统学习更多复杂的表示。越来越多的证据表明,生物系统中有很多时代,尤其是在基底神经节中。应该注意的是,基底神经节是一组脊椎动物大脑中不同起源的皮层核。并探索这些表达方式如何是神经科学和心理学领域的主要问题。
在大多数学习理论中,重要的要素是许多时间尺度的可用性,使系统可以捕获不同范围范围内的时间依赖性:较短的时间尺度是Kara Karait可以处理快速变化的关系和即时依赖性;较长的量表通常可以缓慢变化并处理长期依赖性。
此外,人工智能领域的研究表明,通过在许多时间尺度上进行研究,D的表现EEP学习算法可以改善。因此,对该大脑的研究是否会增强它为多时间量表的特征?
直到今天,研究团队研究了研究多时间增强量表的计算定义。他们发现,多巴胺能神经元在不同的时间尺度上编码预测,这可以为研究大脑中的多时间尺度提供潜在的神经基础。
(来源:自然)
ipaliwanag多巴胺能神经元活动背后的许多原理
研究小组发现,对于在各种复杂问题中的表现,使用多个时间尺度研究的强化研究代理人比使用单个时间尺度的代理更好。
为了描述多个时间量表表示的计算繁荣,他们显示了几个任务示例:包括简单的线性迷宫,迷宫分支,导航方案和深Q网络(DQN,DQN,DEEPQ-NETWORK)方案。
(来源:自然)
在迷宫的线性任务中,a绅士将不得不在条纹轨道上导航,并在某个时间点(TR)找到一定尺寸(R)的奖励。
(来源:自然)
r和tr值在不同的曲折之间有所不同,但在同一扭曲中保持印地语变化。每个转弯都以初始状态显示的及时信号开始。
在每次转折中,代理商在增强研究中通过减轻算法来使用单个折扣因子或许多折扣。还原因子用于计算线索预测的未来奖励。
同时,基于与线索相关的学习数量,代理通过解码网络执行特定的任务来转换值信息,并最终生成了与任务要求匹配的行为的输出。
(来源:自然)
由于某些任务在许多时间内涉及复杂的非线性操作,因此研究小组使用策略梯度培训了每个任务的一般非线性解码器。为了评估多时间量表值比单时间尺度表示的主要优势,并探索这些优势可以利用简单的代码独立解码器的程度。因此,在研究团队模型中,多时间刻度值信号不会直接推动行为的输出,而是充当增强的状态表示,以提供解码后续行为特定工作的信息基础。
通过此,他们回顾了增强研究剂的多时间量表的独特计算专家,并表明这种观点可以解释多巴胺能神经元活动背后的许多原理。
(来源:自然)
将革命灵感带入新的halgorithm设计能源
研究小组说,“了解多巴胺能神经元通过研究算法的时序变化来计算奖励猜测错误”的观点已经完全改变了人们的了解此类神经元功能。
但是,一些研究通过扩大记录位点的解剖范围来表达对多巴胺神经元反应的显着异质性,但是经典的时间差异很难推理这些发现 - 研究框架的研究。
同时,许多看似异常的异常可能会与增强框架的扩展损害和整合,进一步增强了获得脑学习梅卡尼斯摩复杂性时机时机理论的强大技能和福祉。
在这项工作中,研究小组还宣布了多巴胺能神经元异质性的另一个来源:也就是说,他们可以在预测许多时间尺度时征服错误。
采取的,这些结果表明了一部分异质性与目前观察到的多巴胺反应的一部分,反映了增强研究框架中主要参数的变化。
与基于标量的ER相比在传统研究框架中,基于ROR的技术,多巴胺系统可以意识到并确定丰富的信息,因为多巴胺系统使用“参数矢量的预测”错误。在“寄生虫预言中的错误”中,包括奖励奖励的未来演变的离散拉普拉斯变换。
应该注意的是,离散拉普拉斯变换(DLT)是改变离散时间或离散空间的经典拉普拉斯的进步,主要用于信号处理场,控制控制和机械研究。
还据报道,修复折现因子已被用来提高各种算法的性能,相关方法包括:通过研究元数据,研究依赖关系状态的折扣以及相似的指数折扣代理的整合来获得最佳的折现因子。
但是,神经元通过活动或情况符合全球折扣信的招募机制是什么啤酒?解剖位置和折扣行为之间的关系是什么?以及像5-羟色胺这样的其他神经递质对这种适应的贡献?这些都是未解决的问题。
同样,流动时间表示的矢量误差信号的调节机制仍然需要进一步研究。了解神经资源的“动员”机制背后的原理将有助于人们了解在机制水平上确定变化时间的校准和失调作用。
研究团队面临的困难之一是增强理论使用指数折扣,而人类和动物经常表现出双曲线折扣。
先前的研究探索了多巴胺能神经元的折扣机制,并认为个别多巴胺能神经元显示出双曲线折扣。然而,这项先前的研究采用了非惊人的奖励回应作为奖励的衡量fzero-delay可能导致结果对双曲线折扣模型更有偏见。
相反,该研究团队的数据与单个神经元水平的指数折扣一致,这表明每个多巴胺能神经元定义的刺激性研究机制以及兴奋剂研究算法的策略。
当将该指数的不同折扣合并在生物学水平上时,可能会发生双曲线折扣。也就是说,在全球计算中,许多量表的相对儿童贡献是指有机体水平上的折扣功能,并且根据环境风险率的不确定性进行了功能。
因此,适当地引入折现因子的异质性对于适应吨时的不确定性非常重要。这种观点也与加强研究的共同假设有着相似之处,该假设认为Optimis校准的不平衡M和悲观主义将导致获得的价值偏见。
由于遗传因素,发育或转录引起的这种分布的偏见可能会产生有生物体,有可能在研究过程中追求短期目标或长期目标。同样,该观点也可以用于指导算法的设计,该算法提供了动员和使用这些自适应时间预测。
通常,该结果创建了一种新的研究范式,该范式可用于研究计算多巴胺能神经元预测误差的机制。这不仅为PADECISION的跨周期障碍提供了一种新的解释机制,这使生物态带来了对新一代算法设计的重要意义。
参考:
1.https://www.ebiotrade.com/newsf/2025-6/20250605082948946.htm
2.Masset,P.,Tano,P.,Kim,H.R.Et Al。多动脑研究改革。大自然(2025)。 https://doi.org/10.1038/s41586-025-08929-9
类型:Xishu返回Sohu,CH更多
相关文章