模拟大脑学习过程，DeepMind用强化学习神经网络找出人类内化过去经验解决新任务的关键

2018-05-16 11:38:36 | 来源：ithome | 投稿：小唯 | 编辑：dations

原标题：模拟大脑学习过程，DeepMind用强化学习神经网络找出人类内化过去经验解决新任务的关键

DeepMind最近于自然神经科学期刊中，发表了利用元强化学习（Meta-reinforcement△learning）了解多巴胺与学习过程的关系，该研究通过元强化学习网络模拟多巴胺的功能，发现该AI网络能够从过去的经验中，学习抽象的规则，应用到新任务中，有助于强化AI系统一次性学习的成效，并能加速AI学习新任务的速度，就像人类一样，能够活用过去的知识，套用到新的任务上。

最近AI系统的能力已经能够驾驭许多游戏，但是要达到这样的成果，AI还是需要上千个小时的游戏训练，才能在游戏中超越人类的表现，而相较之下，人类却可以在几分钟内，学会玩从来没玩过的游戏。

人类可以用很少的知识做很多新的事的特性，这种学习能力被称之为元学习（Meta-learning）或是学会学习（Learning△to△learn），人类的学习分为长期和短期，短期将会聚焦于特定的案例，而长期则是会学习抽象的技能和规则来完成别的任务，人类就是结合了两种学习方式，因此在面对新的任务时，可以很快又有弹性地处理新任务。

DeepMind将人类学会学习的能力套用到AI系统中，并称之为元强化学习，实验成果显示该方法能够强化AI系统一次性学习的成效，并能加速AI学习新任务的速度。不过，人类大脑的学习机制在神经科学中仍然还无法解释。

DeepMind的研究中，通过元强化学习框架来研究多巴胺（Dopamine）在大脑中帮助人类学习的作用，多巴胺通常被称为大脑快乐的讯号，对应到AI系统中，类似用来评断预测误差的奖励讯号，AI系统会依据奖励机制反复训练。

而DeepMind认为，多巴胺不仅是利用奖励机制来理解就过去完成任务的行为，更是能够让人类快速、有效地学习新任务的关键。

因此，DeepMind为了要测试这个想法，用模拟的方式重新建立神经科学领域的6个Meta-learning实验，每个代理网络都有相同的技能和规则，并要求代理网络执行任务。

首先，研究团队通过标准的深度强化学习（代表多巴胺的角色），训练了一个递归神经网络（代表前额叶皮质），接着，将递归神经网络的表现，与之前在神经科学实验中得到的实际数据进行比较，结果显示，递归神经网络对于Meta-learning是好的代理网络，因为网络能够将过去的行为和观察内化，在从事多种不同任务时，应用这些过去的经验。

另外，研究团队也重建了探索Meta-learning概念的哈洛（Harlow）实验，原本的实验测试中，给予一群猴子选择两个不熟悉的物体，只有其中一个有提供食物的奖励，总共会进行6次测试，每次都会随机更换两个物体左右的位置，让猴子学习分辨哪一个物体会给予食物的奖励。

经过训练后，猴子会发展出一套策略来选择有奖励的物体，第一次先随机选一个物体，接下来再根据有无奖励的结果来选择特定物体，而不是选择左右边来选择，这项实验说明了猴子会内化潜在的规则，学习抽象的规则结构，也就是学会学习的概念。

当研究团队用虚拟电脑荧幕模拟类似的实验，并随机选择图像，实验发现，元强化学习的代理网络能够像哈洛实验中的猴子一样学习，即便是给予从未出现过的图像，代理网络也能正确选出有奖励的图像。

该研究发现，大部分的学习行为在递归神经网络中进行，证实了研究团队的论点，多巴胺在Meta-learning中扮演非常重要的角色，过去，多巴胺被认为能够增强前额叶系统的突触连结，强化完成特定任务的行为。

在AI系统中，这项实验结果代表，当AI学会解决任务的正确方法时，类似多巴胺的奖励讯号调整了人工突触的权重，不过，在实验中，神经网络的权重却被冻结，不能在学习的过程中调整权重，但元强化学习的代理网络还是可以解决新任务，也就是说，类似多巴胺的奖励讯号不只依赖调整权重，还能传递抽象技能和规则的重要讯息，来快速适应新任务。

神经科学家过去就已经观察到，前额叶皮质的神经活动能够让人类快速适应新任务，但是还没找到充分的原因解释，而DeepMind的实验发现前额叶皮质不是依赖调整神经突触的权重来学习规则的架构，而是用了多巴胺来转译抽象的规则讯息。

tags：

IBM研究团队最近针对对话的UX设计，开发了一套自然对话框架Natural△Conversation，不但突破以往一般Chatbot两轮对话的限制，创造能够记忆对话内容，来持续与使用者对话，还在该模型中将人类自然的对话模式，套用到对

研究：加拿大面临史上最严重大脑出走潮，2/3顶尖大学理工人才外流

图片来源: Brain△Drain△Report 加拿大多伦多大学调查发现，加拿大前3名的大学，其科学、科技、工程以及数学领域的毕业生，每四位就有一位在加拿大境外工作，研究称这是加拿大史上最严重的人才流失，甚至比20年前的

大熊猫黑眼圈变白推荐

日前，成都大熊猫繁育研究基地的多只大熊猫遭遇“黑眼圈变白”的情况，引起了国内许多大熊猫爱好者及网友们的关注。记者5月2日获悉，我国著名眼眶病专家、四川大学华西医院原眼科主任、成都华厦眼科医院业务院长罗清

Google创办人警告AI的隐忧：乐观看待但得小心AI可能反过来操纵人类

继比尔盖兹、霍金之后，Google创办人暨Alphabet总裁Sergey△Brin也公开表达对人工智能（AI）威胁的疑虑，表示需要科技公司的谨慎态度。该公司每年一度的《创办人的公开信》（Founder’s△Letter）中，Brin先引述《双

人类何时离开非洲？让88000年前的手指骨告诉你推荐

在沙特阿拉伯东北部的AlWusta，考古学家发现了智人的指骨化石残骸。摄影：IANCARTWRIGHT此前，科学界一直认为，现代人类直至60000年前才离开非洲，而这些发现于史前湖区的手指骨化石，带来了不同的观点。今天的阿拉伯

热点 / Hot

站长推荐：