今日消息 DeepMind用新AI超越自己:提速200倍 所有雅达利游戏上胜过人类
DeepMind又对雅达利游戏下手了!这次,他们最新推出的智能体MEME,在效果不变的前提下,比两年前的Agent57提速了200倍!Agent57,是DeepMind在2020年搞的一个智能体,史上首次在所有57个雅达利游戏中超过了人类基准表现。
但它有一个致命缺陷是效率低:需要近800亿帧的数据训练才能实现。
现在,MEME的出现完美解决了这一问题。
有网友看完表示:这就是真正的样本高效吧。
话不多说,赶紧来一睹为快吧。
新的智能体:MEME
Agent57,作为首个在所有雅达利游戏中超越人类基准表现的智能体,性能上已足够先进。
但问题是,要想达到这一目标,背后需要780亿帧的庞大的经验训练,这在时间和成本上都是一笔大开支。
因此,以Agent57为起点,DeepMind采用了一系列不同的策略,来实现训练效率上的提升。
他们调查了在减少数据制度时遇到的一系列不稳定因素和瓶颈,并提出了有效的解决方案,最后建立一个更加强大和高效的智能体:MEME。
新的MEME智能体主要针对Agent57的4个方面进行改善,分别是:
A.实现与罕见事件相关的学习信号的快速传播;
B.在不同的价值尺度下稳定学习;
C.改进神经网络结构;
D.在快速变化的政策下使更新更加稳健。
为了达到这四个目标,DeepMind采取了以下方法,与上述四点相对应。
A1.用在线网络进行引导;
A2.有公差的目标计算;
B1.损失和优先权归一化;
B2.交叉混合训练;
C1.无归一化的躯干网络;
C2.带有综合损失的共享躯干;
D.通过策略提炼的鲁棒行为。
这些方法旨在提高Agent57的数据效率,但这种效率的提高不能以牺牲终端性能为代价。
因此,为了检验经过上述步骤的智能体MEME的效率和性能,研究团队分别在2亿、10亿、200亿、900亿帧环境进行了训练。
通过下图可以直观的看出,新智能体MEME在3.9亿帧时就超过了人类基准,比Agent57快了两个数量级,并且在将参数量从90B减少到1B的情况下,取得了类似的最终表现。
可以说相比Agent57而言,MEME既提升了效率,又保持了性能。
研究团队
MEME的研究团队来自DeepMind。
其中三位Adrià Puigdomènech Badia、Steven Kapturowski、Charles BlunDELL也是之前Agent57的论文作者。
值得一提的是,Steven Kapturowski在两篇论文中都是一作。
他毕业于美国科罗拉多大学博尔德分校,曾在苹果、微软、GlaSSDoor等公司工作过,现在是DeepMind的一名高级研究工程师。
免责声明:本文由用户上传,如有侵权请联系删除!
猜你喜欢
最新文章
- 个性标签写什么好8个字(个性标签8个字简介介绍)
- 贴吧和i吧有什么区别(贴吧和i吧有什么区别)
- 东北话得细小是什么意思(东北话小得得是啥意思)
- 太姥山旅游最新攻略一日游(太姥山旅游线路)
- 12月有什么好电影上映(12月上映好看的电影)
- 妒海主题曲百度云(泰剧妒海的主题曲和片尾mp3格式的谁有谢谢)
- 元奎在好莱坞拍过多少电影(指导过多少电影 都叫什么)
- 怎么关闭wps删除提示(wps屏幕提醒怎么关闭简介介绍)
- 4399弹弹堂vip折扣券(4399弹弹堂怎么刷点券啊)
- 企业天猫入驻条件及费用(天猫入驻条件及费用简介介绍)
- 尹相杰母亲是马玉涛吗(尹相杰母亲是马玉涛吗)
- 冬至应该吃什么食物(冬至应该吃什么食物)
- nokia6600复刻版本(NOKIA6630~~~)
- 新年快乐日语怎么说(新年快乐日语怎么说)
- 工作交接清单怎样写,格式是怎样的(工作交接清单怎样写格式是怎样的简介介绍)
- 为什么我的梦幻诛仙人物快捷键用不出来(求高手解答 我换了很多台机子了)
- 三星note3开不了机(三星note1手机为什么开不了机)
- 迅雷种子怎么提取(前缀是什么)
- poison(ivy 什么意思)
- 魔法卡片掉卡规则(魔法卡片中怎么没有变闪卡的卡友)
- 眼部结构简图(眼部结构简介介绍)
- 武汉外高国际部学费(武汉外高出国)
- 湖南台为什么叫马桶(湖南台为什么叫芒果台)
- 公元前10000年是什么年(公元前10000年)