来源:新智元
针对DeepMind前几日发布的《星际争霸2》智能体AlphaStar进化版,他在Twitter再次提出了自己的质疑。不过这次,Marcus的质疑点并不是AlphaStar游戏表现本身,而是指向了更高的层面:对未来通用智能研究的意义。
Marcus在Twitter上表示:
DeepMind最近的《星际争霸2》 AlphaStar取得了很不错的结果,但这能称得上通向通用智能的重要一步吗?这里有几个问题:
星际争霸要比Atari游戏难得多,这次DeepMind推出的新版Alphastar性能比1月份那版强力了很多,与真实世界中的玩家实现了复杂场景交互中的对战。但是:
1、在不经修改的情况下,AlphaStar能制霸其他游戏吗?虽然AlphaStar的雏形继承了击败围棋世界冠军的AlphaZero,但此次发布的模型是高度结构化的,其中单位、表示和训练域等要素都是高度针对《星际争霸2》开发并调试的。
2、对AlphaStar专有模型的训练,能否降低和《星际争霸2》类似的策略游戏AI的训练时间?比如《魔兽争霸3》?人类玩家是可以进行这种跨游戏的“经验转移“的。
3、游戏内的AlphaStar对于不同地图、不同种族都能胜任吗?人类玩家至少会擅长多张地图和不止一个种族。
4、只凭借大量人类精英玩家生成的数据,AlphaStar的未来迭代版本还能保持成功吗?系统所需的大量“replay”数据在现实世界中可能很难获取。
5、人类专业知识对于AlphaStar有多重要?2017年,DeepMind推出了AlphaZero因为宣称“无需任何人类知识”而引发大量关注,此次AlphaStar的成功离不开在《星际争霸2》的人类知识和真人对战的演示视频。也许现在是时候承认人类知识的重要价值了。
6、在《星际争霸》领域表现优异的AlphaStar,能否同样在其他开放端领域同样出色?如自然语言理解,该领域的句子范围基本上是无限的。
和上一次对OpenAI魔方机器手的“开炮”相比,本次的6点问题在语气上和深度上都弱了不少。产生的影响似乎也没有上次那么广泛了。毕竟DeepMind这次发布的AlphaStar是一款游戏AI,对于泛化性能也不是重点,只是在博客中提了一嘴。
从Twitter的网友回复中,也可以看出这一点。大部分网友认为Marcus说的有一定道理,但其实DeepMind在博客中已经承认,不利用人类的先验知识,几乎是不可能成功的。
还有网友表示,其实星际争霸这个游戏,精通多个种族可不是一件容易的事情,比如他自己,就只会玩人族,其它两个种族就是菜。
DeepMind的《星际争霸2》游戏AI “AlphaStar”碾压99.8%人类玩家
接下来给大家补充一下剧情,马库斯这次质疑的DeepMind研究到底是什么。
今年1月,DeepMind的《星际争霸2》游戏AI “AlphaStar”初级版本的发布曾引发广泛关注。当时AlphaStar使用神族挑战了《星际争霸2》中的两个专业玩家并获得了胜利。
时隔9个多月,AlphaStar进化成为完全版,并实现了在战网真实对战中的宗师级水平,分位超过了99.8%的人类玩家。刊载相关成果的论文已发表在Nature上。
论文地址:
https://www.nature.com/articles/s41586-019-1724-z
DeepMind在近日发布了博客中特意将新版AlphaStar与旧版做了对比。具体来说,此次的“完全体AlphaStar”与旧版有4点主要区别:
1、 AlphaStar现在和人类在相同的限制条件下游戏,包括通过摄像头观察世界,对其动作操作频率也作出了更严格的限制,不会再发生APM高到离谱的现象。
2、 AlphaStar现在可以使用游戏中三个种族(人族、虫族、神族)的任意一种与人类玩家进行1v1对战,而不是像1月份时那样只会用神族。使用每个种族的智能体都是一个单独的神经网络。
3、 智能体在战网中的训练是完全自动化的,开始只由监督学习训练,而不像原来那样凭借过去的游戏经验进行训练学习。
4、 此次AlphaStar在暴雪官方战网和游戏服务器上进行游戏,使用的是和人类玩家相同的地图和条件。
DeepMind表示,新版AlphaStar智能体采用通用机器学习技术,包括神经网络、通过强化学习的自对战、多智能体学习、模仿学习等技术。利用这些技术,新版AlphaStar的游戏水平超过了战网99.8%的活跃玩家,使用三个种族都拿到了宗师级称号。
马库斯:深度学习怀疑论者,曾质疑OpenAI“单手解魔方”
Gary Marcus
加里 · 马库斯 (Gary Marcus) 是一位科学家、畅销书作家和企业家。他是 Robust.AI 公司的创始人和首席执行官,Geometric Intelligence 公司 (2016 年被优步收购) 的创始人兼首席执行官,出版著作包括《代数思维》、《怪诞脑科学 (Kluge)》、《思维的诞生》等,最新著作是与 Ernest Davis 合著的《Rebooting AI : 构建我们可以信任的人工智能》。
马库斯也是著名的深度学习怀疑论者。作为认知心理学家,他一直高调参与人工智能辩论,与 Yann LeCun、AAAI 前主席 Thomas Dietterich 等 AI 大牛都展开过激烈辩论。
在那篇批判深度学习的文章中,马库斯概括了深度学习的十大挑战,直言深度学习本身虽然有用,但它不可能实现通用人工智能。他建议把深度学习视为 “一种非普遍的解决方法,而只是一种工具。”
他说:“相比纯粹的深度学习,我呼吁混合模型,不仅包括深度学习的监督形式,还包括其他技术,例如符号处理(symbol-manipulation),以及无监督学习(它本身也可能被重新概念化)。我也敦促社区考虑将更多的内在结构纳入 AI 系统。”
就在前不久,马库斯对OpenAI“单手解魔方”提出质疑,认为 OpenAI 还原魔方的博客内容存在误导性,并表示:“鉴于 OpenAI 仍然没有更改关于 “解决魔方” 的误导性博客帖子 (博客标题是 “Solving Rubik’s Cube with a Robot Hand),所以我附上了详细的分析,将他们的说法和暗示与实际所做的进行了比较。依我之见,这些误导性对大多数对非专业人士来说并不明显。”
马库斯对 OpenAI“解决魔方” 的 7 条质疑如下:
1、这不是神经网络解决的;而是有 17 年历史的符号算法做到的。
2、这种算法是先天的,而不是学习的。
3、强化学习在选择转向哪个方向 (即大多数人所说的解决了魔方) 时不起作用。
4、所学到的是物体操纵,而不是解魔方。
5、只有一个物体被操纵,并且没有测试对其他对象的可推广性。
6、该物体装配了大量仪器 (如蓝牙传感器),机器手也安装了 LED。
7、成功率只有 20%;魔方经常从机器人手中掉落。
他说:“我强调一下,这个成果本身给人留下了深刻的印象,但描述有误导,更恰当的标题应该是’用强化学习操纵魔方’或‘灵巧的机器人手操纵物体的进展” 或类似的句子。”
OpenAI 联合创始人、机器人团队负责人 Woj Zaremba 注意到马库斯的帖子,反驳道:
1. 你的前三个论点是一样的。
2. 泛化是从模拟到现实,而不是从一个物体到另一个物体。
3. 我们没有装配仪器得到的结果稍微弱一些。
4. 你确信我们不会将性能提升到 100% 吗?
马库斯回应道:
1. 我的前两个论点完全不同:先天性≠象征性。这些是不同的。第三个论点有一点重叠,但并不明显。
2. 我当然知道,但是为了稳健性,你需要推广到新物体上
3&4:我期待看到其他结果;我相信你们最终会做得更好。
尽管是马库斯率先提出质疑,但不少人的回复并不赞同马库斯的说法,有人回复道:
“这是一个有缺陷的批评,基于对魔方的误解。魔方不是像围棋那样是一种可以学习的任务,而是需要记忆解法和熟练操作的任务;人类玩魔方也遵循一种算法。”
马库斯仍表示:总的来说,他们 (OpenAI) 没有对我的观点做出回应,我的观点是那篇博客的框架与论文的内容不相符合,虽然我同意这个工作很重要,但炒作是有误导性的。
抱着质疑和批判的态度去看待每一项研究,你支持马库斯吗?
编辑:尹传儒
校对:黄利