机器之心编辑部
这是史上第一个不受限制地达到主流电子竞技游戏顶级水平的AI。 它达到了星际争霸2中的最高等级(宗师)。
今天,相关论文发表在最新一期的《》杂志上。 这是人工智能算法的最新研究进展,表明AI在《星际争霸2》中已经达到了人类战斗天梯的顶级水平,“没有任何游戏限制”。 其在网络上的排名已超过99.8%的活跃玩家,相关视频资料也已发布。
虽然他还无法击败世界排名第一的人类选手,但他已经登顶了。 在最新的博客中,研究人员详细介绍了这种AI算法的学习能力。
游戏中,挤压特工(红色)发现了“Tower Rush”策略,并击败了核心特工(蓝色)。
随着训练的进行,新的核心智能体(绿色)已经学会了如何拖拽农民和其他单位对抗挤压智能体(红色)的“Tower Rush”。
与此同时,新的核心特工(绿色)通过优越的经济性、单位协调性和控制力击败了早期的核心特工(蓝色)。
新挤压特工(棕色)发现了新核心特工不会反隐身的弱点,并通过打造隐身刀成功击败了它。
发推文称已达到水平。
在今年夏天的一系列线上线下比赛中,他尚未像前辈那样击败“人类世界最强选手”,但他仍然在与世界顶级选手的90场比赛中取得了61场胜利。
基于其在游戏战斗中的表现,谷歌公司对《星际争霸2》的研究或许能够在数字助理、自动驾驶、甚至军事战略方面帮助人类。
星际争霸:人工智能的“下一个重大挑战”
星际争霸2是人类游戏史上最困难、最成功的即时战略游戏。 该系列游戏已有20多年的历史。 《星际争霸》经久不衰的部分原因在于其丰富、多层次的游戏机制,这是一个非常接近现实世界的虚拟环境,适合人工智能研究。
自从围棋、国际象棋、德州扑克相继被计算机破解以来,星际争霸就被视为人工智能的“下一个大挑战”。
星际争霸2巨大的操作空间和不完善的信息给建造过程带来了巨大的挑战。 与围棋不同的是,《星际争霸 2》有数百支不同的对手队伍,而且他们都是同时实时移动,而不是以有序、回合制的方式移动。 棋子按照规则可以走的步数是有限的,但每时每刻都有超过1026种动作选择,这意味着操作空间非常巨大。 而且,与围棋等完美信息游戏不同,星际争霸2是一种非完美信息游戏,玩家往往无法看到对手的行动,因此无法预测对手的行动。
2017年,其宣布开始研究能够玩即时战略游戏《星际争霸2》的人工智能。事实上,根据博客提供的信息,《星际争霸》的研究已经超过15年了。 也就是说,整个星际争霸游戏代理的研究早在2004年就开始了。
2018年12月10日,击败公司最强选手Dani; 到12月12日,他能够以5:0击败职业选手TLO(TLO是一名虫族选手,据游戏解说称,他在比赛中的表现可以达到5000分左右); 又一周后,12月19日,他又以5:0的比分击败了职业选手MaNa。
至此,又向前迈进了一步,达到了主流电子竞技游戏的顶级水平。
排名前1%,“神族、人类、虫族”都达到了大师级别
报告称,本研究与以往研究的不同之处在于:
它具有与人类玩家相同的摄像头视野限制(即机器看不到视野之外发生的事情),并且机器动作的频率也受到限制。 现在你可以进行三个种族的一对一比赛(即星际争霸中的人族、神族和虫族),每个种族都会有一组相应的神经网络。 整个训练过程是完全自动化的,智能体从监督学习开始训练,而不是从过去已经实验过的智能体开始。 游戏在对战平台上进行,使用与人类玩家相同的地图。
使用通用机器学习技术(包括神经网络、强化学习自我对弈、多智能体学习和模仿学习)直接从游戏数据中学习。 根据《》论文,排名已经超过了99.8%的活跃玩家,并且在星际争霸2的所有三款游戏(神族、人族和虫族)中都达到了大师水平。 研究人员希望这些方法可以应用于许多其他领域。
基于学习的系统和自我游戏对人工智能的重大进步做出了重大贡献。 1992年,IBM研究人员开发了TD-,它将基于学习的系统与神经网络相结合来玩双陆棋()。 TD - 该设计不是基于硬编码规则或启发式玩游戏,而是使用强化学习和反复试验来找出如何最大化获胜率。 开发人员使用自我玩游戏的概念来使系统更加强大:通过与自身版本对战,系统变得越来越精通游戏。 当基于学习的系统和自我游戏的概念结合起来时,为开放学习提供了强大的范例。
从那时起,大量的进展表明这些方法可以扩展到挑战日益严重的其他领域。 例如,并确认该系统可以在围棋、国际象棋和将棋等游戏中展现出人类无法企及的能力。 Five和FTW也在Dota 2和Quake III等现代游戏中展现了强大的自对战表现。
研究人员致力于研究开放学习的潜力和局限性,以开发既强大又灵活的代理,以便它们能够应对复杂的现实世界环境。 像《星际争霸》这样的游戏是推进这些方法的绝佳训练场,因为玩家必须使用有限的信息做出灵活而困难的决策。
代理“联盟”中的自我博弈
我发现游戏玩法令人印象深刻 - 该系统非常擅长评估自己的战略位置,并准确地知道何时靠近对手以及何时远离对手。 虽然它已经拥有出色的控制能力,但还没有展现出超人的能力,至少没有达到人类理论上无法达到的水平——总体来说还是公平的,和它对战感觉就像普通的星际争霸一样。 真实的战斗场景。
即使成功了,自我对弈也有其缺陷:它确实提高了能力,但也忘记了如何击败以前的自我。 这可能会导致“追逐”(像小狗一样追逐自己的尾巴),从而错过真正的改进机会。
例如,在石头、剪刀、布的游戏中,一个人可能更喜欢石头,随着游戏玩法的改进,这会变成剪刀,后来又变成石头。 全游戏策略进入战斗,是解决之前虚拟自博问题的解决方案。
第一次开放II后,他们发现虚拟的自我对弈不足以训练强大的战术,因此他们尝试开发更好的解决方案。
“联盟”培训
在最新一期的杂志中,文章的中心思想是将这种虚构的自我游戏延伸到一群特工,一个“联盟”。 通常,在自我对局中,想要在星际争霸游戏中取得更好成绩的玩家可以选择与好友合作训练特定策略,因此他们面对的竞争对手并不包括游戏中的所有玩家。 相反,它可以帮助他们的朋友揭露问题并成为更好、更强大的玩家。
联盟概念的核心是仅仅获胜是不够的。 相反,实验要求主代理能够击败所有玩家,而“()”代理的主要目的是帮助核心代理暴露问题并变得更加强大。 这并不需要这些经纪人去提高胜率。 通过使用这种训练方法,整个特工联盟在端到端的全自动系统中学习了《星际争霸2》中的所有复杂策略。
图 1:复杂游戏领域(例如星际争霸系列)中的一些挑战。
(前排)玩家可以创建各种“单位”(例如工人、战士或运输者)来部署不同的战略行动。 得益于模仿学习, 的初始代理可以执行多种策略,此处描述为由游戏中创建的单元组成(在本例中:虚空船、追踪器和不朽者)。 然而,由于有些策略更容易改进,纯强化学习主要关注它们。 其他策略可能需要更多的学习经验或具有特殊的细微差别,使代理更难以完善。 这就造成了一个恶性循环,其中一些有效的策略变得越来越无效,因为代理放弃了它们而支持占优策略。 (下排)研究人员向联盟添加代理,其唯一目的是暴露核心代理的弱点。 这意味着需要发现和开发更有效的策略,让核心特工对敌人更具抵抗力。 与此同时,研究人员采用模仿学习技术(包括蒸馏)来防止完全逃避训练,并使用潜在变量来表示不同的开放动作。
在《星际争霸》这样的复杂环境中,探索是另一个关键挑战。 每个智能体在每个时间步最多可以使用 1026 个可能的动作,并且智能体必须执行数千个动作才能知道自己是赢了还是输了游戏。 在如此大的解决方案空间中,找到制胜策略是一项挑战。 即使拥有强大的自我博弈系统和多样化的开发代理联盟,如果没有一些先验知识,系统几乎不可能在如此复杂的环境中制定成功的策略。
因此,学习人类玩家的策略并确保智能体在自我对弈中继续探索这些策略是释放有效性的关键。 为此,研究人员将模仿学习与先进的神经网络架构和语言建模技术相结合,开发了一种初步策略,该策略的游戏结果优于 84% 的活跃玩家。 此外,我们使用了一个潜在变量来识别策略并编码人类游戏中开局动作的分布,这有助于保留高级策略。 然后,在整个自我博弈过程中使用一种蒸馏形式,使探索偏向于人类策略。 这种方法使得在单个神经网络中表征多种策略成为可能(每个群体一个)。 该神经网络在评估过程中不以任何特定的打开动作为条件。
是一位不寻常的球员,拥有最好球员的反应和速度,但也具有完全独特的策略和风格。 训练是通过一群特工在一个联盟中相互竞争来挤出所有可能的结果,使得比赛结果异常得难以想象。 这无疑让人想知道职业玩家已经探索过《星际争霸》中有多少种可能性。
此外,研究人员还发现,之前强化学习中学到的很多方法都是无效的,因为这些方法的动作空间太大。 特别是星际争霸2单机破解,使用了异步强化学习(off-),使其能够有效地更新其先前的策略。
实验结果
在测试过程中,研究人员对其进行了限制,使其与人类玩家保持一致。 尤其是在操作速度方面,为了防止代理像超人一样点击过快击败对手以获得更多奖励,应该控制在经验丰富的玩家水平。
基于这些限制,经过27天的训练,战网天梯与暴雪开启了:玩家只要申请并通过,就可以与这个最强AI在线对战。 现在,所有三场比赛都可以参加。 在公开战斗环境中,排名欧洲服务器前0.5%。
虽然取得了不错的成绩,但并没有完全击败人类顶级选手。 此外,在训练过程中还存在一些没有暴露出来的弱点,这些都需要继续改进。
今年9月,暴雪和暴雪发布了与各个顶级玩家在天梯上战斗的视频,其中包括许多世界排名前10的职业玩家。
这可能是目前最高端的“人机大战”:VS。
当然,我也遇到了星际2目前最强的选手,芬兰虫族选手。 在这场16分钟的比赛中,我们与AI进行了正面交锋。 不过,似乎在这种比赛中,任何一方的任何短板都会导致最终的失败。 有评论称:看起来更像是AI。
军方可能感兴趣
尽管他们表示永远不会让军方参与这项研究,而且《星际争霸2》也不是对现实战争的模拟,但谢菲尔德大学人工智能和机器人学教授诺埃尔表示,研究结果会引起军方的担忧。 的关注。 美国政府三月份发布的一份报告描述了人工智能如何丰富战争模拟并帮助战争参与者评估不同战术的潜在后果。
“军事分析家肯定会将实时战略的成功视为人工智能在作战规划方面的优势的明显例子。 但这是一个极其危险的想法,可能会导致人道主义灾难。 从环境战略中的大数据中学习,但来自叙利亚和也门等冲突地区的数据太少,无法使用。”
“正如最近在联合国的一次活动中所说,这种做法对于军备控制来说非常危险,因为这些举动是不可预测的,并且可能以意想不到的方式发挥作用——违反了武装冲突法。”
纸:
战斗视频:
参考内容:
标题:星际争霸2单机破解 机器之心:人工智能的「下一个重大挑战」
链接:https://www.52funs.com/news/xydt/5029.html
版权:文章转载自网络,如有侵权,请联系删除!