当前位置：首页>科技 >内容

AlphaStar，称霸星际争霸2！AI史诗级胜利，DeepMind再度碾压人类

2023-12-28 08:31:04科技漂亮的斑马

很多朋友对AlphaStar，称霸星际争霸2！AI史诗级胜利，DeepMind再度碾压人类不是很了解，六月小编刚好整理了这方面的知识，今天就来带大家一

很多朋友对AlphaStar，称霸星际争霸2！AI史诗级胜利，DeepMind再度碾压人类不是很了解，六月小编刚好整理了这方面的知识，今天就来带大家一探究竟。

DeepMind花了两年时间打造的AlphaStar以5-0的比分果断击败了世界上最强大的职业星际玩家之一，打破了人类最难的游戏，又一个里程碑！AlphaStar诞生了！就在刚刚，AlphaGo推出后，DeepMind将打造了两年的AlphaStar推上了历史舞台，创造了第一个打败星际争霸2顶级职业选手的AI。

DeepMind于昨晚12月19日发布了一系列测试文章游戏。在与队友达里奥' TLO '温施(Dario ' Wunsch)成功进行基准测试后，AlphaStar以5-0的比分决定性地击败了世界上最强大的职业星际玩家之一。虽然AI在Atari、Mario、雷神竞技场3、Dota 2等电子游戏中取得了巨大成功，但直到现在，AI仍在努力应对星际争霸的复杂性。

《星际争霸2》由暴雪娱乐出品。故事设定在虚构的科幻世界，丰富的多层次玩法，旨在挑战人类的智力。由于其高度的复杂性和策略，这款游戏成为了历史上最大和最成功的游戏之一。玩家参加电子竞技比赛已经超过20年。这一次AI打败了顶尖选手，真正打破了人类智力的最后阵地！10个文章见证了AlphaStar被杀，人类玩家当场还击。

比赛前，DeepMind召集了两名人类职业选手，每人与AlphaStar进行了五轮比赛。然后在现场，人类和AI打了最后一局，保全了面子。让我们来看看。这次终极1V1人机对战使用的地图是Catalyst LE，游戏版本是4.6.2。与阿尔法星对战的人类玩家是TLO和马纳。

TLO是现役职业球员达里奥温施(Dario Wnsch)，德国人，隶属于荷兰球队“Team Liquid”。2018年，他在WSC赛道排名第44位。TLO在玩家中很出名，因为它经常在Twitch上文章。另一位选手是“马纳”，一位25岁的现役职业选手，有波兰王牌之称。法力曾经是神族。在刚刚结束的IEM科隆比赛中，马纳在小组赛中以2-1击败了韩国的宰东。

MaNa目前在2018年WSC巡回赛中排名第13。他去年在WCS奥斯丁获得了亚军，也在2015年WCS第三季度获得了亚军。早些时候，MaNa赢得了Dreamhack2012夏季冠军。以下是来自10场比赛文章的精彩片段和现场精彩打斗。回合1: 7分钟，AlphaStar结束了顶级人类选手的开始，人类选手率先派出一名农夫在AI的家中来回探路。

在2分50秒的时间里，人类玩家派出两个高阶神坛开始第一波骚扰，AlphaStar派出一些壮丁攻击歼灭。然后人类玩家骚扰，同时AI开始反击，派出追踪者攻击主基地。不知不觉，AI已经救了6个追踪者，大步向人类选手分基地走去。双方开始了第一波GANK，但LTO派出了家庭，老老少少，以抵御攻击。但是，AI的补给兵已经到了战场。LTO无能为力。

Round2:人类玩家攻击性强，AI步步为营，精确计算还是老样子。双方前期一直在打。大约6分钟后，AlphaStar率先派出10名追踪者攻击LTO，人类玩家成功自卫。在此期间，AlphaStar制定了减少气体收集的策略。然后人类玩家和AI都各自发展经济制造军火，在小范围内迂回作战。14: 00，决胜点出现。看似人类玩家追赶AI，却突然被其他兵从两路切入，被杀。

人类玩家无力回天，AlphaStar又赢了。第3-5轮：AlphaStar兵临城下，各种方式包围，简直是虐。下一个文章是另一个人类顶级玩家，马纳。我们来看看录制文章中的三个完全虐待的场景。遛农民并勒死他们。推一波电流。三路围剿击溃峡谷。现场较量：人类选手反击，消灭AI。

也许是因为AI太强大了，人类需要证明自己的实力。最后，职业选手马纳在现场与AlphaStar进行了一场实时较量。与文章相比，人类运动员采取了更为保守的策略，选择发展经济和“招兵买马”；AlphaStar是第一个发起挑衅的。而且基地周围和探路的农民也被枪杀。

在保守打法的基础上，法力积累了一定的兵力，在发现阿尔法星部队出巢时，立即发动部队进攻。同时不忘建一个分基地，双线运行，非常稳定。此时AlphaStar的部队没有及时赶回救援，MaNa趁此机会直接拆除了分基地。面对刚刚赶回来的阿尔法星军团，法力如虎，直接击退其部队，然后果断直捣黄龙。最终人类绝地反击，打败了AI。

各国读者瞬间不淡定了，评论区炸了锅，为人类的胜利欢呼，或许是为了挽回人类最后的脸面。阿尔法星精炼：每个代理使用16 TPU。

AlphaStar的行为是由一个深度神经网络生成的，它从原始游戏界面接收输入数据(单位及其属性的列表)，并输出构成游戏内操作的指令序列。更具体地，神经网络架构将转换器干线应用于该单元，将LSTM核心、具有指针网络的自回归策略头部和集中值基线相结合。

DeepMind认为，这种先进的模型将有助于解决机器学习研究中涉及长期序列建模和大输出空间(如翻译、语言建模和视觉表示)的许多其他挑战。

AlphaStar还使用了一种新的多智能体学习算法。神经网络最初是在暴雪发布的匿名人类游戏中通过监督学习进行训练的。这使得AlphaStar能够模仿星际争霸天梯上玩家使用的基本微观和宏观策略。这个最初的代理人在95%的游戏中击败了内置的“精英”AI级别——，这是人类玩家的黄金级别。

然后利用它们建立多智能体强化学习过程。创造了一个持续的联盟，在这个联盟中，代理——和竞争对手——相互博弈，就像人类在星际争霸天梯中博弈一样。

新的竞争者通过从现有竞争者中进行分支，动态地添加到联盟中；然后每个代理从与其他竞争对手的游戏中学习。这种新的训练形式将基于人群的强化学习理念进一步发扬光大，创造了一个不断探索《星际争霸》游戏玩法巨大战略空间的过程，同时确保每个竞争对手都能在最强的战略面前表现出色，并且不会忘记如何击败较早的战略。

随着联赛的发展和新的竞争对手的产生，新的对抗策略出现了，能够击败以前的策略。当一些新的竞争者执行一个仅仅是对以前的策略的改进的策略时，另一些人发现了包含全新构建订单、单元组合和微观管理计划的全新策略。

例如，在AlphaStar联盟早期，一些“俗套”的策略，如使用光子炮或黑暗圣堂武士进行非常快速的快攻，受到了玩家的青睐。随着训练的进行，这些冒险的策略被抛弃了，产生了其他的策略：例如，通过过度扩张拥有更多工人的基地来获得经济实力，或者牺牲两个神谕来破坏对手的工人和经济。

这一过程类似于《星际争霸》发行多年以来玩家发现新策略并能够击败之前所青睐的方法的过程。

为了鼓励联盟的多样性，每个代理都有自己的学习目标：例如，这个代理的目标应该是打败哪些竞争对手，以及影响代理如何发挥的任何其他内部动机。一个代理可能有打败某个特定竞争对手的目标，而另一个代理可能必须打败整个竞争对手分布，但这是通过构建更多特定的游戏单元来实现的。这些学习目标在培训过程中得到了调整。

最好的结果可能是通过手工制作系统的主要元素，对游戏规则施加重大限制，赋予系统超人的能力，或者在简化的地图上进行游戏。即使有了这些改进，也没有一个系统能与职业选手的技术相媲美。相比之下，AlphaStar在星际争霸2中玩的是完整的游戏，它使用的深度神经网络是通过监督学习和强化学习直接从原始游戏数据中训练出来的。

为了训练AlphaStar，DeepMind使用谷歌的v3版本的TPU构建了一个高度可伸缩的分布式训练设置，它支持大量代理从数以千计的星际争霸2并行实例中学习。AlphaStar联赛运行了14天，每个代理使用16个TPU。在训练期间，每个代理都经历了长达200年的星际争霸实时游戏。最终的AlphaStar代理由联盟的Nash分布组成——换句话说，已经发现的最有效的策略组合——运行在单个桌面GPU上。

另外，这项工作的论文也即将发布。

AlphaStar实战技巧分析

讲完AlphaStar的训练过程，再来分析下实战过程。

像TLO和MaNa这样的职业星际争霸玩家，平均每分钟可以做数百个操作(APM)。这远远少于大多数现有的机器人，它们独立控制每个单元，并始终保持数千甚至数万个APM。

在与TLO和MaNa的比赛中，AlphaStar的平均APM约为280，远低于职业选手，不过它的动作可能更精确。

造成APM较低的部分原因是AlphaStar使用回放开始训练，因此模仿了人类玩游戏的方式。此外，AlphaStar的反应在观察和行动之间的平均延迟350ms。

在与TLO和MaNa对弈过程中，AlphaStar通过原始界面与星际争霸2引擎连接，这就意味着它可以直接在地图上观察自己的属性和对手的可见单位，而无需移动相机。

相比之下，人类玩家必须明确管理“注意力经济(economy of attention)”，并决定在哪里对焦相机。

然而，对AlphaStar游戏的分析表明，它管理着一种隐性的注意力焦点。平均而言，智能体每分钟“切换内容”约30次，类似于MaNa或TLO的操作。

此外，在比赛之后，DeepMind还开发了AlphaStar的第二个版本。和人类玩家一样，这个版本的AlphaStar会选择何时何地移动摄像头，它的感知仅限于屏幕上的信息，行动地点也仅限于它的可视区域。

DeepMind训练了两个新智能体，一个使用raw interface，另一名必须学会控制摄像头，以对抗AlphaStar League。

每个智能体最初都是通过从人类数据中进行监督学习，然后按照强化学习过程进行训练的。使用摄像头界面的AlphaStar版本几乎和raw interface一样强大，在DeepMind内部排行榜上超过了7000 MMR。

在表演赛中，MaNa用camera interface击败了AlphaStar的一个原型版本，这个interface只训练了7天。

这些结果表明，AlphaStar对MaNa和TLO的成功实际上是由于优越的宏观和微观战略决策，而不是快速的操作、更快的反应时间或raw interface。

人类挑战20年，AI攻下星际争霸有五大困难

游戏规则规定，玩家必须选择三种不同的外星“种族”中的一种——虫族、神族或人族，它们都有各自的特点和能力（尽管职业玩家往往只专注于一种种族）。每个玩家从一些工作单元开始，收集基本资源来构建更多的单元和结构并创造新技术，这些反过来又允许玩家获取其他资源，建立更复杂的基地和结构，并开发新的能力，可以用来智胜对手。

游戏的难度在于，要想取胜，玩家必须在宏观经济的宏观管理和微观个体的控制之间保持谨慎的平衡。

平衡短期和长期目标以及适应意外情况的需要对往往脆弱和缺乏灵活性的系统提出了巨大的挑战。要想解决这个问题，需要突破AI研究的几个挑战，包括：

游戏理论：《星际争霸》是一款像剪刀石头布一样是没有最佳策略的游戏。因此，AI过程需要不断探索和拓展战略知识的前沿。

不完全信息：不像国际象棋或围棋那样，玩家什么信息都能看到，关键信息对星际玩家是隐藏的，必须通过“侦察”来主动发现。

长期规划：像许多现实世界中的问题一样，因果关系不是瞬间产生的。游戏也可以在任何地方花费一个小时完成，这意味着在游戏早期采取的行动可能在很长一段时间内都不会有回报。

实时：不像传统的棋类游戏，玩家在接下来的动作之间交替，《星际争霸》玩家必须随着游戏时间的推移不断地执行动作。

大型活动空间：数百个不同的单元和建筑必须同时被实时控制，从而形成一个可能性组合空间。

正是由于这些巨大的挑战，星际争霸已经成为人工智能研究的“大挑战”。自2009年发布BroodWar API以来，《星际争霸》和《星际争霸2》的竞赛一直在进行，包括AIIDE星际争霸AI竞赛、CIG星际争霸竞赛、学生星际争霸AI竞赛和《星际争霸2》 AI阶梯赛。

DeepMind在2016年和2017年与暴雪合作发布了一套名为PySC2的开源工具，其中包括有史以来最大的一组匿名游戏回放。

现在，经过两年的打造，继AlphaGo之后，DeepMind刚刚问世的AlphaStar已经取得了飞速进展。

以上知识分享希望能够帮助到大家！

声明本站所有作品图文均由用户自行上传分享，仅供网友学习交流。若您的权利被侵害，请联系我们