如何评价 DeepMind AlphaStar

Last edited time
Last updated October 18, 2022
Text
Tags
这学期刚好在上deep reinforcement learning for robotics,星际2是钻石3的小菜鸡,有一点感想。
总的来说非常震撼。几个月前的暴雪嘉年华上,AI还只能做一些类似采矿,造枪兵的简单操作。现在已经能打赢职业选手,in the right way。
这次Alphastar的反应速度限制在350ms,这是比普通人类要慢的。我也有220ms,hh,有兴趣可以自己测试一下https://www.humanbenchmark.com/tests/reactiontime
同时APM平均277,也是低于大部分职业选手。
APM
APM
具体算法在网上没有搜到。大概是先使用暴雪提供的replay进行imitation learning。再将agent拷贝几份进行reinforcement learning。训练了一周,总长度约200年,使用Google TPU。实战时只需要一个桌面级GPU。
imitation learning
imitation learning
今天的比赛,一共11场。前10场比赛AlphaStar全胜。AI的视野与人类略有不同,是镜头拉远后,能看全整个地图的视野。虽然战争迷雾还在,但是AI是拿整个地图作为输入的,不像人类只能关注到战局的一小部分。如下图:
notion image
notion image
最后一场live比赛,是一个新的Agent。AlphaStar败。像人类一样,它只用当前视角作为输入,因此需要调整自己的视角去关注战局的不同部分。所以比前10场的agent弱一些,面对骚扰手忙脚乱。像下面这样:
notion image
蓝线是镜头视野的agent。虽然比全局视野的agent只弱一点点,说明还是最后一局MaNa打得好啊:
notion image
很期待和serral的比赛!另外很想看看狗哥打Alphastar啊,会不会把AI狗得懵逼。
参考