DeepMind发布星际2的学习环境

#技能06:2113

众译鸣谢

原文字幕:原文字幕由译学馆搜集制作完成

译文字幕:[B]刀子于2017.09.24制作完成

审核过程:7

字幕详情

亲爱的学霸们 这是由Károly Zsolnai-Fehér带来的两分钟论文
本期的话题也许是大家最为期待的话题之一
而我也非常高兴能为大家介绍首篇由 DeepMind 和暴雪游戏合作
创作的第一篇有关 AI 玩星际争霸2的论文
超赞的!
这篇论文每一个细节都处理得很细致
所以不太会造成误解
在开始之前 请注意 这只是个初步成果 所以请不要期望它能达到超越人类的水准
不管你以前觉得这问题多难 等会你就会知道
这个问题比一般人想象的复杂多了
不过在开始之前 还是先讲讲什么是星际争霸2
它是一个需要高超技术性策略的游戏 这也使得给它编写一个强大的
AI 是一个巨大的挑战 原因有三
第一 我们只有一张部分可见的地图和其中包含的有限的信息
如果你想知道对手在干什么 就必须付出一些资源去侦查
而这次侦查可能成功也可能失败 这取决于对手是否警觉
第二 我们需要在极有限的时间内选择和操控上百个单位
一次的错误决策就可能导致我们损失绝大部分兵力 而且无力回天
第三 可能是最重要的一点 就是游戏得有长线策略
游戏前期一个不好的决策 可能会导致后期数以千计的努力被毁
这些情形是非常难以识别和学习的
然而 现在关心玩游戏的部分有点早了
在所有这些之前 首先要做的就是
确保 AI 和游戏之间的通讯和交互
而这是一个大工程
这篇论文里 研究者使用了一个基于python的交互程序 来使这一切成为现实
我们真的很幸运 有像DeepMind和OpenAI这样的公司致力于去
打造这样一个界面 因为这真的是一项难度很高的任务
如果人工智能的研究只局限在学术界的话 那这项研究可能永远不会出现
为了这一切 请向DeepMind的开发者们致敬!
为了玩这个游戏 他们使用了深度增强学习 这个在我们之前的节目中
有所提及
这是一个很强力的学习算法 它让神经网络去处理视频输入
并将其和增强学习算法结合了起来
通过增强学习算法 我们就可以观察周围环境并选择
接下来的行动 以期最大化分数或收益
不过 定义雅达利弹球这种游戏的分数是非常容易的 因为我们知道如果我们的
生命数降至零 我们就输了 如果我们打了很多砖块 我们的分数就会提升
简单明了
但星际2可没有这么简单 我们怎么精确地知道我们是在赢得游戏的胜利呢?
如何定义我们想要最大化的这个分数呢?
在这篇论文中 关于这个分数有两个定义 第一个是我们只能在游戏最后才能知道的
游戏系统告诉我们是否获胜 平局 或者输掉比赛
这是最终的起作用的分数
但是 这个信息在游戏过程中是不可见的 也没法被增强学习算法使用
所以论文中还有另一个中间分 被称作暴雪分
它包括一个当前资源和攻防等级 以及我们的单位
和建筑的加权总和
作为一个第一近似值这听起来很不错
因为当我们管理好资源和赢得遭遇战的时候它就增加
而我们在丢失比赛优势的时候它就减小
然而也有很多比赛里获得资源多的一方最后并没有
来得及利用这些资源 最后输掉了关键的那场遭遇战
所以最大化这个分数是否能打败强大的人类选手
还有待观察
在处理视频流方面 研究中也使用了一些重要的工程决策
处理系统使用了一组特征层 特征层中为 AI 编码了一些比赛相关信息
比如地形 镜头位置 屏幕中各单位的攻击点 以及其他
很多很多信息
这一堆海量的信息需要卷积神经网络
来处理
我觉得现在就想随便把 AI 扔进水这么深的游戏里
然后还期待它能完美地赢下一场1V1的比赛
有点为时尚早
论文中使用了一组小游戏 在其中算法可以分开学习
游戏的不同方面 比如收集地图上分布的水晶矿碎片
在小型遭遇战中消灭敌方单位 建造我方单位或者收集资源这些
在这些小游戏中 AI已经达到了新手玩家的水平
考虑到游戏的量级和复杂程度 这真是令人惊叹的结果
论文的作者也鼓励其他人创建更多的小游戏来训练 AI
我真的非常欣赏论文作者的开放性 以及开发者社区在这方面的工作
今天我们只是非常粗浅的介绍了一下这篇论文 论文中还有很多
非常重要的设计决策 以及成千上万的游戏记录我们没有提到
此外 游戏 AI 开发环境的源代码已经
为各位开发者开放了
我会把链接放在视频说明中
即便对于我们这个时代最优秀的 AI 研究者来说 这也是一个非常严峻的挑战
我已经迫不及待的想去阅读这些代码了 同时我也非常期待有关这一课题的
后续论文
预计在接下来的几个月将会有很多论文发表
同时我们也了解到 OpenAI 在 DOTA AI 研究中也取得了令人瞩目的成果
有关 DOTA 5V5 对战和星际2 1V1对战 哪个对 AI 来说更复杂
也有很多的讨论
如果你对此也有想法 就在视频下方留言吧
哪一个更复杂一些呢?
为什么?
这也表明今年在 AI 和游戏方面会有更多有意思的东西
敬请期待!
感谢您的收看和大力支持 我们下期再见!
以下内容有剧透 , 请注意打开姿势

精彩推荐

  • 算法优化自拍

    03:317

  • 所见即所得的实时3D打印技术

    03:0810

  • 从包含深度信息的图像中人工智能学习几何描述

    03:0719

  • 基于文本的语音编辑

    04:1611

  • 基于纱线的布料模拟

    02:3613

  • 从单一深度图像完成语义场景补全

    03:177

  • 模拟湿润的头发效果

    03:277

  • 韩文字母2-基础元音ㅑ, ㅓ, ㅕ

    04:09843

更多视频, 请移步译学馆APP欣赏  GET APP