ADM-201 dump PMP dumps pdf SSCP exam materials CBAP exam sample questions

解释那篇著名的《世界模型》论文 – 译学馆
未登陆,请登陆后再发表信息
最新评论 (0)
播放视频

解释那篇著名的《世界模型》论文

World Models Explained

能在梦境中提出解决方法的AI?
哇哦!
大家好 我是西拉杰
最近发表的论文中有一篇非常酷
叫做《世界模型》
AI研究者提出了一种算法
让模拟汽车可以自己学习
如何在跑道上行驶
这种AI学习驾驶的算法特殊在
它是在自己的“梦境”中进行练习的
所谓“梦境”就是它自己创造的世界幻象
够疯狂吧
这篇论文很棒
因为它组合了多种深度强化学习方法
且得到了非常好的结果
这是第一次有AI解决openAI的赛车环境问题
研究者做的记录也相当好
人类观察世界的方法给了他们很多灵感
人类根据有限的感官感知
开发出了世界的心智模型
我们根据自己所见
在脑中构建了一个世界模型
这个模型包含着一些特定概念
以及这些概念之间的关系
并由此描绘更大更复杂的系统
对于一件事
大脑会学着表征其时间和空间
我们通过这些表征来预测未来
可能会观察到或感觉到的东西
比如在遇到危险时我们需要做出迅速反应
职业棒球运动员能击中时速一百英里的球
因为他们可以本能地预测球的走向
包括激素分泌在内的一切都是下意识的
击球手能够根据大脑的预测来行动
无需有意识地对各种可能的场景进行规划
强化学习是AI技术的一个分支
它使用试错法
关注在一定环境下智能体怎样学习
以及如何最大化奖励
强化学习智能体还可以利用
对世界过去和现在状态的稳定表征
并在此基础上建立更准确的预测模型
来预测未来
研究者就是受生物学模型启发
创建了他们的模型
他们仔细观察了赛车游戏
将其分成三部分
视觉表征 建模 控制
每一时间步中
AI智能体都会收到对环境的观测结果
在赛车游戏中 就是游戏画面
视觉模型负责对每次观测进行编码
从而生成一个压缩程度更高的
低维表征
然后记忆模型将其作为输入
并通过它
学习世界的运行方式
从而预测世界的下一个状态
从根本上来说 它学习的是世界的模型
最后 视觉模型和记忆模型生成的表征
会输入控制器模型
控制器模型再选择合适的行为
现在分别来看看各部分的工作原理
一个游戏画面就是一张二维图像
图像是从视频序列中选取的
可以看作是高维度的输入
研究者使用了变分自编码器模型
来学习表征
变分自编码器包含编码器和解码器各一个
编码器用输入创建一个表征
解码器则通过该表征尝试复现输入
变分自编码器跟普通自编码器不同的是
表征在解码的过程中加入了一点随机性
因此解码后的输出
相比输入总会稍微有变动
并不和输入完全相同
这就是为什么
变分自编码器被认为是生成模型
因为它能从训练样本中生成新的数据
但是不要用小黄图来训练它哦
编码后的表征直接作为记忆模型的输入
记忆模型是一个循环神经网络
非常适合用来预测序列
如果把一系列图像表征作为输入
它会试着预测下一幅图像
这个预测其实就是
智能体会看到的世界未来的状态
循环网络在训练过程中会创建反馈回路
因此它不仅能从当前数据中学习
也能从之前学到的内容中学习
这种优化方法叫做通过时间反向传播
控制器模型则负责制定下一步采取的行动
以最大化智能体在环境中完成一次推算的期望收益
控制器是一个简单的一层前馈神经网络
它的输入是视觉和记忆模型生成的表征
数据流动过程是这样的:
原始观察数据首先经过视觉模型处理
视觉模型的输出和记忆模型隐藏状态一起
作为控制器模型的输入
接着 控制器输出行为向量来控制车辆运动
再将该行为和视觉模型的当前输出作为输入
来更新智能体的隐藏状态
以备下一时间步所需
OpenAI发布了一个环境叫做Gym
使得在模拟游戏世界中训练AI智能体
变得十分容易
其理念是这个库
负责整合各种游戏中的世界模型
以及基本环境的相关配置
而开发者只需要专注于研发算法来解决问题
本次演示的代码相对来说比较容易
我们首先要从环境中获得观测数据和画面图像
还要将循环神经网络模型初始化
然后在训练循环中使用while语句
使用变分自编码器对观测进行编码
得到的输出z作为控制器的输入
同时还作为循环网络的隐藏状态输入
控制器接着会给出应采取的行为
Gym提供了一个step函数
我们可以用它来执行此行为
并且得到新的观测结果
还有可能获得奖励
它还会返回一个布尔值
代表游戏是否结束
在这里得到的奖励需要用来更新累计奖励
而训练得到的参数a z和h
则需输入循环网络 以创建新的隐藏状态
重复此操作直到游戏结束
得到的结果非常好
智能体的驾驶技术学的非常好
由于这种世界模型能对未来建模
研究员们就用这种预测能力
去生成一个“梦境”一般的世界
再让它去生成
变分自编码器隐藏状态的概率分布
最终得到预测的游戏画面
记忆模型生成游戏画面后
会创建一个梦境般的游戏环境
将训练过的控制器用于此环境中
在里面观察车的驾驶情况
他们在智能体的“梦境”中训练智能体
得到的策略则应用在真实环境中
这种在模拟的隐藏空间也就是梦境中
训练AI的方法
在现实中有很多的应用
比如将游戏状态渲染成图像时
游戏引擎需要占用大量的计算资源
但在智能体创造的虚拟环境中训练智能体
就不用在实际环境中浪费时间循环了
人类大脑能记住几十年甚至几世纪的事情
用反向传播算法训练的神经网络则相形见绌
不过将来智能体可以使用更大容量的模型
或者使用外部记忆模块
本视频有三个重点
论文《世界模型》论证了
AI可以在它自己创建的模拟环境中训练
从而进行学习
论文中的模型
使用视觉 记忆和控制器三个模块
从环境中进行学习
其中的视觉模型是一个变分自编码器
具有生成性 可以生成输入数据的变体
嗨 想掌握某种编程语言吗?
那就点击订阅吧
现在 我得再去一趟欧洲了
谢谢观看

发表评论

译制信息
视频概述

解释《世界模型》论文中提出的模型的原理

听录译者

收集自网络

翻译译者

想念

审核员

审核员_MZ

视频来源

https://www.youtube.com/watch?v=IZPKohYNri4

相关推荐