ADM-201 dump PMP dumps pdf SSCP exam materials CBAP exam sample questions

用强化学习算法来解释大脑的多巴胺 – 译学馆
未登陆,请登陆后再发表信息
最新评论 (0)
播放视频

用强化学习算法来解释大脑的多巴胺

Mathematics of Dopamine

这次我们从数学的角度看看大脑的运行机制
准备好了吗?
大家好 我是西拉杰
大脑对机器学习理论有着深远的影响
这次我会用与往期视频相比 稍有不同的方法
从人和动物学习的角度
介绍四种不同的机器学习算法
最终使用其中的一种算法
训练出一只能走出迷宫的电子老鼠
如果你是新观众 点击订阅接收更新
每周我都会在这个频道发布教学视频
在20世纪初 生理学家巴普洛夫
在研究狗的消化过程时发现
狗在看到负责喂食的人后就会开始流口水
而不只是看到食物后才会
巴甫洛夫受到此意外发现的启发
进行了一次更加正式的实验
巴甫洛夫在喂狗时会先施加声音刺激
重复几次后 当狗再听到这个声音
即便没有食物 狗也会流口水
实验一击即中
他总结道 如果在喂食时
给狗所在的环境施加一个刺激
那么这个刺激就可能会与食物联系起来
这是一个正向强化过程
仅凭刺激就会让狗流口水
这个实验被人们叫做巴甫洛夫关于狗的实验
它帮助构建了联合学习理论的基础
它描述了人和动物的学习过程
学习在两种刺激间构建连接的过程
联合学习理论的核心就是
强化学习就是寻得
状态 行为和奖励的连接
动物通过学习找到这种连接
这种情况下可以将状态假设为刺激
这对于预测潜在奖励很有用
另外强化学习还强调是预测错误
导致了连接的改变
也就是动物预测得到的东西
和实际得到的东西间出现了矛盾
几十年后 两位研究员Rescorla和Wagner
提出了联合学习理论中最有影响力的想法
他们使用的是基于预测错误的学习模型
当预测输出和实际输出不符时
刺激就出现了
在等式中在第T时间步造成的刺激S的值
等于前一时间步刺激S的值
加上期待中的奖励
学习率则定义了预测错误的权重
该预测误差表明当动物收到高于自身期待的奖励时
关联性的权重就会变大
而如果预测错误是负值
则会使关联性的权重变小
Rescorla和Wagner的模型是划时代的
其因有二
首先 它解释了条件性恐惧实验中的许多现象
研究者们可以借助该模型建立
杏仁核回路是如何执行计算的
其次 早期的自然语言处理领域的应用
都是在它的帮助下完成的
比如词性标注
这个名字可能不容易理解
但别忘了 他们是七十年代的
尽管Rescorla和Wagner的模型是联合学习理论的基础之一
但不可否认 它只预测了一个值
但众所周知 生物大脑
可以理解世界的不确定性
毕竟世界充满不确定性
概率论相信若要用合适的方法表达大脑理解不确定性的方式
需要用到带权的概率分布
而不是某个特定的值
我们可以用托马斯·贝叶斯著名的统计规则
“绝对不要讨论《搏击俱乐部》”规则
哦 不对 是“贝叶斯定理”
该规则表明 后验概率
也就是假说成立的概率
等于先验概率
也就是假说与现有知识的契合率
乘上证明假说为真时证据的可信度
最后再除以证据自身为真的先验概率
这里的证据负责解释
假说对于新证据解释地怎么样
换句话说 在B为真时事件A发生的概率
等于A为真时事件B发生的概率
乘上事件A的独立概率
再除以事件B的独立概率
贝叶斯理论对于Rescorla和Wagner模型的扩展
是建立在卡尔曼滤波器上的
它说明了不确定性会因为
权重随机扩散而增加
而同时这种不确定性可以通过分析数据降低
它使用一系列方法随着时间分析数据
进而预测未知变量
这会比单纯使用一种方法预测每个变量更准确
具体是通过分析各时帧的变量联合概率分布
来分析数据
卡尔曼滤波器在科技领域运用广泛
在导航领域 载具控制领域都有应用
比如飞机 特别是自动驾驶飞机
它还被用于机器人领域的时间序列分析
它是通过对中央神经系统的运动控制建模来工作的
因为从发布电机命令到
收到传感器反馈之间存在延迟
卡尔曼滤波器这一仿真模型
用于估计电机系统当前状态和需要使用的命令
这个过程分两个阶段
在预测阶段 它对于当前状态的变量值
及其不确定性进行预测
而当观测到下一方法造成的结果时
就会使用用带权的平均值更新预估数据
预估数据的确定性越高其所赋予的权重越大
这是一种实时递归算法
它只需要用当前的输入值
和预先算出的状态
以及其不确定性矩阵
到这里 已经将任务分解成了一次次尝试
但现实中操作是连续的
而我们的算法是短见的
它只能推断出即时奖励
也就是在紧邻的下一状态获得的奖励
为了扩展我们在数学层面上的预测能力
我们将目光从传统学习理论
转向现代强化学习理论
我们用一个有一系列决策的特定问题为例
这就是 老鼠尝试找到的迷宫的出口
里面有火焰的迷宫
对于这个问题
有两类广受好评的强化学习算法
第一类是无模型类算法
这一类会尝试建一个值表
表里的值是老鼠在特定状态下执行特定动作后
预期在未来获得的累计奖励
它并没有打算在内部构建一个
显式的世界模型
而是打算通过试错直接推断出一个查找表
一旦得出查找表
就可以用它找到特定状态下的最优行为
另一类则是基于模型的学习算法
这种算法假设会在内部构建世界模型
这意味着这两件事
首先它会学习得到一个转换函数
也就是预测在某一状态
采取某种行为后 下一状态是什么
然后是奖励函数
也就是估计在某一状态下会获得多少奖励
这里可以用上动态规划
或者各种其它算法
来对环境中的不同路径进行模拟
并将采取最优行动
这两类算法各有利弊
无模型速度快
它只需要归纳出查找表 但它不够灵活
如果奖励函数发生改变
查找表内的所有数据都会改变
而基于模型则更灵活
如果某一状态的奖励发生变化
我们仅需改变此状态的奖励函数即可
而后奖励的改动会通过定义的奖励函数
对所有数据产生影响
但速度相对较慢
有一种叫时序差分学习的无模型算法
扩展了Rescorla和Wagner模型
它将折扣系数这一概念引入了预测误差中
折扣系数指明了某项奖励对agent的重要程度
程度取决于agent是何时收到奖励的
也就是可以让最新的奖励权重最大
这个算法是由研究员萨顿和巴特罗在
80年代末提出的
当时他们正在写他们的成名作《强化学习简介》
不幸的是 没人在乎他们的时序差分学习算法
直到90年代后期的一篇论文发表
这之间间隔了有十年
这篇论文指出 时序差分学习算法
可以用来精准地表示大脑对多巴胺的响应
也就是兴奋剂
若用没任何提示的奖励来作为奖励
仅需奖励就会看到多巴胺神经元的信号峰
但如果可以通过提示对奖励进行预测
也就是提示较准确地预测了奖励
多巴胺神经元对奖励就不会有反应
而是随提示出现而出现
这与传统上多巴胺是奖励分子的观点相左
如果多巴胺就是随着奖励而出现
那么给予奖励时多巴胺神经元就会有反应
无论这个奖励是否是预测过的
但实际上它只对未预测奖励有反应
也就是意外奖励时
时序差分模型解释了此现象背后的原因
一旦完全预测出了奖励
那么预测误差就会没有了
而多巴胺就是反应模型中的预测误差的
这种模型已被用于设计接近于人类反应的电脑玩家
Deepmind在这方面做的很好
他们的深度Q学习算法能玩很多雅达利的游戏
时序差分模型帮助总结了
很多时间动态的重要属性
以及多巴胺反应
但相对于卡尔曼滤波器
这种模型没有不确定性跟踪机制
因此我们需要贝叶斯版的时序差分模型
也就是卡尔曼时序差分模型
它不仅预测权重的值
还计算了模型权重的均值和协方差矩阵
这次讲的四个模型可以按两个维度分类
首先是按评价方式 是贝叶斯还是基于点
然后是评估目标 是即时奖励还是值
本视频的三大重点在于
联合学习这一学习过程
将新的响应与特定的刺激联系起来
当构建机器学习的数学模型时
我们可以使用分布而不是单个值
来代表模型世界的不确定性
时序差分学习是无模型学习算法的一种
它用于预测在状态序列末尾
最后产生的变量的期望值
漂亮而聪明的观众们
你们看到这里已经能拿到A了
订阅一下就给你们A++哦
现在我要去搞定奖励函数啦 感谢收看

发表评论

译制信息
视频概述

人脑的能力令人惊叹,而对于人脑运行机制的研究也愈发深入。本期视频将介绍4种主要的强化学习算法以及它们是如何解释人脑工作,特别是通过“多巴胺”来工作的。这些算法已经被用来训练飞机自动驾驶系统以及电子游戏中的机器人等等。这四种算法分别是时序差分学习,Rescorla-Wagner模型,卡尔曼滤波器,和贝叶斯学习模型。

听录译者

收集自网络

翻译译者

Aimik

审核员

审核员YT

视频来源

https://www.youtube.com/watch?v=-vhYoS3751g

相关推荐