谷歌Duplex AI的原理是什么?

#科技12:04207

众译鸣谢

原文字幕:[B]One静茹于2018.07.28制作完成

译文字幕:Reed于2018.09.30制作完成

审核过程:4

字幕详情

这里是ColdFusion TV
大家好 欢迎收看这一期ColdFusion视频
我相信你们大部分人都听说了谷歌的Duplex
这则新闻爆发时 我还在保加利亚
因此我迅速回到澳大利亚 制作这期视频
这就是我气喘吁吁的原因
此视频中 我们将深入了解一下谷歌的Duplex
那什么是Duplex呢
它基本上是谷歌助手的扩展
它可以根据你的指令 跟真人通电话
是一种建立在Wavenet科技上的深度神经网络
Wavenet是一个语音合成程序
通过聚合短声音 生成一段讲话
它被发布时 被认为是自然语言合成的突破
我们已经在上一视频中了解了它
这是一个其功能的简略回顾
从1770到1850 在英文诗歌和绘画中出色的方面
这是没有任何输入时 Wavenet说的话
它依然会生成随机模仿人类声音的元音频
那依然听起来很像人类说话
归属于
“作为最华丽的人 我们得到了两英尺 那是一个垫子”
“她只是打字 但她没有”
“说话”
[嘴唇声和呼吸声]
“宁静祥和”
“使用铲子挖掘会挖得很慢”
Duplex是又一个建立在Wavenet之上的神经网络
最终结果就是AI可以进行真实对话
并使用了Wavenet准确的发声
这是2018年5月在Google I/O 上Duplex的华丽登场
但即使在美国
六成的小型企业没有在线订购系统
你接下来听到的是谷歌助手向一家沙龙打电话
为你进行预定的对话
我们来听一下
[掌声]
[电话嘟嘟声]
你好 我能为你做什么
你好 我要为客户预约一个女士发型
我想订在五月三日
好 稍等一下
嗯哼
[观众大笑]
好 你想要订在什么时间
中午十二点
好的 我们在十点有空
上午十点也可以
好的 预定在五月三日 上午十点 客户是丽萨
对 谢谢你
好的 祝你一天愉快 再见
[口哨和掌声]
[电话嘟嘟声]
你好 我能为你做什么
你好 我想在七号周三预订餐桌
一共七个人吗?
嗯...... 一共四个人
四个人 什么时候 今天还是今晚
嗯......下个周三 下午六点
事实上 我们只接受五人以上的预定
四个人的话 你们可以直接来
等待有位置通常需要多久
什么时候 明天还是周末
[大笑]
下个周三 七号
不 人不是很多 四个人可以直接来 可以吗
嗯 我懂了 谢谢
再见
[口哨和掌声]
我们的助手能理解上下文中的细微差别
这次它有了询问等待时间的新行为
并出色地进行了交流互动
根据谷歌的博客 你听到的"嗯"和"啊"
有时是合成时添加进去的
但有时是系统正在像人一样
处理信息而发出的声音
公众对此的反应为震惊和恐慌
有的人甚至很愤怒
有的人认为这是欺骗
因为有人跟人工智能通了话 却不知道对方不是人类
但谷歌声明 它们会保持透明
他们会让对话另一端的人知道 他们在和Duplex通话
Duplex是在预约这一狭窄领域中训练的
包括询问生意在放假期间的的营业时间
要澄清的是 Duplex不能进行通常意义的谈话
但我确信未来几年 其覆盖领域会越来越大
谷歌说训练此类神经网络时 有特殊的挑战
如何让AI靠谱地理解自然语言
并使用现实的方式回应
这是很难做到的
比如 相比计算机 每个人的说话方式都不同
我们说得更快 会在对话中自我纠正
而且对话过程中还依赖上下文
通过一条低质量且有噪音的线路通话
这是一个高难度的通话挑战
为了让这一点更明显
我们使用句子"四 可以"来举例子
句子很简单 但它依赖于之前的句子作为上下文
这句话可以指时间或人数
我们人类对这类句子习以为常
但从AI或解决此类问题的研究团队的角度来看
这将会很有趣
好 Duplex是怎么工作的
Duplex使用了一种递归神经网络
如果你不知道什么是神经网络
它基本上很多矩阵相乘的函数集合
矩阵的每部分建立在叫做节点的人工神经元上
节点包含一个数学公式并分层排布
每个节点都有一个输入和输出
在接受到可能有的输入后
整个矩阵或神经网络的最终目标就是
基本上是找到减少时间的方法
或者说减少错误的数量
也许神经网络最奇怪的地方在于
没人确切知道它们如何得出了结果
你给它输入 它不知怎么的就得出了结果
神经网络已经出现一段时间了
实际上 1971年帮助创建第一个CPU的人 Ted Hoff
在早年间研究过神经网络
但可用的神经网络在最近大约五年间才出现
自从2012年以来 神经网络的复杂度大体上增加了五百倍
我认为这是计算机科学中最有趣的领域之一
如果想更详细地了解神经网络的工作原理
Youtube频道3Blue1Brown有很多出色的视频
它们非常通俗 我会在简介中留下地址
好了 都快跑题了
Duplex具体使用的神经网络
如我提到的是递归神经网络
此类神经网络有一小块内部储存
可以保存特定输入 用于理解上下文
因此它算得上是语音合成的最佳神经网络
它也是大多语音识别算法的核心
正如我之前所提
Duplex经过了很多电话通话的训练
那它是如何知道正在发生的事呢
一通对话会启动一个模拟讲话
这个讲话的音频成为谷歌自动语音识别系统的输入
这时音频为解释为了文本
文本被转换为神经网络可以理解的形式后
就输入到系统中
通话中的其他元数据和上下文信息
比如谈话中预定的正确时间
还有一天中的几点都被输入到系统中
把它们结合起来
当神经网络听取一堆电话录音输入时
最终它会学会如何减少自己的错误量
这意味着跟它对话时 它的反应更好
这一切神经网络训练出来的最终结果就是谷歌Duplex
[电话嘟嘟声]
我能帮你什么
- 你好 -你好 怎么了
嘿 我想知道你们今天的营业时间
上午十点到下午六点半
好的 明白了 谢谢
不客气 再见
那Duplex可以干什么呢
除了谷歌示范的功能外
Duplex也能做些有趣的事情
比如处理讲话被打断的情况
你的电话号码是多少
- 223 -22什么
- 223 - 好 223
详细解释
你好 我想在五月二十五日预定餐桌
不好意思 哪一天
周五 嗯 五月二十五日
还可以通过电话回答问题
- 你在吗 - 在 我在这儿
因此有很多关于这个AI通过图灵测试的讨论
如果你不知道图灵测试 它是一种
1950年计算机之父之一阿兰 图灵发明的思想实验
他提出了如下的测试
一个人通过文字跟一台看不到的机器交流
这个人不知道与他对话的是人还是机器
如果机器可以跟这个人交流
并不让那个人发现自己是台电脑
那么那台机器就通过了图灵测试
阿兰·图灵预言了到2000年
我们就会发明能够通过图灵测试的机器
他的预言偏差不是很大
第一台通过测试的机器是在2014年的一台文字交流机器人
图灵测试起初只是针对文本
谷歌的Duplex似乎在很狭窄的对话领域中通过了图灵测试
是在它在提供预约服务的时候
而且是通过声音 不仅仅是文本
我打赌这是很多计算机科学家现在还没意识到的事
我认为这点很有趣
我有一些最后的想法
有人认为未来这可能会让电话零售商
或其他电话相关行业的人失业
这非常有可能
但如果我说这是肯定的或
它会对社会有副作用的话 就有点过分了
因为现在得出结论还为时尚早
记住了 Duplex不是为了日常对话而创造的
它只专门负责预定和询问假期时的营业时间
但我确信它能做的领域会不断扩展
就现在谷歌助手的能力来说
因为领域有限 它还改变不了我们现在的生活
除非你是残疾人
如果一家商店有网页
通过网页预定会快得多
但再提一遍 Duplex使用了神经网络
随着时间流逝 我们在这个频道已经见过一些惊奇事
它的覆盖领域越来越广 速度比我们想象的要快
但总的来说 这项科技非常炫酷
可以肯定是的 我们在AI上到了一个转折点
过去几年 我们在AI领域卓有建树 像是AlphaGo等
现在 似乎可以进入真实世界的AI出现了
每一次都让不可能成为了可能
我认为这样的事会越来越常见
同时也会有不断地突破
问我担心Duplex吗
一点也不 没什么让我担心的
谷歌声明当你跟Duplex AI对话时 信息会透明
等到这种科技变常见了
再问我这个问题吧
总之 这个社会也要接受我们正处于新时代风口的事实
一个有无限可能的时代
我为站在这里感到荣幸
好 这就是视频的总结 谢谢观看
这里是ColdFusion 我是Dogogo
如果偶然看到这个视频的话 请订阅此频道
我要感谢所有来到迪拜区块链峰会的人
能见到你们很开心
好 就这样吧 我们下个视频见
干杯 玩的开心
ColdFusion 新的想法
以下内容有剧透 , 请注意打开姿势

精彩推荐

  • 尼古拉·特斯拉part1

    10:58579

  • 超回路列车

    09:33290

  • 埃隆马斯克:2024年我们去火星

    08:15236

  • 丰田公司有多大(它们拥有特斯拉27%的股权)

    14:05319

  • A.I. 不断发展的前方是什么

    12:07581

  • 我从欧洲回来

    03:30144

  • 通用电气公司有多大?

    12:10315

  • 什么是计算机?让iPad Pro告诉你

    00:30316

更多视频, 请移步译学馆APP欣赏  GET APP