谷歌“Alpha Go”团队推人工语音系统,终结者离我们不远了?

google-deepmind-featured-image-1000x515

人工智能的语音技术对于实现VR/AR领域的交互有着重大意义。日前,谷歌宣布旗下部门Deepmind开发了一种名为WaveNet的人工语音系统,可以逼真地模仿出人类的声音。

虽然此前已经有诸如Minitalk和eSpeak等语音声成项目,但谷歌声称,他们的系统表现力相比现存程序能够提高50%。与众不同的是,WaveNet是通过分析人类实时的音波来进行工作。

“终结者”离我们不远了?

之前的语音生成一般是利用提前录制好的讲话片段,或者是将特定字母组合发音结合产生语音。这两者的精确度都比较高,但是听上去都很机械,缺乏人类措辞的灵活性。

TERMINATOR

据悉,WaveNet可以分析实际的人类语音,因此做出反应的时候就能够更进一步,这种系统的实际表现已经超过谷歌当前的文字转语音程序,虽然还无法和真人相比,但已经十分接近——这也许暗示着终结者已经离我们不远了。

不幸的是,目前WaveNet的形式在广泛使用上有重大掣肘,即需要庞大的计算能力。过去语音发声器使用的是短小片段的数据集来产生语言,但WaveNet需要去样本化训练音频信号达16000次甚至更多,然后根据之前的样本来形成对下一个音波的预测。

“AlphaGo”团队面临的挑战

彭博科技指出,虽然存在着严峻的技术挑战,但科技企业还是会密切关注WaveNet的进化,因为对于我们来说,如何去和身边的技术互动,其重要性与日俱增。比如亚马逊的Echo管家设备,能够播放音乐、回答用户的问题,并通过语音指令连接其他的智能设备。类似这种设备,能够从更多的人类对话语音交互中获益。

800x-1

Deepmind是一家来自英国的公司,在2014年初被谷歌以5.33亿美元收购,作为公司在深度学习领域的布局,并与雅虎、IBM等公司相抗衡。而新的技术可能会对AI在VR甚至AR里的应用产生重大影响。

其实,Deepmind对中国人来说并不陌生,曾经击败世界围棋冠军李世石的大名鼎鼎的Alpha Go就出自他们之手。

文章下二维码15

责任编辑:Catherine
分享到QQ 分享到微信

0 条评论

头像发表我的观点

取消

  • 昵称 *
  • 邮箱 *
  • 网址

登录

忘记密码 ?

切换登录

注册