迪士尼黑科技!深度学习让虚拟人物自动“对口型”

青亭网( ID:qingtinwang )--链接科技前沿,服务商业创新

迪士尼研究所和几所大学的研究员们撰写了一份新报告,报告称能通过深度学习来程序化制作语音动画。这种系统从人类演讲的音频材料中抽样,再自动产生搭配的口型动画。这种方法应用方面很广,能提高语音动画制作的效率,能在社交VR设置中通过实时模仿演讲做出更像的社交VR交互,不胜枚举。

研究者们来自于迪士尼研究中心,东安格利亚大学,加利福尼亚大学,加州理工学院和卡内基梅隆大学,一起撰写了一篇名为“深度学习方法产生语音动画”的文章。这篇文章写到有一种系统能通过“深度学习/神经网络”的训练,用八个小时读取某一位说话人的参考画面(2543个句子),最后通过各种演讲中的音素和音素的组合教会系统口型。

如下:右脸是参考画面。视频训练后,只基于音频输入,左脸上的嘴根据系统产生口型。

微信图片_20170817173347

训练过的系统之后能分析任何一位说话人的音频,自动产生相应的嘴型,再应用到产生自动语音动画的脸部模型中。研究者们说这个系统是与说话人独立的,而且能去模仿别的语言。

“通过一种简单而有效的学习方法,系统能自动产生看起来自然的语音动画,并且是与语音输入同步的。我们的方法是:使用变化的的窗口预测,通过精确地捕捉自然动作和可视的协同发音效应,学习任意非线性映像,从音素输入序列到口型动作。这种方法有几大优势特质:实时运作,要求最小参数调音,概括产生新的输入语音序列,易于编辑产生程式化的感情丰沛的演讲,并且与现有的动画重新定向方法兼容。

以前,与动画角色录音配套的动画都是由熟练的动画设计师纯手工制作的。虽然这种系统没法做到你所期待的,像制成动画里一样高还原度的语音动画,但它可以用来制作动画的初稿,或者制作人为无法模拟的语音动画,比如说大型角色扮演游戏中非玩家角色的对话,或是预算低而雇不起动画设计师的项目(教学视频,培训视频,学术项目等等)。

至于VR,这种系统能通过实时模拟用户嘴型,使社交VR更真实。真实的口型轨迹(光学的或其它方式)可能是最精确的模拟演讲方式,但是像这样程序化产生语音动画的系统才是目前实用的方法,除非有一天口型轨迹硬件已经广泛使用了。

一些社交VR应用已经使用了各种系统来模拟口型;Oculus(欧酷来)也提供了一款唇同步插件给Unity,用来通过语音输入模拟口型。但是上文的这种系统,基于新的深度学习,它似乎给语音动画带来前所未有的细节和准确性,意义重大。

更多精彩内容,关注青亭网微信号(ID:qingtinwang),或者来微博@青亭网与我们互动!转载请注明版权和原文链接!
青亭网

微信扫码关注青亭网

青亭网

青亭 | 前沿科技交流群01

责任编辑:freeAll
分享到QQ 分享到微信
后参与评论
切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录
切换登录

注册