Facebook超采样技术公布:16倍稳定输出,无软硬件约束

青亭网( ID:qingtinwang )--链接科技前沿,服务商业创新

这周Facebook的输出有点过于密集,前两天刚刚公布光基于全息光学模组的短焦VR光学方案,让我们看到全天候VR的可能性。今天,继而公布了一项提升VR显示效果的技术研究,该技术可通过机器学习技术,将低分辨率图像实时渲染并输出为高分辨率的图像。

据公开信息,Facebook Rreality Labs(以下简称FRL)在2018年公布了DeepFocus研究,这是一项基于AI实现接近人眼的焦点焦外模糊显示系统;2019年又公布一项DeepFovea的研究,这是基于AI技术将稀疏的低分辨率图像输出为高清晰度的图像。

可见,为了提升AR/VR显示效果,Facebook这方面还是下了很大功夫,并且几乎都是围绕AI技术来展开,显然这些技术未来的应用潜力还是巨大的。

Facebook自研超采样技术

据青亭网了解,这项新的研究名为“Neural Supersampling for Real-time Rendering”,该研究将在Siggraph 2020中发布。简单来说,就是把低分辨率(模糊)的视频转换为高分辨率(清晰)的视频的技术。而技术的另一个重点在于:实时渲染。

我们知道,即便现阶段VR体验已经达到初步可用状态,但目前VR的一大挑战仍然是:分辨率不够高、刷新率不够高。而且除了VR外,各类显示器设备分辨率不断攀升,也开始支持更高刷新率,甚至光线追踪体验,大家对于逼真视觉上的追求是永不停滞的,因此这也对硬件性能提出较大挑战。

其中一个重要的因素就是设备自身硬件渲染能力,而CPU、GPU等硬件发展遵循着特定规律,并不是一蹴而就。因此,想要解决这一问题的良好途径就是转向基于AI的软件解决方案。近些年AI技术尤其是CNN得到了迅猛的发展,而且应用成果也非常值得关注,甚至包括此前流传网络的实时换脸应用。

例如,Oculus Quest内置骁龙835芯片,而其分辨率输出为单眼1600×1440,刷新率72Hz,而想要良好的驱动这些芯片这是因为采用固定中心点渲染。

为此,Facebook提出一个目标,减少原始的渲染输出工作量,例如之前可能需要直接渲染输出3840×2160分辨率图像,而现在则可先渲染输出为960×540分辨率,然后在通过AI技术将分辨率提升为3840×2160。

技术方案的难点

Facebook表示,虽然此前其团队在实拍类的图像方面做了大量研究,但是面向这类实时输出的渲染方案则并不太适用。

最大的不同在于,实时渲染的本质是每个时间、每个空间对应的一个像素点的集合,这也导致了渲染出的像素点之间通常会重叠产生锯齿、虚影等。这点和现有基于CV领域的超分辨率采样研究中的降噪、去模糊等研究相反,既涉及到抗锯齿,又涉及到插值。与此同时,实时渲染的图像相比相机实拍图像而言,可以轻松拥有更丰富的色彩表现。

Facebook发现在神经网络超级采样技术中,运动向量数据极为重要。运动向量主要体现在连续帧中的像素点的几何对应关系,也就是说:每个运动向量都对应着一个次像素,在这一帧中的出现画面可能都是上一帧显示的颜色。

那么,运动向量有哪些应用场景呢?通常,基于CV技术研究可以对实拍类摄影图像进行估算,也就是光流算法,但这种方法往往容易出错。

渲染引擎可以直接生成较为密集的运动向量数据,因此Facebook将运动向量信息结合神经网络模型结合,从而打造出一套从低分辨率实时渲染为高分辨率的图像/视频系统。

figure2-dancestudio-input-rgb-depth-motion

具体实现方法上,该神经网络模型把当前帧与此前的几个帧的视频属性(包括颜色、深度、运动向量)作为数据源,而神经网络模型则可输出当前帧的高分辨率彩色图像。

微信截图_20200702185036

据青亭网了解,该网络模型属于监督学习,通过不断对比结合抗锯齿方案渲染生成的高分辨率图像与低分辨率图像,不断进行优化。Facebook在Untiy创建了一个内置运动相机的渲染3D场景数据集生成器,通过记录下的VR用户的头部运动数据,为每个代表性动态场景渲染出几千帧图像的颜色、深度、运动向量数据。

最终训练结果表明:该方案可以生成高质量和相对稳定性的高分辨率的图像,即便是在挑战性更大的16倍超采样渲染。

figure4-village-composition

上:低分辨率输入图、中:16倍超采样效果图、下:离线渲染图像

通过上图来看,可以看出低分辨率输入图像足够模糊,而经过16倍超采样渲染的输出结果相当清晰,甚至和理想渲染的肉眼效果大体上较为接近,肉眼看不出太大差异。

ezgif-4-99fabf819771

左:原始低分辨率输入图、右:16倍超采样输出图

不仅仅是静态图像,在动态的图像中表现同样优秀。

ezgif-4-23045e718e88

左:原始低分辨率输入图、右:16倍超采样输出图

再来看一组对比,效果也是非常明显。

未来应用和类似技术

从低分辨率到分辨率的实时渲染有着极为广泛的应用场景,绝对不限于AR/VR领域,甚至在更为广泛的游戏、短视频等等相关领域都有极高的应用价值。试想一下,在16倍超采样模式下可以把FHD游戏画面变成8K,那这是不是意味着“GTX 960显卡可以当2080来用”?

既然涉及到游戏,就少不了游戏引擎和显卡制造商的参与。据青亭网了解,包括Epic、NVIDIA、微软等都在这方面有类似研究,例如Epic的虚幻引擎5开始支持TAAU技术,其基于像素颜色分析和时间性抗锯齿(TAA)进行超采样输出;微软在2019年为DX12推出可变速率着色功能,可以更智能调用GPU资源实现更好的视觉效果。

NVIDIA DLSS

NVIDIA DLSS

和Facebook技术研究最为接近的是NVIDIA的深度学习超采样技术(deep-learned supersampling ,简称DLSS),该技术利用神经网络模型对低分辨率视频进行实时采样渲染。据了解,在实际的DLSS测试中,同分辨率游戏开启DLSS后大概有翻倍的帧率提升。

然而上述方法都有一定要求,要么是要求特定的硬件或技术、通用性不够,要么是原图像具有明显的视觉特性,尤其是在4倍甚至更高倍率超采样模式下。

Facebook的方法则无需特定硬件(例如高性能显卡或眼球追踪模块等),并且广泛适用于下一代游戏引擎,以及软硬件平台,支持在高度重叠像素的视频中进行16倍超采样应用,而且清晰度表现出色,发挥稳定。

总结来说就是,Facebook今天公布的这套超采样实时渲染方案:引入实时神经网络模型、具备16倍超采样输出能力、视觉效果和稳定性优于其他方案。

不受硬件和软件等约束也显得尤为重要,毕竟NVIDIA、Epic、Unity也好都有着自己的商业模式,可预见的是该技术未来有着极大的应用场景。

当然,我们也有理由猜测,未来Facebook如果推出一套游戏引擎,到时请不要惊讶。

参考:Facebook

更多精彩内容,关注青亭网微信号(ID:qingtinwang),或者来微博@青亭网与我们互动!转载请注明版权和原文链接!
青亭网

微信扫码关注青亭网

青亭网

青亭 | 前沿科技交流群01

责任编辑:hi188
分享到QQ 分享到微信
切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录
切换登录

注册