基于语音创建3D场景,NVIDIA Project Mellon开启测试

青亭网( ID:qingtinwang )--链接科技前沿,服务商业创新

去年,NVIDIA公布了一项基于自然语音交互的XR内容开发平台:Project Mellon。在近期举行的GTC 2023上,该公司宣布Project Mellon的1.0版将面向开发者测试。据悉,该平台的特点就是通过自然语言,通过说话即可生成对应的3D内容,比以往通过代码创建3D场景的形式要更轻松,更加易于使用,不仅对未来普通用户也十分方便,同时对商业场景效率也会更高,例如在NIVIDIA Omniverse工业场景中也可方便的进行实时更改、审核等工作。

Project Mellon 1.0的关键特性如下:

  • 轻量级、易于集成的Python库
  • LLM,可准确理解自然语言
  • 零样本语言模型,无需特定命令训练
  • 自然语音指令支持会话和视觉上下文理解
  • 可询问有关命令和场景的问题,具有自然语言响应
  • 可理解、执行命令的Python API
  • 网页端测试应用程序
  • ASR、TTS、LLM和神经机器翻译(NMT)可在本地或远程托管,响应时间低

Riva-Project-Mellon-1-2048x1152

随着生成式AI技术发展,越来越多平台也开始尝试用AI来辅助开发。与传统手动编程相比,生成式AI速度更快、使用更自然,可一定程度上加速应用开发流程。对于AR/VR来讲,生成式AI未来可能会成为丰富内容生态的重要工具。此前,Meta也曾展示一种利用AI语音助手来实时构建虚拟世界的技术:Builder Bot,你只需要对它说“沙滩”、“树”、“野餐布”等语音指令,就能将不同的场景元素召集到你周围。

细节方面,Project Mellon实际上是一个轻量级的Python套件,主要由三部分组成:Project Mellon SDK、NVIDIA Riva语音AI,以及NVDIA NeMo大型语言模型(LLM)。在一些演示中,开发者们可以用语音来改变VR中3D模型的颜色和动作,这种功能也可以用来简化应用的UX,意味着XR应用无需培训用户如何操作,允许用户直接用自然语言交互,也无需记忆特定指令。参考:NVIDIA

更多精彩内容,关注青亭网微信号(ID:qingtinwang),或者来微博@青亭网与我们互动!转载请注明版权和原文链接!
青亭网

微信扫码关注青亭网

青亭网

青亭 | 前沿科技交流群01

责任编辑:小新
分享到QQ 分享到微信

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录
切换登录

注册