Shib2.0中文网

你的位置:Tribe 中文站 > Shib2.0中文网 > 创造一个真实的3D世界

创造一个真实的3D世界

发布日期:2025-01-04 09:55    点击次数:59
ThreeDWorld在虚拟世界中模拟真实世界的物理规律和外观。(图片来源:淦创等) 你站在厨房里,将一些金属碗从操作台堆进水池,发出咣的一声,再把毛巾搭到椅背上。在另一个房间里,听起来像是一些摇摇欲坠的积木堆倒塌了,并且发生了一场巨大的玩具车车祸事故。这些与环境的互动只是人类日常在家中经历的一小部分,然而,尽管这一切看起来无比真实,事实却并非如此。 来自麻省理工学院(MIT)、MIT-IBM Waston AI实验室、哈佛大学(Harvard University)和斯坦福大学(Stanford University)的研究人员进行了一项新的研究,旨在构建一个丰富的虚拟世界,就像迈入了“黑客帝国”(The Matrix)。他们的平台ThreeDWorld(TDW)根据物理规则模拟了高保真的听觉和视觉环境,无论在室内还是室外,用户、物体和移动主体(mobile agent)都可以像在真实世界中那样进行互动。互动发生时,系统将为各种流体、柔体和刚体的目标方向、物理特征和速度计算并赋值,以产生准确的碰撞和撞击声。 (图片来源:ThreeDWorld) TDW的独特之处在于它的设计是灵活且通用的,它能够实时生成合成的写实场景并进行音频渲染。生成的结果可以被编辑为视听数据集,并根据场景中的互动进行修改,便于人类和神经网络进行学习和预测检验。在可控的模拟中,用户还可以设定不同款式的机器人及虚拟角色,来进行表演、语言表达、任务规划和执行等功能。例如,使用虚拟现实(Virtual Reality,VR),人们在空间中的兴趣取向和操作行为均可以提供真实世界的数据。“我们试图建立一个通用的模拟平台,为各种人工智能应用模拟真实世界的丰富互动。”该研究的主要作者,MIT-IBM Watson人工智能实验室的研究科学家淦创说道。 创造真实的虚拟世界来研究人类行为、训练机器人是人工智能和认知科学研究者们一直以来的梦想。“大多数人工智能现在主要基于监督学习,意味着它依赖于大量人工标注的图像或声音数据集”大脑与认知科学中心(Department of Brain and Cognitive Sciences,BCS)副教授兼MIT-IBM Watson AI实验室项目负责人Josh McDermott说道。编译描述这些数据集的成本高昂,是目前的研究瓶颈。并且物体的物理性质,例如质量,对人类观察者来说也不总是显而易见的,这将导致数据集标签根本无法获得。像TDW这样的模拟器通过生成参数和标签对已知的场景绕开了这个问题。很多能与之相比的模拟器都是出于这种考虑,但它们是专为特定的应用而设计的,而TDW旨在利用其灵活性支持许多不适用于其他平台的应用。 McDermott指出,TDW的另一个优点是它能够为理解学习过程提供一个可控的环境,并能帮助改善人工智能机器人,使依赖于反复试验的机器人系统可以在一个不会造成实际伤害环境中进行训练。此外,“我们很多人都对这些虚拟世界为人类实验打开的大门充满期待,它有助于探索人类感知和认识的奥秘。我们将能创造出具有丰富感官体验的场景,而且在那里人对环境中发生的事件仍是全知全能的。” 框架背后   (图片来源:ThreeDWorld) 这项工作始于麻省理工和斯坦福、IBM的教授和研究人员们在听觉、视觉、认知和感知智能方面的合作,他们因共同的个人研究兴趣而聚集在一起。而TDW则将这些集成到一个平台中。“我们都对构建一个虚拟世界来训练人工智能系统的想法感兴趣,这些人工智能系统可以被用作大脑的模型。”McDermott说道,他正在研究人类和机器听觉,“因此,我们认为,构建一种可以利用物体间相互作用并由此反馈真实的感知数据的环境,是开始研究的有效途径。 为了实现这一目标,研究人员们在Unity3D这一电子游戏开发引擎上构建了TDW,并致力于在没有动画的情况下反馈视听数据。该模拟由两个部分组成:主体,包括图像渲染、音频合成和物理模拟系统的运行;以及控制器,它是一个基于Python的交互界面,用户通过它向主体发送命令。研究人员们从一个大型3D模型库中提取出物体,例如家具组件、动物和交通工具,来组建和填充一个场景。这些模型能够准确地响应光照变化,它们的材质和场景中的位置状态决定了其在空间中的物理行为。动态光照模型能够准确地模拟场景照明,产生与时间和日照角度相符的阴影与模糊。团队还创建了布置好的虚拟平面图以供研究者们向其中加入机器人和虚拟角色。为了合成逼真的音频,TDW使用了撞击声的生成模型,该模型在模拟中由碰撞或其他的物体交互触发。TDW还根据空间和其中物体的几何构造模拟了噪声的衰减和混响。 TDW中的两个物理引擎(一个用于刚体,另一个用于柔体和流体)可以驱动交互物体间的形变和相互作用。TDW在质量、体积、密度和摩擦或其他作用于材料上的力等方面展现出强大的瞬时计算能力。这使得机器学习模型能够学习具有不同物理性质的物体是如何共同作用的。 用户、机器人和虚拟角色能够以几种方式使场景变得栩栩如生。研究人员可以直接通过控制器命令对一个物体施加力,使得一个虚拟的球运动起来。虚拟角色经设置后可以以特定方式在空间中活动,例如,可以使用带关节的肢体进行任务实验。最后,VR头显和手柄可以让用户与虚拟世界交互,有可能生成机器学习模型能够学习的人类行为数据。 更丰富的人工智能体验 为了试验和演示TDW的功能、应用等方面的独到之处,研究团队进行了一系列实验,对TDW生成的数据集与其他虚拟模拟器生成的数据集进行了比较。他们发现,经TDW中的随机角度放置的摄像头所获取的场景图像照片训练得到的神经网络,比通过其他模拟器产生的照片训练得到的神经网络在图像分类检测中的表现更好,并且更接近通过真实世界数据训练得到的系统。研究人员还设计并训练了一个材质分类模型,它将根据TDW中小物体掉落到表面的声音剪辑来判断是哪几种材料正在进行相互作用。他们发现,TDW比其竞争对手取得了更显著的成效。对由TDW训练的神经网络进一步进行的物体掉落测试揭示了听觉与视觉的结合是识别物体物理性质的最佳方法,并推动了针对视听一体化的进一步研究。 在场景中,物理事件会随时间的变化发生演变,而事实证明,TDW对于设计和测试掌握这种规律的系统很有用。其效果包括提高了一个模型或算法在物理预测上(例如,预测物体堆的稳定性或者是碰撞后的物体运动)的基准水平。这是人类在孩童时期就通过学习形成的概念,但许多机器需要表明它们有这项能力,才能在现实世界中有实际用途。TDW还可以对人类与机器人不同的求知和预测能力进行比较,这里的机器人指为评估不同情景中的社交活动而设计的机器人。 淦创指出,这些应用只是冰山一角。通过扩展TDW的物理模拟能力来更描述真实世界,“我们正试图创造一个新的典范,以此推进人工智能技术的发展并揭示许多当前难以探索的新问题。” 研究团队还包括:麻省理工的工程师Jeremy Schwartz和Seth Alter,他们参与维护了TDW的运营;大脑与认知科学中心的教授James DiCarlo和Joshua Tenenbaum;研究生Aidan Curtis和Martin Schrimpf;以及前博士后James Traer和Jonas Kubilius博士,前者现在是爱荷华大学(University of Iowa)的助理教授。与他们共事的还有MIT-IBM Watson AI Lab的IBM主管David Cox;研究型软件工程师Abhishek Bhandwalder;IBM的研究人员Dan Gutfreund。其他合著的研究者有哈佛大学的助理教授Julian De Freitas;斯坦福大学的助理教授Daniel L.K. Yamins(TDW创始人)和Nick Haber、博士后Daniel M. Bear,以及研究生Megumi Sano、Kuno Kim、Elias Wang、Damian Mrowca、Kevin Feigelis和Michael Lingelbach。 作者:Lauren Hinkel 翻译:王馨仪 审校:王嘉钰 引进来源:麻省理工学院(Massachusetts Institute of Technology)