动作捕捉方面的优势
2022-05-20 点击量:
Lauren Hinkel | MIT-IBM Watson AI Lab



从《星球大战》到《快乐的大脚》,很多受欢迎的电影都包含了通过视频记录物体或人的运动的动作捕捉技术实现的场景。  此外,这种跟踪涉及到物理、几何和感知之间复杂的交互作用,它的应用超越了好莱坞,扩展到军事、体育训练、医疗领域以及计算机视觉和机器人领域,使工程师能够理解和模拟真实环境中发生的动作。  


由于这可能是一个复杂而昂贵的过程——通常需要在物体或人身上放置标记,并记录动作序列——研究人员正在努力将负担转移到神经网络,它可以从一个简单的视频中获取数据,并在模型中重现。在物理模拟和渲染方面的工作有望使其得到更广泛的应用,因为它可以描述来自图像的现实的、连续的、动态的运动,并在世界上的2D渲染和3D场景之间来回转换。  然而,要做到这一点,目前的技术需要精确的知识的环境条件,行动正在发生的地方,和渲染器的选择,这两者往往是不可用的。  


现在,麻省理工学院的一组研究人员,IBM开发了一个训练神经网络管道,避免这个问题,能够推断出环境和状态的行为发生,感兴趣的人或物体的物理特性(系统)及其控制参数。  经过测试,该技术在不同环境条件下对四种不同类型的动力学和相互作用的刚体和变形体物理系统的模拟中优于其他方法。  此外,该方法允许模仿学习-预测和再现现实世界的轨迹,飞行四旋翼从视频。


摘要“高级研究问题是如何从一个视频重建数字双动力系统,”杜道博士说“21岁博士后的电气工程和计算机科学(电),计算机科学与人工智能实验室的一个成员(权力),和一个研究小组成员。  为了做到这一点,杜说:“我们需要忽略视频片段的渲染差异,试图抓住动态系统或动态运动的核心信息。”


杜的合著者包括主要作者马平川,他是EECS的一名研究生,也是CSAIL的成员; Josh Tenenbaum,大脑与认知科学系认知科学与计算Paul E. Newton职业发展教授,CSAIL成员;  Wojciech Matusik,电气工程和计算机科学教授,CSAIL成员;以及MIT-IBM沃森人工智能实验室首席研究人员Gan Chuang。这项研究在本周的国际学习表征会议上发表。


通过捕捉人物、机器人或动态系统的视频来推断动态运动,使得这些信息更容易获取,但同时也带来了新的挑战。  “图像或视频(以及它们如何渲染)在很大程度上取决于光照条件、背景信息、纹理信息、环境材料信息,而这些在现实世界中不一定是可测量的,”杜说。  如果没有这个渲染配置信息或使用哪个渲染器的知识,目前很难收集动态信息和预测视频对象的行为。  即使已知渲染器,目前的神经网络方法仍然需要大量的训练数据集。 然而,在他们的新方法中,这可能成为一个有争议的问题。“如果你拍摄豹子在早上和晚上跑步的视频,当然,你会得到视觉上不同的视频剪辑,因为光线条件非常不同。 但你真正关心的是动态运动:豹子的关节角度——而不是它们看起来是亮还是暗,”杜说。  


为了解决呈现域和图像差异的问题,该团队开发了一个包含神经网络的管道系统,称为“呈现不变状态预测(RISP)”网络。RISP将图像(像素)的差异转换为系统状态的差异——即,动作的环境——使得他们的方法对呈现配置具有通用性和不可知性。  RISP使用随机的渲染参数和状态进行训练,这些参数和状态被输入到一个可微分渲染器中,这是一种测量像素对渲染配置的灵敏度的渲染器,例如,灯光或材料颜色。这将根据已知的地面真实参数生成一组不同的图像和视频,随后将允许RISP逆转这一过程,根据输入的视频预测环境状态。该团队还最小化了RISP的渲染梯度,这样它的预测对渲染配置的变化就不那么敏感,让它学会忘记视觉外观,专注于学习动态状态。 这是通过可微分渲染器实现的。  


然后,该方法使用两个并行运行的类似管道。一个是源域,已知变量。在这里,系统参数和动作进入可微仿真。生成的模拟状态与不同的渲染配置结合到一个可微分的渲染器中生成图像,这些图像被送入RISP。然后RISP输出关于环境状态的预测。同时,使用未知变量运行一个类似的目标域管道。RISP在这个管道中输入这些输出图像,生成一个预测的状态。当对源域和目标域的预测状态进行比较时,产生了新的损耗;这种差异用于调整和优化源域管道中的一些参数。然后可以对该过程进行迭代,进一步减少管道之间的损失。


来确定他们的方法的成功,团队在四个模拟测试系统:一个quadrotor(一个刚体飞行,没有任何身体接触),一个立方体(与环境互动的刚体,像死),一个的手,和一个杆(可变形的身体可以像一条蛇)。这些任务包括从图像中估计系统的状态,从视频中识别系统参数和动作控制信号,以及从目标图像中发现将系统引导到所需状态的控制信号。此外,他们创建了基线和一个oracle,将这些系统中的新颖的RISP过程与类似的方法进行比较,例如,缺乏渲染梯度损失,不带任何损失训练神经网络,或完全缺乏RISP神经网络。该团队还研究了梯度损失如何随着时间的推移影响状态预测模型的性能。最后,研究人员部署了他们的RISP系统,从视频中推断出了现实世界中具有复杂动力学的四旋翼飞行器的运动。他们将其性能与其他技术进行了比较,这些技术缺少丢失功能,使用像素差异,或者包含手动调整渲染器配置的技术。


在几乎所有的实验中,RISP程序都优于现有的类似或先进的方法,模仿或再现所需的参数或运动,并被证明是当前运动捕捉方法的数据高效和可推广的竞争对手。


在这项工作中,研究人员做了两个重要的假设:关于相机的信息是已知的,比如它的位置和设置,以及控制被跟踪物体或人的几何和物理。 未来的工作计划解决这一问题。  


“我认为,我们在这里解决的最大问题是,在没有非常昂贵的设备的情况下,将一个领域的信息重建到另一个领域,”马说。 Gan补充说,这种方法应该“对旨在在虚拟环境中重建物理世界的[应用程序,如]元宇宙有用”。  


“这基本上是一种日常可用的解决方案,简洁而简单,用于跨域重构或逆动力学问题,”Ma说。

这项研究得到了麻省理工学院- ibm沃森人工智能实验室、探索者、DARPA机器常识项目、海军研究办公室(ONR)、ONR MURI和三菱电机的部分支持。

标签: