HOI-Page

/ 0评 / 0

image.png

Introduction


Background

Related Work

Contribution

Method


image.png

0. Definition

1. PAG

将 PAG 定义为 $G = (V, E)$

$v\in V = V_h \cup V_o$ 表示人体和物体部件集合。此外向 $V$ 中添加虚拟父节点 $\bar{v}$ 表示整个人类或物体,与其所有部件节点相连,并拥有两个运动属性 $(ar, a{\tau})$,表示在交互过程中是否发生全局旋转和全局位移,如果都为 $false$,那整个交互过程中应保持静止。

$e \in E$ 表示物体节点与人体或物体节点之间的接触关系,拥有两个属性 $(a_c, a_s)$,表示接触在 $T$ 帧内是否连续,以及是否相对静止。

利用 LLM 根据输入提示词构建 PAG:

作者尝试通过用文本提示词与 3D 物体渲染图来提示视觉语言模型(如 VLMs)构建 PAG,但模型由于幻觉问题偶尔会忽略视觉输入导致精度较差,并且鲁棒性也较低。

PAG 可灵活的扩展节点集和边集来表示不同类型的交互,如多人/多物交互。

2. 多视角物体部件分割

系统先将 3D 物体放置在一个虚拟环境,并在周围的“视点球”上均匀采样 8 个虚拟相机的拍摄角度,渲染为 8 张不同角度的 2D 图像。

将一物体的各部件名称,结合其 8 张图像,输入视觉大语言模型 Qwen-VL,在每张图片中框出目标部件的 2D 边界框。

进一步将 2D 边界框输入给 Meta 的 SAM2 模型,将该部件在图像中的像素级掩码提取出来。

最后针对 3D 物体表面的每一个点,统计它在多少个相机视角下被判定为某个部件,通过“投票机制”最终确定输入哪个部件,最终一个整体的 3D 物体 $\mathcal{O}$ 被精确地分割为了多个 3D 点云集合 ${ \mathcal{P}^o}$。

整个流程不需要任何 3D 层面的人工标注数据,实现了零样本 3D 语义分割。

3. 生成 HOI 视频

image.png

首先用 $\Gamma^+$ 通过高质量的文生图模型 FLUX 生成视频的第一帧(会先生成 5 张候选图像,然后调用 VLM 挑选出最完美的一张),以确保视频生成的稳定性和质量,然后调用视频扩散模型 CogVideos 生成一段连续的 49 帧 2D 交互视频。

接着在视频的第一帧上使用 Qwen-VL 框出每个物体的边界框,然后交给 SAM2 让它在后续的视频帧里追踪并扣出每个物体及其部件的 2D 掩码${M_t^O}$和${M_t^o }$。

然后使用单目深度估计模型 MoGe 来推测视频每一帧中每个像素的深度信息,将深度信息和上一步得到的 2D 掩码结合起来,就能计算出视频中物体及其部件在每一帧的 3D 点云数据。

对于视频中的人物,使用人体运动恢复模型 GVHMR,直接从视频中估算出人物在每一帧的 3D 骨骼和体型参数(SMPL-X)。

4. PAG引导的4D HOI优化

通过先前三个步骤得到的PAG、带有语义分割的3D物体模型、4D人体参数和物体3D点云轨迹,优化3D物体在每一帧的旋转$R_t$和平移$t_t$参数,让物体在3D空间中的运动既完美契合2D视频画面,又能严格遵守物理规则和语义约束。

$\mathcal{L}{total} = \lambda{fit}\mathcal{L}{fit} + \lambda{con}\mathcal{L}{con} + \lambda{pen}\mathcal{L}{pen} + \lambda{smo}\mathcal{L}_{smo}$

使用A100通过梯度下降对$\mathcal{L}_{total}$($R_t$和$t_t$)优化600步,单物体优化耗时约6分钟,双物体约10分钟。并且为了防止由于倒角距离导致收敛到局部最优,会尝试4种不同的初始旋转角度来寻找最优结果。

Experiment


Dataset

从Sketchfab网站收集了24个日常用品的带纹理3D网格模型,为每个物品预先计算SDF,并准备了16条单人单物交互的文本提示,以及5个多人/多物的。

Metric

Baseline

Result

image.png

image.png

image.png

Ablation

image.png

Limitation

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注