HOI-Diff

/ 0评 / 0

image.png

Introduction


Background

Related Work

Contribution

Method


image.png

0. Definition

1. DBDM

image.png

提出一种双分支扩散模型来分别生成大致连贯的人体与物体运动,包含两个 Transformer 即人体 MDM($M^h$)和物体 MDM($M^o$)。

在生成时引入一个通信模块(CM)增强人-物交互的学习,CM 接收来自 $M^h$ 和 $M^o$ 的中间特征,基于 Cross-Attention 生成优化的更新结果,输出被插入到 $M^h$ 的第 4 个 transformer 层以及 $M^o$ 的最后一层。

由于 3D 人-物交互生成的数据可用性有限,训练中采用预训练的 $M^h$ 并对其微调,对于确保生成的人体运动的平滑性至关重要。而 $M^o$ 修改了输入和输出的线性层并从零开始训练。

如果直接把人和物体放在一个模型里训练,由于输入输出的改变必须从零开始训练,而 BEHAVE 数据集过小,会导致运动质量大幅下降。

2. APDM

image.png

由于人-物交互的复杂性,仅靠 DBDM 通常无法生成物理合理的结果,可能导致物体漂浮或穿透。为了提升效果,需要先确定人-物之间接触区域的位置。

InterDiff 是等人-物的动作都生成完之后再由距离计算接触点,但如果前面生成的动作本身就是错的,接触点也会算错,并且无法对生成的动作进行修正。

而 APDM 的预测完全不依赖 DBDM,它能提供正确的接触点信息从而后续纠正,并且即使是同一物体和统一交互类型,接触区域也存在多样性,其能随机生成接触点保证生成运动的多样性。

由于直接预测 3D 点云上所有点的接触情况及其困难,APDM 只关注人体在交互中常用的八个关节:[骨盆、脖子、双肩、双手、双脚]。预测的结果包括八个关节的接触概率 $y_0^h \in {0, 1}^8$(超过 0.6 判定为发生接触)和发生接触的关节对应在物体表面上接触的坐标 $y_0^o \in R^{8\times3}$。

此外确定交互过程中物体“动”(如拿起)还是“静”(如坐在上面)非常关键,APDM 引入 GPT-3.5 判断,输出 0(静)或 1(动)的标签 $y_0^s \in {0, 1}$,用来约束后续静止物体的动作生成。

3. Interaction Correction

结合 APDM 的结果,使用分类器引导来实现人体和物体之间精准且紧密的接触,以显著减少物体悬浮的情况。

定义了一个解析函数 $G(\mu_t^h, \mu_t^o, y_0)$,用于评估生成的人体关节与物体的 6DOF 位姿与预期目标的贴合程度,要求接触位置彼此接近并且二者运动在时间上保持平滑。

在每个去噪步骤 t,会计算 G 的梯度,然后对人体和物体的姿态进行扰动:

由于物体运动特征比较稀疏,其引导强度$\tau_2$比人的$\tau_1$更大;也并且由于人体动作复杂,所以希望物体主动去贴合人。

此外为了消除扩散模型在去噪阶段可能抑制引导信号,所以在去噪的最后一步,反复迭代扰动了 $K$ 次。

$G = G{con} + \alpha G{sta} + \beta G_{smo}$

Experiment


Dataset

BEHAVE

BEHAVE 包含了8个人与20种不同物体的真实交互动作,作者为这些视频序列人工标注了交互类型和接触部位,并利用 CPT-3.5 进行润色和扩写,最终得到 1451 个 3D HOI 序列。

OMOMO

OMOMO 聚集于手部的全身操作任务,包含日常生活中 15 种物体的人机交互动作。

Metric

Baseline

现有的 T2M 方法均为涉及 3D HOI 生成,因此主要聚焦于评估人体运动生成性能,并设计 baseline 的变体来对比 HOI 效果

Result

image.png

Ablation

image.png

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注