InterDreamer

/ 0评 / 0

image.png

Introduction


Background

Text2Motion 技术在大规模运动捕捉数据及对应文本标注上训练的扩散模型取得了显著进展,然而推广到三维动态人体-物体交互(HOI)生成领域面临显著挑战,这类研究要么未设计物体的动态变化,要么仍依赖文本引导

Related Work

Contribution

Method


image.png

0. Definition

1. High-Level Planning

通过 few-shot 和 CoT,利用 LLM(GPT-4 和 Llama-2)从描述文本中提取交互细节 $g = L(p)$

2. Low-Level Control

得到交互细节 $g$ 后,先通过交互检索数据库生成与 $g$ 相匹配的物体初始状态 $s_1$,接着通过 T2M 模型(和 World Model)交替生成一系列人类动作序列 ${a_t}_t^T$

人物下一步动作由物体当前状态、人物先前动作序列和文本交互细节决定:$a_{t+1} \sim \pi1(a{t+1} | s_t, {a_i}_i^t, g)$

人物初始动作仅由 $g$ 决定:$a_1 \sim \pi_1(a_1 | g)$,并用于交互检索

$\pi_1$ 基于现有的 T2M 模型构建:MDM、MotionDiffuse、ReMoDiffuse、MotionGPT

交互检索组件 $R$ 基于人体初始动作 $a_1$ 和交互细节 $g$,建立物体初始姿态 $s_1 \sim R(s_1 | a_1, g)$

交互检索数据库由目标数据集(BEHAVE、OMOMO、CHAIRS)的训练集中逐帧扫描提取的 HOI 帧来构建,检索的 key 是(接触的人体部位,交互的物体类别),存储的 value 是一个长度为 $K$ 的顶点索引对列表:${(d_h^i, do^i)}{i=1}^K$

$d_h^i$ 是 SMPL 人体网格表面上发生接触的顶点索引($1 \sim 6890$) $d_o^i$ 是 3D 物体网格表面上对应接触的顶点索引

检索时从 key 对应的 value 中随机采样一个,接着移动和旋转物体(优化 6D 姿态)使其顶点 $d_o$ 尽可能贴近人体的 $d_h$

3. World Model

给定物体当前的状态和人体前后的动作,预测物体下一帧的状态 $s_{t+1} = \pi2(s{t+1} | s_t, at, a{t+1})$,为了能泛化到未见过的物体上,世界模型不关注物体的整体形状和人体的全身动作,只关心接触区域

架构

损失

通过对人体和物体的姿态参数执行梯度下降优化人体动作$a{t+1}$和物体姿态$s{t+1}$

Experiment


作者证明了 InterDreamer 在完全没有“文本-交互”成对数据的情况下,仍然能生成高质量、符合语义且物理连贯的 3D HOI 序列。

但直接与那些使用了大量配对数据进行监督学习的模型进行定量对比是不公平的,因此作者主要围绕框架中各个模块设计的必要性展开。

作者证明了模型能够很好地理解并执行训练集中不存在的复杂组合指令,并且能够直接泛化到 CHAIRS 数据集和 OMOMO 数据集,生成逼真的接触和物理反应。

Dataset

Metrics

Baseline

Ablation

Planning & T2M

image.png

image.png

image.png

World Model

image.png

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注