GraspDiffusion

/ 0评 / 0

image.png

Introduction


Background

近期的生成式模型能够合成高质量的图像,但往往无法准确生成人类用手与物体互动的画面,这主要由于手部在完整人体图像中仅占边缘区域,但其结构复杂,模型很难理解并合成H(and)OI行为。

Related Work

Contribution

Method


image.png

0. Definition

1. Full-Body Grasping

image.png

  1. 手部抓取生成 将物体的BPS(基点集)编码输入一预训练的cVAE:GrabNet,输出MANO手部模型的参数。其包含两套权重,用户可指定抓取的是左手还是右手。 BPS和GrabNet结合能生成准确的接触关系并泛化到各种物体。
  2. 身体姿态生成 使用一条件扩散模型生成SMPL-X参数$x \in R^{132}$(21非手关节+1根关节的6DOF),条件$c = [t{obj}, c{left}, c{right}] \in R^5$ 包括物体相对位置、左右手是否接触($c{left}, c_{right} \in {0,1}$)。 该模块侧重于表达人体和物体之间的空间关系,与物体具体形状无关,因此不关注生成的手部抓取姿态
  3. 联合对齐与优化 选择固定GrabNet生成的手指关节弯曲姿态以保留完美的抓取形态,同时将手腕对齐到身体上,具体通过最小化MANO和SMPL-X两组手掌对应顶点:$\mathcal{V}{h}^{p}$和$\mathcal{V}{b}^{p}$之间的$L1$距离,来优化手部的旋转$R_h$和位移$th$: $E(R{h},t{h})=\frac{1}{|\mathcal{V}{h}^{p}|}\sum{i=1}^{|\mathcal{V}{h}^{p}|}d{vv}(\mathcal{V}{h{i}}^{p},\mathcal{V}{b_{i}}^{p})$ 利用优化后的相对变换$(R_h, t_h)$将3D物体网格无缝变换到全身统一的坐标系中,生成人、手、物体三者融合的3D全身抓取姿态。

2. Scene Generation

image.png

由上面生成的全身3D姿态,先预提取多个空间条件作为最终图像生成的预训练的基础扩散模型(Stable Diffusion)的条件:

三个特征图通过CoAdapter进行特征提取,然后按一定权重相加作为条件注入到基础扩散模型中:$Fc = \sum{k \in {s, d, o }} \omegak \mathcal{F}{AD}^k(k^i)$

在训练过程中,冻结基础扩散模型的参数,仅优化条件适配器,从而降低模型收敛到数据集风格的风险。这使得在推理阶段可以通过应用LoRA或者微调后的Stable Diffusion,来控制图像风格。

为了针对手部-物体进行细化,在生成的全局图像中,以手和物体为中心裁剪出一块局部区域,针对这个区域再提取局部的骨架、深度图、物体图,送入手部细化适配器(结构与身体条件适配器类似,但单独训练),使得手部纹理与物体边缘更加自然。

image.png

为了解决交互可能发生在预期区域以外位置的情况,提出了一种干预交叉注意力层的方法:从3D模型中渲染出人体和目标物体的二维语义分割色块,在模型生成时,强制代表“人”和“物体”的文本token只能去关注图像中对应的色块区域;为了防止用另一只手去拿东西,先渲染一张“用错手去拿物体”的伪分割图,在注意力计算矩阵中,直接减去这个负向区域。

Experiment


Dataset

为弥补“高质量2D图像+对应3D姿态和物体”的配对数据,利用来自HICO-DET和VCOCO的人物交互图像来构建伪3D交互数据集。

image.png

对于手部优化模块,处理DexYCB和RHD数据集,并预处理HICO-DET的子集(裁剪在手-物边界框上)以拓宽手-物交互分布。

在GRAB数据集上训练全身抓取扩散模型;用上述数据集以Stable Diffusion v1.5作为基础模型并冻结参数训练条件模块。

Metric

Result

image.png

image.png

为了评估针对不同物体和位置抓取姿势的合理性,构建了一个分布在远离训练集原始范围的看不见的物体的测试集。 GraspDiffusion拥有最好的效果,即使物体被放在了不可思议的距离,也能生成合理的动作。

Ablation

image.png

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注