Motion-Master

/ 0评 / 0

Introduction


Background

Related Work

Contribution

Method


1. MotionGB

数据采集

MotionGB源自三个来源的 400 小时原始运动数据

多层次运动描述

数据集扩展

采用三种增强流水线,将数据量从 400h 扩充至 10000h,同时生成用于训练的运动编辑配对数据

2. 运动标记化

FSQ

通过一维卷积编码器 $E$ 对 $T$ 帧的输入进行时间下采样:

$z = E(f) \in R^{T^{'} \times D}$,其中$f \in R^{T \times D}$,$D=85$;

并且对每个潜在元素都做了离散化:$\hat{z}{i,d}=round(z{i,d}\cdot L_d)/L_d$,

量化后的特征通过对称解码器上采样至原始时间分辨率;

相比于 VQ-VAE 主要有以下优点:

局部特征提取

给定一个运动序列,其中包含$t$个时刻$J$个关节的关节位置$J_t \in R^{J \times 3}$以及根方向$r_t$,提取$D=85$维的特征向量用于表示在局部坐标系中$t$到$t+1$时的运动变化:

$f =[\triangle \thetat, flatten(p^{'}{t+1})] \in R^{85}$

image.png

这种局部化确保了相似的运动模式会生成相似的特征,无论在世界空间中的绝对位置如何

全局重建与损失函数

给定重构特征$\hat{f}_t =[\triangle \hat{\theta}t, flatten(\hat{p}^{'}{t+1})]$,迭代恢复全局运动

image.png

由于相对误差会随时间累计,所以直接监督全局联合位置和速度以防止漂移

逆运动学求解器(推理)

将生成的关键点轨迹转换为 SMPLX 参数本质上是约束不足的问题,误差会快速积累。

通过两阶段由粗到细的逆运动学解决这个问题:

3. MotionMaster

统一运动-文本建模

使 Qwen2.5-VL 在共享嵌入空间中同时处理运动和文本 token:通过将原始码本中使用频率最低的文本 token 替换为 离散运动 token,做到在不扩大词汇表的同时将其整合到 MLLM 现有的词汇表中

在训练的微调阶段,冻结文本标记的嵌入层,仅对运动标记嵌入层和 Transformer 权重进行训练,采用因果注意力机制实现自回归生成:$P(mt|t{prompt}, m<t)$

使用 RoPE 为文本和运动模态使用独立的计数器:文本计数器按顺序跟踪所有文本,遇到动作开始标记SOM时暂停计数,此时运动计数器清0并开始计数,遇到动作结束标记EOM时文本再开始计数

语义平衡

确保模型在训练过程中对运动空间实现均匀覆盖:先通过计算语义密度再动态调整采样概率

Experiment


Baseline

数据集

MotionGB

评估指标

image.png

image.png

image.png

结论

Ablation

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注