Resumo e 1. Introdução
Trabalhos Relacionados
2.1. Reconstrução de Movimento a partir de Entrada Esparsa
2.2. Geração de Movimento Humano
SAGE: Geração de Avatar Estratificada e 3.1. Declaração do Problema e Notação
3.2. Representação de Movimento Desvinculada
3.3. Difusão de Movimento Estratificada
3.4. Detalhes de Implementação
Experimentos e Métricas de Avaliação
4.1. Conjunto de Dados e Métricas de Avaliação
4.2. Resultados Quantitativos e Qualitativos
4.3. Estudo de Ablação
Conclusão e Referências
\ Material Suplementar
A. Estudos de Ablação Extras
B. Detalhes de Implementação
A tarefa de reconstruir o movimento completo do corpo humano a partir de observações esparsas ganhou atenção significativa nas últimas décadas dentro da comunidade de pesquisa [1, 3, 5, 7, 10, 11, 16, 18, 19, 46, 47, 49–51, 54]. Por exemplo, trabalhos recentes [16, 19, 46, 50, 51] concentram-se na reconstrução do movimento corporal completo a partir de seis unidades de medição inercial (IMUs). SIP [46] emprega métodos heurísticos, enquanto DIP [16] inova no uso de redes neurais profundas para esta tarefa. PIP [51] e TIP [19] melhoram ainda mais o desempenho incorporando restrições físicas. Com o aumento das aplicações de RV/RA, os pesquisadores voltam sua atenção para a reconstrução do movimento corporal completo a partir de dispositivos de RV/RA, como dispositivos montados na cabeça (HMDs), que fornecem apenas informações sobre a cabeça e as mãos do utilizador, apresentando desafios adicionais. LoBSTr [49], AvatarPoser [18] e AvatarJLM [54] abordam esta tarefa como um problema de regressão, utilizando GRU [49] e Rede Transformer [18, 54] para prever a pose corporal completa a partir de observações esparsas de HMDs. Outra linha de métodos emprega modelos generativos [5, 7, 10, 11]. Por exemplo, VAEHMD [10] e FLAG [5] utilizam Variational AutoEncoder (VAE) [20] e Normalizing flow [35], respetivamente. Trabalhos recentes [7, 11] aproveitam modelos de difusão mais poderosos [15, 38] para geração de movimento, produzindo resultados promissores devido à poderosa capacidade dos modelos de difusão em modelar a distribuição probabilística condicional do movimento de corpo inteiro.
\ Em contraste com métodos anteriores que modelam o movimento de corpo inteiro em uma estrutura abrangente e unificada, nossa abordagem reconhece as complexidades que tais métodos impõem aos modelos de aprendizagem profunda, particularmente na captura da cinemática intrincada do movimento humano. Portanto, propomos uma abordagem estratificada que desacopla o pipeline convencional de reconstrução de avatar de corpo inteiro, primeiro para a parte superior do corpo e depois para a parte inferior sob a condição da parte superior do corpo.
\
:::info Autores:
(1) Han Feng, contribuições iguais, ordenados por alfabeto da Universidade de Wuhan;
(2) Wenchao Ma, contribuições iguais, ordenados por alfabeto da Universidade Estadual da Pensilvânia;
(3) Quankai Gao, Universidade do Sul da Califórnia;
(4) Xianwei Zheng, Universidade de Wuhan;
(5) Nan Xue, Grupo Ant (xuenan@ieee.org);
(6) Huijuan Xu, Universidade Estadual da Pensilvânia.
:::
:::info Este artigo está disponível no arxiv sob licença CC BY 4.0 DEED.
:::
\


