Este artigo descreve a estrutura OW-VISCap, que deteta, segmenta e legenda conjuntamente objetos vistos e não vistos dentro de um vídeo.Este artigo descreve a estrutura OW-VISCap, que deteta, segmenta e legenda conjuntamente objetos vistos e não vistos dentro de um vídeo.

Ensinando a IA a Ver e Falar: Por Dentro da Abordagem OW-VISCap

2025/11/04 17:46
Leu 3 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

Resumo e 1. Introdução

  1. Trabalhos Relacionados

    2.1 Segmentação de Instâncias de Vídeo em Mundo Aberto

    2.2 Legendagem Densa de Objetos em Vídeo e 2.3 Perda Contrastiva para Consultas de Objetos

    2.4 Compreensão Generalizada de Vídeo e 2.5 Segmentação de Instâncias de Vídeo em Mundo Fechado

  2. Abordagem

    3.1 Visão Geral

    3.2 Consultas de Objetos em Mundo Aberto

    3.3 Cabeçalho de Legendagem

    3.4 Perda Contrastiva Inter-Consulta e 3.5 Treinamento

  3. Experiências e 4.1 Conjuntos de Dados e Métricas de Avaliação

    4.2 Resultados Principais

    4.3 Estudos de Ablação e 4.4 Resultados Qualitativos

  4. Conclusão, Agradecimentos e Referências

\ Material Suplementar

A. Análise Adicional

B. Detalhes de Implementação

C. Limitações

3 Abordagem

Dado um vídeo, o nosso objetivo é detetar, segmentar e legendar conjuntamente as instâncias de objetos presentes no vídeo. É importante notar que as categorias de instâncias de objetos podem não fazer parte do conjunto de treino (por exemplo, os paraquedas mostrados na Fig. 3 (linha superior)), colocando o nosso objetivo num cenário de mundo aberto. Para atingir este objetivo, um vídeo é primeiro dividido em pequenos clipes, cada um consistindo em T frames. Cada clipe é processado usando a nossa abordagem OW-VISCap. Discutimos a fusão dos resultados de cada clipe na Sec. 4.

\ Fornecemos uma visão geral do OW-VISCap para processar cada clipe na Sec. 3.1. Em seguida, discutimos as nossas contribuições: (a) introdução de consultas de objetos em mundo aberto na Sec. 3.2, (b) uso de atenção mascarada para legendagem centrada em objetos na Sec. 3.3, e (c) uso de perda contrastiva inter-consulta para garantir que as consultas de objetos sejam diferentes umas das outras na Sec. 3.4. Na Sec. 3.5, discutimos o objetivo final de treinamento.

3.1 Visão Geral

\ Tanto as consultas de objetos de mundo aberto quanto as de mundo fechado são processadas pelo nosso cabeçalho de legendagem especificamente projetado, que produz uma legenda centrada no objeto, um cabeçalho de classificação que produz um rótulo de categoria, e um cabeçalho de deteção que produz uma máscara de segmentação ou uma caixa delimitadora.

\

\ Introduzimos uma perda contrastiva inter-consulta para garantir que as consultas de objetos sejam incentivadas a diferir umas das outras. Fornecemos detalhes na Sec. 3.4. Para objetos de mundo fechado, esta perda ajuda a remover falsos positivos altamente sobrepostos. Para objetos de mundo aberto, ajuda na descoberta de novos objetos.

\ Finalmente, fornecemos o objetivo completo de treinamento na Sec. 3.5.

\

3.2 Consultas de Objetos em Mundo Aberto

\

\

\ Primeiro, correspondemos os objetos de verdade fundamental com as previsões de mundo aberto minimizando um custo de correspondência usando o algoritmo húngaro [34]. A correspondência ótima é então usada para calcular a perda final de mundo aberto.

\

\

3.3 Cabeçalho de Legendagem

\

\

3.4 Perda Contrastiva Inter-Consulta

\

\

3.5 Treinamento

Nossa perda total de treinamento é

\ Tabela 1: Precisão de rastreamento em mundo aberto (OWTA) nos conjuntos de validação e teste BURST para todas, comuns (comm.) e incomuns (unc.) categorias de objetos. Onl. refere-se ao processamento online frame a frame. As melhores pontuações estão destacadas em negrito, e as segundas melhores pontuações estão sublinhadas.

\ Tabela 2: Resultados de legendagem densa de objetos em vídeo no conjunto de dados VidSTG [57]. Off. indica métodos offline e onl. refere-se a métodos online.

\

:::info Autores:

(1) Anwesa Choudhuri, Universidade de Illinois em Urbana-Champaign (anwesac2@illinois.edu);

(2) Girish Chowdhary, Universidade de Illinois em Urbana-Champaign (girishc@illinois.edu);

(3) Alexander G. Schwing, Universidade de Illinois em Urbana-Champaign (aschwing@illinois.edu).

:::


:::info Este artigo está disponível no arxiv sob a licença CC by 4.0 Deed (Atribuição 4.0 Internacional).

:::

\

Oportunidade de mercado
Logo de Sleepless AI
Cotação Sleepless AI (SLEEPLESSAI)
$0.01945
$0.01945$0.01945
-0.05%
USD
Gráfico de preço em tempo real de Sleepless AI (SLEEPLESSAI)
Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!