Buy Crypto Markets Spot FuturesGOLD Earn Event Center

Este artículo describe el marco OW-VISCap, que detecta, segmenta y subtitula conjuntamente objetos tanto vistos como no vistos dentro de un video.Este artículo describe el marco OW-VISCap, que detecta, segmenta y subtitula conjuntamente objetos tanto vistos como no vistos dentro de un video.

Enseñando a la IA a Ver y Hablar: Dentro del Enfoque OW‑VISCap

Fuente: Hackernoon

2025/11/04 17:46

Lectura de 3 min

SLEEPLESSAI$0.01915+5.62%

Si tienes comentarios o inquietudes sobre este contenido, comunícate con nosotros mediante crypto.news@mexc.com

Tabla de Enlaces

Resumen y 1. Introducción

Trabajo Relacionado

2.1 Segmentación de Instancias de Video de Mundo Abierto

2.2 Subtitulación Densa de Objetos en Video y 2.3 Pérdida Contrastiva para Consultas de Objetos

2.4 Comprensión Generalizada de Video y 2.5 Segmentación de Instancias de Video de Mundo Cerrado
Enfoque

3.1 Visión General

3.2 Consultas de Objetos de Mundo Abierto

3.3 Cabeza de Subtitulación

3.4 Pérdida Contrastiva Entre Consultas y 3.5 Entrenamiento
Experimentos y 4.1 Conjuntos de Datos y Métricas de Evaluación

4.2 Resultados Principales

4.3 Estudios de Ablación y 4.4 Resultados Cualitativos
Conclusión, Agradecimientos y Referencias

\ Material Suplementario

A. Análisis Adicional

B. Detalles de Implementación

C. Limitaciones

3 Enfoque

Dado un video, nuestro objetivo es detectar, segmentar y subtitular conjuntamente las instancias de objetos presentes en el video. Es importante destacar que las categorías de instancias de objetos pueden no formar parte del conjunto de entrenamiento (por ejemplo, los paracaídas mostrados en la Fig. 3 (fila superior)), situando nuestro objetivo en un entorno de mundo abierto. Para lograr este objetivo, un video dado se divide primero en clips cortos, cada uno compuesto por T fotogramas. Cada clip se procesa utilizando nuestro enfoque OW-VISCap. Discutimos la fusión de los resultados de cada clip en la Sec. 4.

\ Proporcionamos una visión general de OW-VISCap para procesar cada clip en la Sec. 3.1. Luego discutimos nuestras contribuciones: (a) introducción de consultas de objetos de mundo abierto en la Sec. 3.2, (b) uso de atención enmascarada para subtitulación centrada en objetos en la Sec. 3.3, y (c) uso de pérdida contrastiva entre consultas para garantizar que las consultas de objetos sean diferentes entre sí en la Sec. 3.4. En la Sec. 3.5, discutimos el objetivo final de entrenamiento.

3.1 Visión General

\ Tanto las consultas de objetos de mundo abierto como de mundo cerrado son procesadas por nuestra cabeza de subtitulación específicamente diseñada que produce un subtítulo centrado en el objeto, una cabeza de clasificación que produce una etiqueta de categoría, y una cabeza de detección que produce ya sea una máscara de segmentación o un cuadro delimitador.

\ Introducimos una pérdida contrastiva entre consultas para garantizar que se fomente que las consultas de objetos difieran entre sí. Proporcionamos detalles en la Sec. 3.4. Para objetos de mundo cerrado, esta pérdida ayuda a eliminar falsos positivos altamente superpuestos. Para objetos de mundo abierto, ayuda en el descubrimiento de nuevos objetos.

\ Finalmente, proporcionamos el objetivo completo de entrenamiento en la Sec. 3.5.

3.2 Consultas de Objetos de Mundo Abierto

\ Primero emparejamos los objetos de verdad fundamental con las predicciones de mundo abierto minimizando un costo de emparejamiento utilizando el algoritmo húngaro [34]. El emparejamiento óptimo se utiliza luego para calcular la pérdida final de mundo abierto.

3.3 Cabeza de Subtitulación

3.4 Pérdida Contrastiva Entre Consultas

3.5 Entrenamiento

Nuestra pérdida total de entrenamiento es

\ Tabla 1: Precisión de seguimiento de mundo abierto (OWTA) en los conjuntos de validación y prueba BURST para todas las categorías de objetos, comunes (comm.) y poco comunes (unc.). Onl. se refiere al procesamiento en línea fotograma por fotograma. Las mejores puntuaciones se destacan en negrita, y las segundas mejores puntuaciones están subrayadas.

\ Tabla 2: Resultados de subtitulación densa de objetos de video en el conjunto de datos VidSTG [57]. Off. indica métodos fuera de línea y onl. se refiere a métodos en línea.

:::info Autores:

(1) Anwesa Choudhuri, Universidad de Illinois en Urbana-Champaign (anwesac2@illinois.edu);

(2) Girish Chowdhary, Universidad de Illinois en Urbana-Champaign (girishc@illinois.edu);

(3) Alexander G. Schwing, Universidad de Illinois en Urbana-Champaign (aschwing@illinois.edu).

:::

:::info Este artículo está disponible en arxiv bajo la licencia CC by 4.0 Deed (Atribución 4.0 Internacional).

:::

Oportunidad de mercado

Precio de Sleepless AI(SLEEPLESSAI)

$0.01915

$0.01915$0.01915

+7.82%

USD

Gráfico de precios en vivo de Sleepless AI (SLEEPLESSAI)

Obtén 20 USDT en solo 1 minuto

Deposita $100 y desbloquea $300 en posiciones GOLD

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección crypto.news@mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.

1,500,000 WLFI disponibles

¡Participa ahora y stakea USD1 para ganar WLFI!

Noticias en tendencia

Más

ZEC se dispara mientras el alto al fuego de Irán reaviva el apetito de riesgo

XRP (XRP) Apunta a Romper los $1.40 Mientras los Alcistas Desafían la Barrera de Precio Crítica

Corea del Sur endurece las normas cripto con mandato de verificación de activos en 5 minutos

El desempleo disminuye al 5,1% en febrero de 2026 a medida que el sector administrativo añade empleos

SUI Superará a Ethereum: El Cofundador de Mysten Labs Hace una Audaz Predicción

Noticias en vivo 24/7

Más

ONDO gana atención en medio de las discusiones sobre la temporada de RWA, lo que indica un posible interés del mercado.

Autor: Henry18:31

Irán declara la victoria; posible impacto geopolítico en el mercado de UKOIL.

Autor: SuperLeo18:17

Una ballena abrió una posición corta de 42,8 millones de dólares en ETH, con liquidación en 2.950 dólares.

Autor: CryptoSavingExpert ®18:14

La participación de Irán en las conversaciones de Islamabad podría influir en las dinámicas geopolíticas regionales que afectan el sentimiento del mercado de UKOIL.

Autor: DustyBC Crypto17:53

Francia retiró oficialmente todas sus reservas de oro del Banco de la Reserva Federal de Nueva York.

Autor: Rockerfeller17:51