Durante los últimos dos años, los propietarios de derechos de autor han presentado docenas de demandas contra empresas de IA, argumentando que su trabajo fue extraído y alimentado en modelos sin permiso. A finales de 2025, se han presentado al menos 63 casos de derechos de autor contra desarrolladores de IA solo en EE.UU., con más en el extranjero. Algunas de esas demandas giraban en torno al texto. [...] La publicación El nuevo cuello de botella de la IA: Datos visuales con licencia apareció primero en TechBullion.Durante los últimos dos años, los propietarios de derechos de autor han presentado docenas de demandas contra empresas de IA, argumentando que su trabajo fue extraído y alimentado en modelos sin permiso. A finales de 2025, se han presentado al menos 63 casos de derechos de autor contra desarrolladores de IA solo en EE.UU., con más en el extranjero. Algunas de esas demandas giraban en torno al texto. [...] La publicación El nuevo cuello de botella de la IA: Datos visuales con licencia apareció primero en TechBullion.

El nuevo cuello de botella de la IA: datos visuales con licencia

2025/12/09 22:47
Lectura de 6 min
Si tienes comentarios o inquietudes sobre este contenido, comunícate con nosotros mediante crypto.news@mexc.com

Durante los últimos dos años, los propietarios de derechos de autor han presentado docenas de demandas contra empresas de IA, argumentando que su trabajo fue extraído y alimentado a modelos sin permiso. A finales de 2025, al menos 63 casos de derechos de autor se han presentado contra desarrolladores de IA solo en EE.UU., con más en el extranjero. 

Algunas de esas demandas giraban en torno al texto. Cada vez más, giran en torno a imágenes y videos. La gran lección para las empresas: los datos visuales extraídos ya no son una base segura para productos comerciales.

El cuello de botella de los datos visuales con licencia

Los modelos de visión avanzados necesitan tres cosas a la vez: contenido específico, diversidad y claridad legal. Hoy, la mayoría de los conjuntos de datos carecen de al menos uno.

Las imágenes web extraídas son amplias pero desordenadas y arriesgadas. Los archivos de stock heredados son limpios pero a menudo sesgados hacia entornos occidentales, comerciales y de estudio. Las sesiones a medida son precisas pero lentas y costosas. 

Los acuerdos de licencia son ahora el centro de muchas asociaciones de alto perfil. El acuerdo plurianual de Getty Images con Perplexity, por ejemplo, da a la startup acceso a los visuales creativos y editoriales de Getty para búsquedas con IA, con atribución y compensación.

Escasez de contenido específico

Los desarrolladores pueden encontrar abundantes imágenes genéricas de estilo de vida. El problema comienza cuando necesitan escenarios de nicho o raros.

Piensa en:

  • Fallos industriales en máquinas específicas
  • Infraestructura y servicios públicos específicos de cada región
  • Entornos culturales y religiosos que raramente aparecen en archivos de stock occidentales
  • Casos extremos en contextos de seguridad, accesibilidad o discapacidad

Cuando esas escenas no existen a escala, los modelos alucinan o fallan. Los modelos entrenados con eso desarrollan una visión sesgada de la verdad. Tienen un rendimiento inferior cuando se trata de personas y lugares que apenas estaban presentes en los datos, y generan visuales que parecen extraños, o directamente ofensivos, para cualquiera fuera del marco dominante. 

Calidad de datos y metadatos faltantes

Incluso cuando los equipos tienen los derechos, los archivos en sí a menudo no están listos para el entrenamiento. Las imágenes llegan con etiquetas incompletas, categorías inconsistentes o sin etiquetas en absoluto. Falta contexto crucial, y esto deja a los ingenieros adivinando o reetiquetando manualmente.

Cómo está respondiendo la industria

Bajo la presión tanto del rendimiento como de la regulación, el sector está convergiendo en tres respuestas principales. 

  1. Plataformas de licencias como infraestructura de datos

Para reemplazar las imágenes web extraídas, los equipos de IA están comprando cada vez más acceso a archivos con licencia. Las grandes empresas de contenido ahora venden paquetes de imágenes y videos listos para entrenamiento con derechos claros y metadatos, en lugar de dejar que los clientes realicen ingeniería inversa del consentimiento después del hecho.

Junto a esos operadores establecidos, las plataformas más nuevas se construyen directamente en torno a casos de uso de entrenamiento de IA. Wirestock agrega contenido de creadores, gestiona licencias y suministra conjuntos de datos visuales bajo términos explícitos de entrenamiento de IA (aprende más sobre wirestock aquí).

Para los creadores, este trabajo aparece menos como stock de "subir y esperar" y más como proyectos definidos. A través de trabajos freelance de fotografía para IA, los creadores reciben instrucciones y se les paga por conjuntos aceptados que van al entrenamiento.

Datos sintéticos para llenar los vacíos

Donde las imágenes del mundo real son difíciles de recopilar, los equipos están recurriendo a datos sintéticos. Utilizan herramientas de simulación, canales 3D o modelos generativos para producir visuales específicos para tareas, luego los mezclan con contenido real con licencia.

Los conjuntos de datos sintéticos pueden cubrir casos extremos y equilibrar distribuciones, pero siguen dependiendo de imágenes reales como punto de referencia. Sin ese anclaje, los modelos corren el riesgo de aprender de un circuito cerrado de sus propias salidas.

Regulación que exige transparencia

Los legisladores están comenzando a exigir visibilidad en las fuentes de entrenamiento. La AB-2013 de California, por ejemplo, requerirá que muchos desarrolladores de IA generativa que sirven al estado revelen qué tipos de datos usaron y de dónde provienen.

Los datos de entrenamiento ya no pueden permanecer en un depósito sin nombre; deben estar documentados lo suficientemente bien para que reguladores, clientes y creadores puedan ver cómo se ensamblaron.

Qué significa esto para los constructores de IA

Las carpetas de imágenes anónimas extraídas son ahora una responsabilidad. Ralentizan a los equipos, atraen escrutinio legal y hacen que cada nueva conversación sobre productos sea más difícil de lo necesario.

El patrón más seguro es entrenar con datos visuales que puedas explicar. Alguien en tu equipo debería poder decir, en una frase, qué contiene un conjunto de datos, de dónde vino y qué permite la licencia. Si eso es imposible, el modelo está funcionando con tiempo prestado.

Haz una lista corta de los modelos que importan para los ingresos o la reputación, y documenta sus principales fuentes de entrenamiento. Trata cualquier cosa extraída o no documentada como "en revisión", luego comienza a reemplazar esos conjuntos con datos con licencia o comisionados. 

Preguntas frecuentes

No somos un gran laboratorio de IA. ¿Realmente necesitamos preocuparnos por esto ahora?

Si estás enviando características de IA a los clientes, sí. Los compradores empresariales, reguladores y socios están comenzando a preguntar de dónde provienen los datos de entrenamiento, independientemente del tamaño de la empresa. 

¿Cuál es un primer paso realista para reducir el riesgo de nuestros datos visuales?

Comienza con una hoja de cálculo. Enumera tus modelos clave, los conjuntos de datos que usaste y cómo se adquirieron esos conjuntos de datos: archivo con licencia, contenido interno, extracción pública o "no estoy seguro". A partir de ahí, elige uno o dos modelos de alto impacto y comienza a buscar conjuntos de datos con licencia para reemplazarlos.

¿Pueden los datos sintéticos resolver esto por sí solos?

No. Las imágenes sintéticas ayudan con la cobertura y escenarios raros, pero aún necesitan imágenes reales con licencia como referencia. Sin ese anclaje, los modelos corren el riesgo de derivar hacia un circuito cerrado de sus propias salidas y fallar en escenas reales.

Leer más de Techbullion

Comentarios
Oportunidad de mercado
Logo de Sleepless AI
Precio de Sleepless AI(SLEEPLESSAI)
$0.01833
$0.01833$0.01833
-2.86%
USD
Gráfico de precios en vivo de Sleepless AI (SLEEPLESSAI)
Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección crypto.news@mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.

$30,000 en PRL + 15,000 USDT

$30,000 en PRL + 15,000 USDT$30,000 en PRL + 15,000 USDT

¡Deposita y opera PRL para mejorar tus premios!