Durante los últimos dos años, los propietarios de derechos de autor han presentado docenas de demandas contra empresas de IA, argumentando que su trabajo fue extraído y alimentado a modelos sin permiso. A finales de 2025, al menos 63 casos de derechos de autor se han presentado contra desarrolladores de IA solo en EE.UU., con más en el extranjero.
Algunas de esas demandas giraban en torno al texto. Cada vez más, giran en torno a imágenes y videos. La gran lección para las empresas: los datos visuales extraídos ya no son una base segura para productos comerciales.
El cuello de botella de los datos visuales con licencia
Los modelos de visión avanzados necesitan tres cosas a la vez: contenido específico, diversidad y claridad legal. Hoy, la mayoría de los conjuntos de datos carecen de al menos uno.
Las imágenes web extraídas son amplias pero desordenadas y arriesgadas. Los archivos de stock heredados son limpios pero a menudo sesgados hacia entornos occidentales, comerciales y de estudio. Las sesiones a medida son precisas pero lentas y costosas.
Los acuerdos de licencia son ahora el centro de muchas asociaciones de alto perfil. El acuerdo plurianual de Getty Images con Perplexity, por ejemplo, da a la startup acceso a los visuales creativos y editoriales de Getty para búsquedas con IA, con atribución y compensación.
Escasez de contenido específico
Los desarrolladores pueden encontrar abundantes imágenes genéricas de estilo de vida. El problema comienza cuando necesitan escenarios de nicho o raros.
Piensa en:
- Fallos industriales en máquinas específicas
- Infraestructura y servicios públicos específicos de cada región
- Entornos culturales y religiosos que raramente aparecen en archivos de stock occidentales
- Casos extremos en contextos de seguridad, accesibilidad o discapacidad
Cuando esas escenas no existen a escala, los modelos alucinan o fallan. Los modelos entrenados con eso desarrollan una visión sesgada de la verdad. Tienen un rendimiento inferior cuando se trata de personas y lugares que apenas estaban presentes en los datos, y generan visuales que parecen extraños, o directamente ofensivos, para cualquiera fuera del marco dominante.
Calidad de datos y metadatos faltantes
Incluso cuando los equipos tienen los derechos, los archivos en sí a menudo no están listos para el entrenamiento. Las imágenes llegan con etiquetas incompletas, categorías inconsistentes o sin etiquetas en absoluto. Falta contexto crucial, y esto deja a los ingenieros adivinando o reetiquetando manualmente.
Cómo está respondiendo la industria
Bajo la presión tanto del rendimiento como de la regulación, el sector está convergiendo en tres respuestas principales.
- Plataformas de licencias como infraestructura de datos
Para reemplazar las imágenes web extraídas, los equipos de IA están comprando cada vez más acceso a archivos con licencia. Las grandes empresas de contenido ahora venden paquetes de imágenes y videos listos para entrenamiento con derechos claros y metadatos, en lugar de dejar que los clientes realicen ingeniería inversa del consentimiento después del hecho.
Junto a esos operadores establecidos, las plataformas más nuevas se construyen directamente en torno a casos de uso de entrenamiento de IA. Wirestock agrega contenido de creadores, gestiona licencias y suministra conjuntos de datos visuales bajo términos explícitos de entrenamiento de IA (aprende más sobre wirestock aquí).
Para los creadores, este trabajo aparece menos como stock de "subir y esperar" y más como proyectos definidos. A través de trabajos freelance de fotografía para IA, los creadores reciben instrucciones y se les paga por conjuntos aceptados que van al entrenamiento.
Datos sintéticos para llenar los vacíos
Donde las imágenes del mundo real son difíciles de recopilar, los equipos están recurriendo a datos sintéticos. Utilizan herramientas de simulación, canales 3D o modelos generativos para producir visuales específicos para tareas, luego los mezclan con contenido real con licencia.
Los conjuntos de datos sintéticos pueden cubrir casos extremos y equilibrar distribuciones, pero siguen dependiendo de imágenes reales como punto de referencia. Sin ese anclaje, los modelos corren el riesgo de aprender de un circuito cerrado de sus propias salidas.
Regulación que exige transparencia
Los legisladores están comenzando a exigir visibilidad en las fuentes de entrenamiento. La AB-2013 de California, por ejemplo, requerirá que muchos desarrolladores de IA generativa que sirven al estado revelen qué tipos de datos usaron y de dónde provienen.
Los datos de entrenamiento ya no pueden permanecer en un depósito sin nombre; deben estar documentados lo suficientemente bien para que reguladores, clientes y creadores puedan ver cómo se ensamblaron.
Qué significa esto para los constructores de IA
Las carpetas de imágenes anónimas extraídas son ahora una responsabilidad. Ralentizan a los equipos, atraen escrutinio legal y hacen que cada nueva conversación sobre productos sea más difícil de lo necesario.
El patrón más seguro es entrenar con datos visuales que puedas explicar. Alguien en tu equipo debería poder decir, en una frase, qué contiene un conjunto de datos, de dónde vino y qué permite la licencia. Si eso es imposible, el modelo está funcionando con tiempo prestado.
Haz una lista corta de los modelos que importan para los ingresos o la reputación, y documenta sus principales fuentes de entrenamiento. Trata cualquier cosa extraída o no documentada como "en revisión", luego comienza a reemplazar esos conjuntos con datos con licencia o comisionados.
Preguntas frecuentes
No somos un gran laboratorio de IA. ¿Realmente necesitamos preocuparnos por esto ahora?
Si estás enviando características de IA a los clientes, sí. Los compradores empresariales, reguladores y socios están comenzando a preguntar de dónde provienen los datos de entrenamiento, independientemente del tamaño de la empresa.
¿Cuál es un primer paso realista para reducir el riesgo de nuestros datos visuales?
Comienza con una hoja de cálculo. Enumera tus modelos clave, los conjuntos de datos que usaste y cómo se adquirieron esos conjuntos de datos: archivo con licencia, contenido interno, extracción pública o "no estoy seguro". A partir de ahí, elige uno o dos modelos de alto impacto y comienza a buscar conjuntos de datos con licencia para reemplazarlos.
¿Pueden los datos sintéticos resolver esto por sí solos?
No. Las imágenes sintéticas ayudan con la cobertura y escenarios raros, pero aún necesitan imágenes reales con licencia como referencia. Sin ese anclaje, los modelos corren el riesgo de derivar hacia un circuito cerrado de sus propias salidas y fallar en escenas reales.
Leer más de Techbullion







