Nos últimos dois anos, proprietários de direitos autorais apresentaram dezenas de processos contra empresas de IA, argumentando que o seu trabalho foi extraído e inserido em modelos sem permissão. Até ao final de 2025, pelo menos 63 casos de direitos autorais foram apresentados contra desenvolvedores de IA apenas nos EUA, com mais casos no estrangeiro.
Alguns desses processos giravam em torno de texto. Cada vez mais, giram em torno de imagem e vídeo. A grande lição para as empresas: dados visuais extraídos já não são uma base segura para produtos comerciais.
O estrangulamento dos dados visuais licenciados
Modelos de visão avançados precisam de três coisas ao mesmo tempo: conteúdo específico, diversidade e clareza legal. Hoje, a maioria dos conjuntos de dados perde pelo menos um.
Imagens extraídas da web são amplas, mas desorganizadas e arriscadas. Arquivos de stock tradicionais são limpos, mas frequentemente inclinados para configurações ocidentais, comerciais e de estúdio. Sessões fotográficas personalizadas são precisas, mas lentas e caras.
Acordos de licenciamento são agora o centro de muitas parcerias de alto perfil. O acordo plurianual da Getty Images com a Perplexity, por exemplo, dá à startup acesso aos visuais criativos e editoriais da Getty para pesquisa de IA, com atribuição e compensação.
Escassez de conteúdo específico
Os desenvolvedores podem encontrar muitas imagens genéricas de estilo de vida. O problema começa quando precisam de cenários de nicho ou raros.
Pense em:
- Falhas industriais em máquinas específicas
- Infraestrutura e serviços públicos específicos de região
- Configurações culturais e religiosas que raramente aparecem em arquivos de stock ocidentais
- Casos extremos em contextos de segurança, acessibilidade ou deficiência
Quando essas cenas não existem em escala, os modelos alucinam ou falham. Modelos treinados nisso desenvolvem uma visão distorcida da verdade. Têm um desempenho inferior quando se trata de pessoas e lugares que mal estavam presentes nos dados, e geram visuais que parecem estranhos, ou francamente ofensivos, para qualquer pessoa fora do quadro dominante.
Qualidade de dados e metadados ausentes
Mesmo quando as equipas têm os direitos, os próprios ficheiros muitas vezes não estão prontos para treino. As imagens chegam com etiquetas incompletas, categorias inconsistentes ou sem rótulos. O contexto crucial está ausente, e isso deixa os engenheiros a adivinhar ou a rotular manualmente.
Como a indústria está a responder
Sob pressão tanto do desempenho quanto da regulamentação, o setor está convergindo para três respostas principais.
- Plataformas de licenciamento como infraestrutura de dados
Para substituir imagens extraídas da web, as equipas de IA estão cada vez mais comprando acesso a arquivos licenciados. Grandes empresas de conteúdo agora vendem pacotes de imagem e vídeo prontos para treino com direitos claros e metadados, em vez de deixar os clientes reverterem a engenharia do consentimento após o facto.
Junto com esses incumbentes, plataformas mais recentes são construídas diretamente em torno de casos de uso de treino de IA. A Wirestock agrega conteúdo de criadores, lida com licenciamento e fornece conjuntos de dados visuais sob termos explícitos de treino de IA (saiba mais sobre a wirestock aqui).
Para os criadores, este trabalho aparece menos como stock de "carregar e esperar" e mais como projetos definidos. Através de trabalhos freelance de fotografia para IA, os criadores recebem briefings e são pagos por conjuntos aceites que vão para treino.
Dados sintéticos para preencher as lacunas
Onde as imagens do mundo real são difíceis de coletar, as equipas estão recorrendo a dados sintéticos. Usam ferramentas de simulação, pipelines 3D ou modelos generativos para produzir visuais específicos para tarefas, depois misturam-nos com conteúdo real e licenciado.
Conjuntos de dados sintéticos podem cobrir casos extremos e equilibrar distribuições, mas ainda dependem de imagens reais como ponto de referência. Sem essa âncora, os modelos correm o risco de aprender a partir de um ciclo fechado das suas próprias saídas.
Regulamentação que exige transparência
Os legisladores estão começando a exigir visibilidade nas fontes de treino. O AB-2013 da Califórnia, por exemplo, exigirá que muitos desenvolvedores de IA generativa que servem o estado divulguem que tipos de dados usaram e de onde vieram.
Os dados de treino já não podem ficar num bucket sem nome; têm de ser documentados o suficiente para que reguladores, clientes e criadores possam ver como foram montados.
O que isso significa para os construtores de IA
Pastas de imagens extraídas e anónimas são agora uma responsabilidade. Atrasam as equipas, atraem escrutínio legal e tornam cada nova conversa sobre produtos mais difícil do que precisa ser.
O padrão mais seguro é treinar com dados visuais que pode explicar. Alguém na sua equipa deve ser capaz de dizer, numa frase, o que um conjunto de dados contém, de onde veio e o que a licença permite. Se isso for impossível, o modelo está a funcionar com tempo emprestado.
Faça uma lista curta dos modelos que importam para receita ou reputação, e documente as suas principais fontes de treino. Trate qualquer coisa extraída ou não documentada como "em revisão", depois comece a substituir esses conjuntos por dados licenciados ou comissionados.
Perguntas Frequentes (FAQ)
Não somos um grande laboratório de IA. Precisamos realmente nos preocupar com isso agora?
Se está a enviar recursos de IA para clientes, sim. Compradores empresariais, reguladores e parceiros estão começando a perguntar de onde vêm os dados de treino, independentemente do tamanho da empresa.
Qual é um primeiro passo realista para reduzir o risco dos nossos dados visuais?
Comece com uma folha de cálculo. Liste os seus modelos principais, os conjuntos de dados que usou e como esses conjuntos de dados foram adquiridos: arquivo licenciado, conteúdo interno, extração pública ou "não tenho certeza". A partir daí, escolha um ou dois modelos de alto impacto e comece a procurar conjuntos de dados licenciados para substituição.
Os dados sintéticos podem resolver isso por si só?
Não. Imagens sintéticas ajudam com cobertura e cenários raros, mas ainda precisam de imagens reais e licenciadas como referência. Sem essa âncora, os modelos correm o risco de derivar para um ciclo fechado das suas próprias saídas e falhar em cenas reais.
Leia mais em Techbullion








