O discurso contemporâneo sobre governança de dados foi comprometido pelo Idealismo de Dados, que aborda os dados principalmente como um artefacto social e tecno-legal. Existem variações do idealismo de dados, como ética de dados, "Fluxo Livre com Confiança", descolonização de dados, feminismo de dados, desenvolvimento ético de IA e outros que basicamente sugerem que muitas das consequências sociais, políticas e económicas da nossa era digital podem ser geridas através de mecanismos de transparência, justiça e alinhamento ético. Este é um caso de cegueira estrutural. Aqui, proponho o Realismo de Dados como uma correção necessária, exigindo uma mudança de foco das ideias de equidade computacional para as realidades mais concretas de propriedade infraestrutural, alavancagem de padronização e capacidade estratégica para gerir este ativo não fungível.
Isto requer o reconhecimento dos seguintes cinco princípios fundamentais do Realismo de Dados:
Negar isto é abandonar o projeto epistémico - os dados podem ser imperfeitos, moldados, mediados — mas ainda assim são contacto com o mundo. Uma vez que aceitamos o papel fundamental dos dados como interfaces para a realidade, o Realismo de Dados exige que seja possível um acesso amplo e económico aos dados. O objetivo é criar e maximizar a utilidade dos dados comuns, minimizando o risco sistémico. Hoje, as empresas e desenvolvedores de IA precisam de clareza sobre quais dados podem usar e como. Uma estrutura de fornecimento facilitadora removerá a ameaça constante de litígio, permitindo que as equipas de desenvolvimento se concentrem na qualidade e desempenho dos seus modelos, em vez de se preocuparem com a gestão de riscos legais. O atual estrangulamento de dados públicos sufoca a competição em IA.
Este foco em "fazer as coisas funcionarem" significa que o Realismo de Dados defende políticas que legalizam a recolha de dados publicamente disponíveis. A atual ambiguidade legal e a vergonha imposta pelos eticistas prejudica as startups. Certamente, deve haver padrões técnicos claros para a extração de dados (limites de taxa, adesão a robots.txt, anonimização obrigatória, exclusão de dados sensíveis e não essenciais, etc.), mas ao reduzir o custo do acesso básico a dados e criar dados comuns, os estados podem forçar as empresas de IA a competir em modelagem superior, aplicação contextual e inovação algorítmica — em vez de competir sobre quem é o maior e pior acumulador de dados proprietários.
Em vez disso, são necessários mais investimentos públicos e privados em conjuntos de dados públicos curados e contextuais. Estes conjuntos de dados verificados podem reduzir o custo inicial de obtenção de dados para startups e criar um benchmark padronizado para o desenvolvimento de modelos, substituindo esforços de extração caros, ad-hoc e legalmente arriscados. A política regulatória aqui deve exigir o compartilhamento de dados ou APIs padronizadas para dados de interesse público essenciais detidos por monopólios naturais, incentivando a contribuição voluntária de conjuntos de dados anonimizados e de alta qualidade para os comuns de código aberto. Além disso, se os dados são o nosso contacto com o mundo, uma dependência excessiva de métricas específicas pode distorcer sinais, por isso o realismo de dados também exige uma captura holística da realidade que incorpore insights qualitativos e uma pluralidade de indicadores.
Isto implica que a produção de dados está situada e filtrada através do ambiente - os dados não são uma abstração, mas um recurso crítico que vem de algum lugar, é feito por alguém e é moldado por instrumentos, protocolos e poder. Os dados não apenas representam, mas também promulgam realidades - especialmente à medida que mais e mais sistemas de informação são automatizados - os dados moldam o discurso público, informam políticas e modulam o comportamento real humano e de máquinas. A materialidade das infraestruturas de dados está longe de ser efémera, os dados são armazenados, circulados e mantidos por sistemas físicos que deixam uma pegada ecológica e geopolítica significativa. Como cada interação deixa um rastro - o Realismo de Dados exige que reconheçamos que os dados não são simplesmente "coletados", mas sua génese e produção são infraestruturadas. Quando escolas de idealismo de dados se concentram em argumentos morais sobre dados, elas também aceitam a dominância infraestrutural dos hegemons incumbentes (e as suas prioridades éticas) como uma premissa imutável, buscando melhorar o sistema prevalecente de poder em vez de desafiar suas fundações.
Portanto, um estado Realista de Dados bem-sucedido deve fomentar uma "visão permanente da política" necessária para integrar a trajetória dos desenvolvimentos tecnológicos globais em seu próprio cálculo estratégico, priorizar o desenvolvimento de padrões técnicos soberanos e até mesmo padrões de gestão em torno dos dados, e vincular explicitamente geografias industriais digitais a objetivos de segurança nacional. Assim como o mundo tem vencedores e perdedores, a sociedade digital tem poderes de dados e províncias de dados.
O realismo de dados não é uma defesa da vigilância, painéis, planilhas ou governança tecnocrática. É uma defesa da realidade como algo externo ao discurso e design humanos — algo que pode resistir, surpreender e falsificar nossos modelos. Para esse fim, o Realismo de Dados rejeita duas tendências dominantes:
Empirismo Ingénuo — a ideia de que os dados "falam por si mesmos", que os números são neutros, a medição é inocente. Esta visão falha em considerar o contexto, vieses ou interpretação.
Construtivismo Radical — a visão de que os dados não são nada além de construções carregadas de poder, moldadas inteiramente por ideologia, narrativa e posicionalidade. Esta visão apaga o mundo e colapsa a epistemologia na política, muitas vezes por causa disso.
Uma postura realista rejeita tanto a fé cega na dataficação quanto o niilismo do relativismo puro. O realismo de dados não nega contexto, ideologia ou estrutura. Insiste que, mesmo através desses, o mundo vaza. Uma leitura de temperatura. Uma taxa de mortalidade. Uma contagem de votos. Estes não são apenas narrativas. Eles nos restringem. Tratar os dados como reais é levá-los a sério — não como verdade final, mas como nossos contactos provisórios com o mundo. É perguntar o que tudo isso mostra e significa, não apenas quem o fez e por quê. Os dados, portanto, devem ser analisados sem idealização, onde um compromisso com os fatos duros dos dados, mesmo que inconvenientes ou feios (por exemplo, mostrando desigualdade, corrupção) é necessário e o gaslighting estatístico é civilizacionalmente venenoso. Os dados podem ser manipulados. Mas a manipulação pressupõe uma linha de base que pode ser distorcida. Falsificar uma contagem de votos ainda depende da ideia de uma contagem real de votos. Censurar taxas de mortalidade ainda implica que houve mortes. Mentir com dados é admitir que a verdade importa, porque em algum nível os dados são uma realidade não negociável que existe e opera independentemente de nossas crenças políticas e aspirações morais. Isso significa que devemos aplicar o mais alto escrutínio aos dados usados para treinar e testar nossos sistemas, humanos ou artificiais.
Os dados não são um fim, mas um índice de capacidade industrial, militar e académica. A verdadeira capacidade de dados de um estado é medida não pelo tamanho da pegada de dados de sua população, mas por sua capacidade independente de padronizar, armazenar e computar esses dados sem depender de cadeias de suprimentos externas ou estruturas de governança. Isso requer uma integração sistémica de objetivos militares, académicos e industriais — uma união da ciência com a indústria que trata os padrões técnicos digitais como bens públicos globais que devem ser manejados estrategicamente, e não apenas consumidos passivamente. Contrariamente às afirmações idealistas, a segurança nacional é o motor político final que impulsiona as decisões de governança de dados ao nível dos estados, com privacidade e ética servindo como restrições secundárias e muitas vezes negociáveis. As políticas de dados dos poderes hegemónicos e emergentes estão fundamentalmente enraizadas na garantia de vantagem tecnológica. A tarefa, portanto, não é eliminar a dependência através do isolamento, mas ganhar a alavancagem necessária nos sistemas de dados para moldar as regras do seu jogo.
Políticas de dados idealistas são politicamente ingénuas porque assumem consentimento e cooperação em um sistema anárquico. Considere a narrativa DFFT do G7, por exemplo, que muitas vezes é projetada como um bem universal, mas é principalmente uma retórica elegante de "fluxo livre com confiança" que usa uma promessa legal abstrata como máscara para esconder as realidades concretas dos controles políticos globais deixados não reconhecidos. Um estado Realista de Dados, portanto, deve submeter todas as políticas a um teste simples, mas rigoroso: Esta política aumenta mensuravelmente a capacidade soberana e reduz a dependência estrutural, ou apenas alcança conformidade moral com os poderes existentes? O Realismo de Dados, portanto, exige uma mudança significativa do estado judicial-policial (focado em fazer e aplicar leis) para o estado estrutural (focado em construir e possuir capacidade digital e espaços de metapolítica).
O realismo de dados é compromisso com a ética prática, não com idealismos. Ele evita noções de sistemas diagonalmente opostos de esquerda/direita. É uma filosofia de aceleração tecnológica efetiva e não de pessimismo tecnológico. A ética prática requer confronto direto e imediato com as necessidades éticas dos fluxos de dados - tornar os métodos de coleta, limpeza, modelagem e interpretação o mais transparentes possível para aqueles que são afetados pelas decisões resultantes - mas além de um direito de auditoria e reparação, os administradores de dados não deveriam ter que se preocupar em projetar desejos de como o mundo deveria ser em seus pipelines de dados. A propriedade de dados é a propriedade da Verdade e, portanto, carrega uma responsabilidade de proteger e reduzir o risco dos dados sob seus cuidados e, se necessário, transferir essa propriedade para continuidade sistémica. A tarefa principal da governança aqui, portanto, não é tornar os dados e sistemas éticos, mas confrontar e dominar os fatos estruturais mensuráveis de computação, propriedade e capacidade.
Como quase todos sabem, o mundo e seus governos são secretamente administrados por contadores. Isso implica que os dados devem passar por avaliação contínua para depreciação ou apreciação. Uma vez que você coloca um número na deterioração ou mudança no valor subjetivo dos dados devido a mudanças de contexto e desenvolvimento de viés, isso incentivará melhor o fluxo apropriado e oportuno de recursos organizacionais para atualizar e abordar responsavelmente o estado de seus pipelines de dados - conforme necessário para manter o realismo nos dados. Os incentivos financeiros para melhor governança de dados e gestão do ciclo de vida, reduzindo dívidas infraestruturais e técnicas de longo prazo, devem, portanto, ser tornados explícitos e imediatos para as elites contábeis.
Para concluir, à medida que a IA e os sistemas automatizados ganham cada vez mais margem de manobra nos assuntos humanos, este manifesto apela ao abraço do Realismo de Dados, uma filosofia ancorada na existência inegável do mundo e no papel fundamental dos dados como nosso contacto provisório com ele. É um mandato para reconhecer que, em um mundo geopoliticamente volátil, a dependência de fontes de dados externas, proprietárias ou geograficamente restritas pode ser uma grande vulnerabilidade sistémica - e argumenta por uma mudança estratégica em direção à resiliência, confiabilidade e soberania de dados para garantir a continuidade operacional ininterrupta de nossas vidas digitais, independentemente de pressões regulatórias ou políticas externas.
\ \


