As empresas estão a descobrir que construir Agentes de IA é fácil em comparação com construir os sistemas que tornam esses agentes confiáveis em produção.
As equipas de IA empresarial passaram os últimos dois anos a competir para construir agentes. Agora estão a deparar-se com um problema diferente: muito poucos desses agentes podem ser verdadeiramente confiáveis à escala.

A diferença está a começar a aparecer em números públicos. A Prosus terá construído internamente 50 000 agentes, mas apenas cerca de 5 000 estão a funcionar diariamente. Esse rácio de 10 para 1 tornou-se uma métrica reveladora do estado atual da produção de IA empresarial. A questão não é se as empresas conseguem criar agentes. É se conseguem determinar de forma fiável quais os agentes que são seguros para implementar, quais os resultados que são confiáveis e o que acontece quando os sistemas falham.
Essa distinção é importante porque a eficiência prometida dos sistemas autónomos pressupõe que esses sistemas estão a tomar decisões corretas em primeiro lugar.
O desfasamento entre experimentação e produção
Para muitas equipas de engenharia, a primeira vaga de implementação de Agentes de IA avançou rapidamente. Copilotos internos, automatizadores de fluxos de trabalho e sistemas multi-agente surgiram em todos os departamentos. As demonstrações funcionaram. Os programas-piloto pareciam promissores.
Os ambientes de produção contaram uma história diferente.
Antonio Bustamante, CEO da bem, passou anos a trabalhar em infraestrutura de IA para indústrias regulamentadas, incluindo seguros, finanças e saúde. Na sua perspetiva, o maior estrangulamento do setor é a responsabilização.
Ele aponta para um incidente amplamente discutido envolvendo a Upstream, no qual um Agente de IA entrou num canal do Slack e a equipa humana ficou alegadamente em silêncio durante 24 horas porque ninguém sabia como interagir com ele. Bustamante argumenta que o silêncio expôs algo mais profundo: as empresas não desenharam modelos operacionais para trabalhar ao lado de agentes.
O mesmo padrão aparece nas implementações empresariais de grande escala. As equipas conseguem gerar rapidamente milhares de agentes, mas a utilização cai quando esses sistemas encontram dados de produção desorganizados, propriedade pouco clara ou resultados incertos.
É por isso que muitas empresas se encontram agora com esforços extensivos de implementação de Agentes de IA, mas com relativamente pouca produção real de IA empresarial.
Por que razão os sistemas multi-agente continuam a estagnar
Parte do problema vem de como os ambientes empresariais funcionam na realidade.
Em demonstrações controladas, os dados são limpos e os fluxos de trabalho são previsíveis. As organizações reais raramente funcionam assim. A maioria dos sistemas empresariais contém registos fragmentados, formatos inconsistentes, contexto em falta e anos de contornos operacionais acumulados.
Bustamante compara a situação à linha de montagem. O modelo de fabrico de Henry Ford teve sucesso porque os inputs foram padronizados antes de a produção ser escalada. Os sistemas multi-agente enfrentam a condição oposta. Espera-se que operem com dados empresariais não padronizados, o que é característico da maioria dos ambientes empresariais.
Algumas empresas já reconheceram publicamente o peso operacional. Em várias implementações, as organizações viram-se a atribuir revisores humanos para rever continuamente os resultados dos agentes. Num exemplo que circula pelo setor, um sistema multi-agente terá necessitado de 20 pessoas para validar os resultados nos bastidores.
Isso altera completamente a economia. Os ganhos prometidos pela implementação de agentes autónomos desaparecem se os humanos ainda precisarem de verificar cada decisão manualmente.
A pontuação de confiança e a camada de responsabilização em falta
Bustamante argumenta que a pontuação de confiança se tornou um dos componentes mais negligenciados na governação de IA e na produção de infraestrutura de IA. Sem sistemas capazes de medir a incerteza, os operadores não têm forma fiável de determinar quais os agentes prontos para produção e quais os que requerem intervenção.
Na prática, a pontuação de confiança significa mais do que atribuir uma percentagem a uma resposta. Requer sistemas que consigam explicar a incerteza, rastrear decisões de volta aos dados de origem e criar pontos de verificação com humano no circuito antes que os erros se multipliquem nos fluxos de trabalho.
Essa camada de responsabilização de IA torna-se especialmente importante em setores onde os erros têm consequências financeiras ou legais. Uma revisão falhada de uma reclamação de seguro, um erro de extração em saúde ou um erro de processamento financeiro podem tornar-se um evento de responsabilidade.
Bustamante descreve a tese mais ampla da bem como "A plataforma de orquestração de agentes para coisas que não podem falhar." A frase reflete uma consciencialização crescente em toda a indústria: a fiabilidade do Agente de IA depende menos de quantos agentes se implementam e mais de se é possível rastrear, auditar e corrigir decisões quando algo corre mal.
Como é uma infraestrutura pronta para produção
A próxima fase da IA empresarial pode ter menos a ver com a construção de mais agentes e mais com a construção de sistemas à sua volta.
As empresas focadas na utilização a longo prazo de Agentes de IA estão cada vez mais a procurar infraestrutura que se mantenha flexível durante a execução, seja rígida nos resultados e seja rastreável em condições de falha. Isso inclui pontuação de confiança, trilhos de auditoria, pontos de intervenção, padronização de dados e sistemas de governação concebidos para produção, não para demonstrações.
As empresas que fecham o desfasamento entre a experimentação de sistemas multi-agente e a implementação no mundo real podem não ser as que têm mais agentes. Podem ser as que finalmente constroem a infraestrutura de responsabilização que as empresas ignoraram da primeira vez.







