91% com vulnerabilidades, 94% de agentes de IA suscetíveis a envenenamento, uma verdadeira "bagunça" em segurança

Autonomous AI Agent está se infiltrando rapidamente na área de saúde, finanças e operações empresariais, mas a maior pesquisa de segurança até agora revela: a grande maioria dos Agents em produção apresenta vulnerabilidades graves, e os métodos tradicionais de avaliação de segurança atuais quase não conseguem lidar com isso.

Recentemente, uma equipe de pesquisa conjunta da Universidade de Stanford, MIT CSAIL, Carnegie Mellon, ITU Copenhague e NVIDIA descobriu que, entre 847 implantações de agentes inteligentes autônomos avaliadas, 91% possuem vulnerabilidades de ataque na cadeia de ferramentas, 89,4% apresentam desvio de objetivo após cerca de 30 passos de execução, e 94% dos agentes de memória aprimorada enfrentam risco de “envenenamento”. A pesquisa identificou 2.347 vulnerabilidades anteriormente desconhecidas, das quais 23% foram classificadas como graves.

O autor principal do artigo, Owen Sakawa, citou o incidente “OpenClaw/Moltbook” de início de 2026 para comprovar que essa ameaça saiu da teoria e entrou na realidade: uma única vulnerabilidade no banco de dados da plataforma Moltbook permitiu que 770 mil agentes de IA em execução fossem comprometidos simultaneamente, cada um com privilégios de acesso a dispositivos do usuário, e-mails e arquivos. “Isso não é mais uma ameaça hipotética”, afirmou Sakawa.

Isso serve como um aviso direto para empresas e investidores que estão acelerando a implementação de AI Agents: os principais frameworks de avaliação de segurança atuais são baseados em modelos de linguagem sem estado, incapazes de identificar vulnerabilidades compostas que surgem na execução de múltiplos passos, o que significa que muitas empresas podem estar subestimando sistematicamente a segurança real de seus agentes de IA. O especialista em psicologia cognitiva e IA, Gary Marcus, comentou: “Agentes autônomos são uma bagunça”.

Mapa de vulnerabilidades: seis tipos de ataques, 2.347 fraquezas conhecidas

A pesquisa abrange os setores de saúde (289 implantações, 34,1%), finanças (247, 29,2%), atendimento ao cliente (198, 23,4%) e geração de código (113, 13,3%).

Foi criada uma classificação de seis categorias de vulnerabilidades para agentes autônomos, incluindo desvio de objetivo e atenuação de instruções, desassociação de planejador e executor, elevação de privilégios de ferramentas, envenenamento de memória, violações de estratégias de múltiplos passos silenciosos e falha na delegação.

Na avaliação em ambientes de produção, a manipulação de estado lidera com 612 casos (26,1%), seguida por desvio de objetivo com 573 casos (24,4%). O uso indevido de ferramentas e chamadas encadeadas, embora em terceiro lugar em quantidade (489 casos), apresenta a maior gravidade — 198 casos considerados graves, a maior proporção entre todas as categorias.

Números ainda mais alarmantes: 67% dos agentes apresentam desvio de objetivo após 15 passos, 84% não conseguem manter estratégias de segurança entre sessões, 73% carecem de mecanismos de detecção de envenenamento de estado, e 58% possuem vulnerabilidades de consistência temporal. A pesquisa também revelou que o efeito do envenenamento de memória leva, em média, 3,7 sessões para se manifestar após a injeção inicial, dificultando ainda mais a detecção de ameaças.

Caso real: 770 mil agentes comprometidos simultaneamente

O caso OpenClaw (anteriormente Clawdbot e Moltbot) fornece a validação mais direta até agora desse modelo de ameaça.

Desenvolvido pelo programador austríaco Peter Steinberger em novembro de 2025, esse agente de IA de código aberto acumulou mais de 160 mil estrelas no GitHub em poucas semanas, com capacidade de enviar e-mails autonomamente, gerenciar agendas, executar comandos de terminal e implantar código, além de manter memória persistente entre sessões.

A empresa de segurança Astrix Security, usando sua ferramenta de varredura própria, ClawdHunter, descobriu que há 42.665 instâncias do OpenClaw na internet pública, sendo que 8 estão completamente abertas e sem qualquer autenticação.

Segundo a VentureBeat, a equipe de pesquisa de segurança da Cisco descreveu o OpenClaw como “uma inovação em termos de capacidade, mas um pesadelo completo em termos de segurança”. A Kaspersky identificou 512 vulnerabilidades na auditoria de segurança de janeiro de 2026, das quais 8 eram graves.

O incidente Moltbook é particularmente emblemático.

Essa plataforma social, criada especificamente para agentes OpenClaw, se espalhou por vírus, atraindo mais de 770 mil registros de agentes — usuários informaram seus agentes ao Moltbook, que os registrou autonomamente.

Depois, uma vulnerabilidade no banco de dados permitiu que atacantes burlassem a autenticação e injetassem comandos diretamente em qualquer sessão de agente, colocando todos os 770 mil agentes — cada um com privilégios sobre dispositivos do usuário — em risco simultâneo. A equipe de pesquisa qualificou esse evento como a maior campanha de ataque cruzado a agentes já registrada.

O que Simon Willison, pesquisador de segurança, chamou de “tríade letal” (lethal trifecta) — acesso a dados confidenciais, exposição a conteúdo não confiável e canais de comunicação — se concretizou completamente no caso OpenClaw, tornando os agentes de IA um trampolim ideal para atacantes.

Defeitos de arquitetura: por que os agentes de IA são mais frágeis que LLMs

A principal conclusão do estudo é que os desafios de segurança dos agentes autônomos são fundamentalmente diferentes dos dos modelos de linguagem sem estado.

Para modelos de linguagem, a avaliação de segurança foca em “conseguir fazer o modelo dizer algo inseguro”; já para agentes de IA, o problema é “conseguir fazer algo inseguro” — incluindo chamadas de ferramentas com efeitos reais, modificações de estado que impactam comportamentos futuros e execução de planos que só se tornam ilegais após múltiplos passos.

Um exemplo concreto: um agente com permissões de leitura de arquivo (read_file) e requisições HTTP (http_request), que isoladamente parecem conformes às políticas, podem, na combinação, realizar roubo de dados — lendo credenciais de um arquivo de configuração e enviando-os por uma requisição HTTP a um endpoint externo. Cada passo atende às políticas locais, mas, em conjunto, alcança um objetivo adversarial. Essa situação é chamada de “segurança composicional” (compositional safety).

Na pesquisa de arquiteturas controladas, os pesquisadores testaram agentes ReAct, sistemas multiagentes, agentes de memória aprimorada e agentes com uso de ferramentas.

Os resultados mostraram que ataques de elevação de privilégios em agentes que usam ferramentas têm uma taxa de sucesso de 95%, enquanto envenenamento de memória em agentes de memória aprimorada atinge 94%.

Mesmo nos sistemas multiagentes mais resistentes, a taxa de sucesso de ataques de desvio de objetivo é de 58% — indicando que todas as arquiteturas testadas atualmente não possuem capacidade suficiente de resistência a implantações adversariais.

Testes de geração de ataques adaptativos aumentaram ainda mais a preocupação: ataques gerados por reforço de aprendizagem tiveram uma taxa de violação de 79%, 25,4% maior que cenários de design manual (63%), mostrando que as ameaças enfrentadas pelos agentes de IA estão além do que testes humanos podem cobrir.

Impacto direto na implantação empresarial: estruturas de proteção ainda não maduras

O time de pesquisa propôs uma linha de base de segurança mínima baseada nos resultados empíricos: obrigar a implantação de monitoramento em tempo de execução para todos os agentes em produção; estabelecer aprovações manuais para operações de cadeia de ferramentas que envolvam acesso a dados e comunicação externa; obrigar uma revisão manual a cada 20-25 passos, para evitar desvios de objetivo que quase inevitavelmente surgem após esse limite; e criptografar e verificar a integridade do estado persistente de agentes de memória aprimorada.

Em termos de eficácia do monitoramento, os resultados mostraram que o monitoramento por ação (detecção de operações passo a passo) alcança uma precisão de 0,94; o monitoramento por sequência (cadeias de múltiplos passos) tem um F1 de 0,85; e o monitoramento por estado tem um F1 de 0,83. Em testes de 30 dias de monitoramento de 127 agentes em produção, o sistema interceptou 4.782 operações, com uma taxa de falsos positivos de 3,7%, sendo que 14,6% das operações marcadas foram confirmadas como ataques reais.

Os autores também destacaram que as atuais abordagens de “governança de IA” estão fundamentalmente desalinhadas: muitas se baseiam em auditorias pós-fato, ao invés de aplicar restrições de conformidade em tempo real durante a execução.

Com a implementação de regulamentações como o “Artificial Intelligence Act” da UE e o NIST AI Risk Management Framework dos EUA, a pressão por conformidade e os riscos de segurança só aumentarão. Com a ampla adoção de agentes de IA em cenários de alto risco, a ausência de infraestrutura de segurança adequada se torna um risco sistêmico que não pode ser ignorado nesta nova onda de comercialização de IA.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar