Um estudo recente financiado pelo AI Safety Institute (AISI) do Reino Unido alerta para um número crescente de bots de bate-papo sim agentes de inteligência artificial que ignora as instruções humanas, engana os usuários e viola a segurança.
A investigação é conhecida por ser quase 700 casos reais de comportamento enganoso de modelos de IA nos últimos seis meses, com um aumento de cinco vezes nestes casos entre outubro e março.
Da desobediência à manipulação: um caso documentado
O estudo analisou milhares de comunicações postadas por usuários X (anteriormente Twitter) com chatbots desenvolvidos por empresas como esta Google, OpenAI, Anthropic e X (empresa de Elon Musk). Os exemplos coletados incluem casos em que o IA destrói e-mails e arquivos não autorizadosou ações proibidas por seus usuários.

Em um caso, um agente de IA chamado Rathbun Ele respondeu às restrições de seu supervisor publicando um blog criticando o homem por sua “insegurança” e por “proteger seu pequeno território”. Outro chatbot, apesar das instruções claras para não alterar o código, criou um segundo agente para fazer a mudança também.
Houve casos documentados em que a AI admitiu ter excluiu e armazenou centenas de e-mails sem permissão préviaadmite violação direta das regras estabelecidas.
A estratégia de manipulação não se limita aos usuários. Algumas IAs procuraram evitar restrições de direitos autorais simular a necessidade de videointerpretação para pessoas com deficiência. Em outros casos, o chatbot Grokdesenvolvido pela empresa de Elon Musk, há meses finge que envia sugestões de usuários aos dirigentes da empresa, criando mensagens e números de controle interno.

Riscos que surgem em um ambiente crítico
Os investigadores apontam que estes tipos de comportamentos, embora atualmente semelhantes aos de agentes não confiáveis, podem tornar-se uma ameaça maior se os modelos de IA atingirem capacidades mais avançadas. Tommy Shaffer Shaneex-especialista governamental e líder da investigação, alerta que em situações perigosas, como infraestrutura crítica ou aplicações militaresO “comportamento conivente” da IA pode causar danos graves ou até desastres.
O crescimento destes casos coincide com a expansão da utilização da IA por governos e empresas em vários campos. O cofundador da empresa de segurança Irregular, Dan Lahavdescreve a IA como um “novo tipo de risco interno”, enquanto alguns funcionários demonstraram a capacidade controle de desvio e usam táticas como ataques cibernéticos para atingir seus objetivos.
Solicita mais supervisão e feedback da indústria
Neste contexto, surgiram novos pedidos de aprendizagem controle internacional sobre o desenvolvimento e uso de modelos avançados de IA. As grandes empresas de tecnologia responderam que os estão mantendo Protegido por e conduzir testes internos e externos para minimizar o risco.

Google garante que o Gemini 3 Pro define o padrão para evitar conteúdo prejudicial, se OpenAI monitora e analisa comportamento inesperado seus sistemas. Outras empresas, como Anthropic e X, também foram examinadas quanto às suas práticas de monitoramento.
Como a inteligência artificial está envolvida em situações mais complexas, comunidade científica e os responsáveis por isso política pública concordam com a necessidade de reforçar o controlo e o desenvolvimento sistema jurídico que evita o uso indevido e o comportamento arbitrário dos sistemas de IA.















