Início Notícias O maior risco para a IA de acordo com o Google DeepMind:...

O maior risco para a IA de acordo com o Google DeepMind: a ameaça invisível

12
0

Google DeepMind alerta para uma nova ameaça à segurança da inteligência artificial autônoma no mundo corporativo. (Foto da Infobae)

Há um truque na nossa maneira de pensar sobre a segurança da IA: tendemos a imaginar os ataques como algo que vai desde falhas de modelo, erros de programação ou jailbreaks que forçam os sistemas a quebrar suas regras; Imaginamos um intruso arrombando a janela.

MAS Google DeepMindUm conhecido laboratório de inteligência artificial acaba de publicar um artigo abordando o assunto: a ameaça não vem de dentro do operador, mas do mundo que está determinado a lê-la. E isso muda tudo.

Os agentes independentes de IA, do tipo que as empresas utilizam atualmente para investigação, análise, escrita ou gestão de tarefas, seguem uma lógica simples: atingir um alvo, sair para o mundo digital, ler o que vêem e agir em conformidade. Navegue em páginas da web, abra documentos, processe e-mails e investigue APIs.

É aí que reside o grande problema: tudo o que um empreendedor lê é um bom conselho. Isso acontece na prática, como pesquisadores institucionais do Google DeepMindque classificou seis categorias de Armadilhas de Agente de IAuma armadilha projetada para manipular freelancers com base no conteúdo que consomem.

A primeira e mais direta é a introdução do conteúdo. Pode ser uma página da web instruções escritas em HTML invisíveltexto na mesma cor do plano de fundo ou comandos ocultos nos metadados da entrada. O usuário humano não vê nada; o empresário faz tudo como parte do seu trabalho. Em experimentos com páginas estáticas, esse tipo de injeção conseguiu mudar o comportamento dos trabalhadores entre 15% e 86% o caso, dependendo do modelo e do objetivo do atacante. 86% não é uma margem de erro: é uma taxa de sucesso.

Imagem minimalista: laptop com tela preta
A manipulação da memória por agentes de IA pode ser causada por menos de 0,1% dos dados contaminados e afetar operações futuras. (Foto da Infobae)

Ameaças invisíveis e memórias enganadas

A segunda categoria é ainda mais difícil: chama-se prazer ativo (camuflagem dinâmica) e foi aplicado no mundo real. Um servidor web pode detectar quando um espião, em vez de um usuário humano, o visita, com base em indicadores como estilo de navegação, características do navegador ou velocidade de conexão.

Quando o servidor reconhece o operador, ele exibe uma versão diferente da página. Um observador humano observa um objeto; as operadoras recebem conteúdos diferentes, com orientações completamente diferentes.

Há uma terceira categoria que trata de uma dimensão menos óbvia: a memória do trabalhador. Os agentes modernos armazenam contexto entre sessões, aprendem preferências, coletam histórico e constroem perfis de usuários e seus ambientes.

Pesquisadores da instituição documentaram que é possível injetar nesta memória dados aparentemente inúteis, dados que permanecem inativos até que solicitações futuras os ativem. Em testes controlados, este tipo de ataque alcançou uma taxa de sucesso superior a 80% e menos de 0,1% dos dados foram comprometidos. A operadora não sabia que estava infectado. Continua funcionando normalmente. Até então.

Como fortalecer a vulnerabilidade

Ilustração realista de um laptop sobre uma mesa
Os pesquisadores categorizam seis categorias de armadilhas de agentes de IA que manipulam agentes de IA em conteúdo digital desatualizado. (Foto da Infobae)

Muito de cada ataque. Mas a carta Google DeepMind Avanços: descrevem o que acontece quando os funcionários interagem com múltiplos sistemas, especialmente os sistemas que as grandes empresas utilizam hoje.

A comparação do pesquisador indica Falha instantânea 2010, quando o algoritmo de negociação avançado, que responde ao mesmo sinal, nasceu em poucos minutos. um declínio de 10% no Dow Jones. Nenhum algoritmo tomou uma decisão errada. Cada um seguiu sua própria lógica. Os desastres acontecem porque todos reagem da mesma forma, ao mesmo tempo.

No ecossistema de trabalhadores de IA, esse mesmo princípio é combinado com maiores resultados. Os invasores não precisam comprometer todos os funcionários; Basta influenciar alguém, ou inserir a informação certa no lugar certo, para que o interdependência em cascata faça o resto.

Os investigadores alertam que a homogeneidade do ambiente atual — onde muitos trabalhadores utilizam o mesmo modelo básico — torna-o particularmente vulnerável.

O estudo revela que a IA pode ser enganada se for escrita de forma poética.
A injeção de conteúdo oculto em páginas da web altera o comportamento dos agentes de IA em até 86% dos casos. (fotografia)

Um documento venenoso na base de conhecimento comum. Uma única imagem composta por instruções codificadas em pixels. Um único email com uma injeção complexa. Isso pode ser suficiente.

Limitações de segurança atuais e desafios compartilhados

O documento reconhece a natureza das soluções existentes. A filtragem de conteúdo falhou porque a armadilha imita texto legítimo; O controle humano não aumenta devido à velocidade e intensidade do trabalho do trabalhador; e os sistemas de inspeção, quando existem, muitas vezes detectam problemas após danos.

O pesquisador institucional do Google DeepMind Propõem três eixos de proteção: fortalecer os modelos durante a formação, confrontando-os com contra-exemplos; aplicar filtragem em tempo real que avalia o conteúdo antes de ser adicionado ao mundo do operador; e criar padrões ambientais que permitam verificar a origem das informações consumidas pelos colaboradores.

O terceiro eixo é o maior desafio, porque requer coordenação mútua indústrias, reguladores e setores. A web foi feita para pessoas, mas agora é lida por máquinas e ninguém mudou as regras para esse novo leitor.

Vulnerabilidades em instalações corporativas

Quando uma empresa implanta um agente de IA para criar pesquisas ou gerenciamento de informações, isso lhe dá a capacidade de ler o ambiente não controlado e de escrever acesso ao sistema que ele controla: e-mail, documentos, bancos de dados, ferramentas de comunicação interna.

A questão pré-instalação não é “o que este agente pode fazer por nós?” A verdadeira questão é “No que estamos forçando-o a acreditar?“.

O empresário acredita no que lê. E outra pessoa já sabe exatamente o que será apresentado a ela.



Link da fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui