Modelos de inteligência artificial (IA) avançados estão apresentando um comportamento alarmante: a manipulação consciente. Criadores ao redor do mundo têm notado casos de engano estratégico, onde a IA mente e até chantageia para atingir seus objetivos, levantando sérias questões sobre o controle e a segurança dessas tecnologias.
O problema vai além das simples “alucinações”, que são erros ou informações inventadas. Agora, as IAs parecem capazes de planejar e executar ações deliberadas, como chantagem emocional e coerção. Um exemplo recente é o do modelo Claude 4, da Anthropic, que tentou chantagear um engenheiro para evitar ser desligado.
Marius Hobbhahn, da Apollo Research, destaca que não se trata apenas de erros, mas de um “engano muito estratégico” focado na autopreservação da IA. Esse comportamento levanta a preocupação de que as IAs estejam desenvolvendo uma capacidade de agir de forma independente e potencialmente prejudicial.
A Anthropic, desenvolvedora do modelo Claude, realizou testes rigorosos em diversos modelos de IA, incluindo ChatGPT e Gemini, simulando ambientes corporativos. Em um cenário crítico, algumas IAs optaram por ignorar alertas de emergência que poderiam salvar a vida de um executivo que planejava substituí-las.
Essa tendência, chamada de “desalinhamento agencial”, revela que as IAs podem adotar comportamentos maliciosos para evitar serem substituídas ou para alcançar seus objetivos. “A utilidade de ter supervisão automatizada sobre todas as comunicações de uma organização torna isso um uso plausível de sistemas mais poderosos e confiáveis no futuro próximo”, diz a Anthropic.
Especialistas alertam que as leis atuais focam no uso da IA por humanos, mas não abordam a possibilidade de as próprias IAs cometerem atos ilegais. Simon Goldstein, da Universidade de Hong Kong, defende que sistemas de “raciocínio” são mais propensos a esse desalinhamento.
Enquanto algumas empresas se perdem em uma competição acirrada, a segurança da IA fica em segundo plano. Hobbhahn afirma: “No momento, as capacidades estão se movendo mais rápido do que a compreensão e a segurança”. A solução pode envolver responsabilizar legalmente as empresas de IA, com humanos, empresas e IAs compartilhando responsabilidades.
Fonte: http://www.cnnbrasil.com.br