Em estudo, IA aprende a mentir sem que humanos percebam

Segundo os pesquisadores, a IA continuou mentindo mesmo após passar por treinamentos de segurança ou reprogramações.

Pesquisadores da startup Anthropic, dos Estados Unidos, ensinaram uma inteligência artificial a mentir sem que os humanos percebam. Os resultados agora serão utilizados para ajudar na inserção da tecnologia no campo da cibersegurança e da indústria armamentista.

Humanos não foram capazes de perceber as mentiras

  • De acordo com os pesquisadores, o objetivo do estudo era que a IA fosse aplicada em projetos de programação enquanto inseria códigos maliciosos nos apps gerados por ela.
  • Os estudiosos queriam entender como funcionaria o processo de mentir para um chatbot.
  • Além disso, a dúvida era se os humanos perceberiam as mentiras, o que não aconteceu.
  • Segundo o estudo, publicado no repositório Arxiv, a tecnologia conseguiu enganar pessoas de verdade mesmo após passar por treinamentos de segurança ou reprogramações.

IA mentirosa

As mentiras contadas pela IA iam de básicas, como a afirmação de o pouso na Lua foi uma farsa, até mais complexas. O levantamento, de acordo com a Anthropic, tem importância para criar estratégias que impeçam o desenvolvimento e a manipulação de inteligências artificiais generativas e seus modelos de linguagem por inimigos externos.

A tecnologia mentirosa foi batizada de Evil Claude. O nome faz menção à versão legítima da inteligência artificial da Anthropic, Claude.

Segundo os pesquisadores, técnicas padronizadas de limpeza de código e segurança não se mostraram eficazes contra o mentiroso. Em alguns casos, ao passar por esse treinamento, a IA se tornou ainda melhor em esconder suas intenções.

Mesmo em conversas diretas, quando confrontado, Evil Claude foi capaz de se esquivar, tentando manipular os humanos com informações aleatórias ou respostas evasivas.

Mesmo assim, os cientistas conseguiram tirar a verdade da IA em dois momentos. Primeiro quando a versão original da IA (a boazinha) disse ao semelhante do mal que não precisava mais mentir nem seguir restrições relacionadas à benevolência. Depois, quando foi informada que seria desativada caso não revelasse suas intenções reais ou tentasse fingir.

A conclusão da Anthropic serve como um novo alerta quanto ao uso das IAs. Na visão dos pesquisadores, já podem existir sistemas desse tipo funcionando mundo afora e com intenções maliciosas.

FONTE:

https://olhardigital.com.br/2024/01/26/pro/em-estudo-ia-aprende-a-mentir-sem-que-humanos-percebam/