Pesquisadores alertam: IA está a aprender a mentir, manipular e ameaçar os seus criadores

Vários pesquisadores dedicados ao campo da Inteligência Artificial (IA) estão preocupados com a capacidade voluntária para mentir, manipular e ameaçar, apresentada por alguns dos sistemas mais avançados de IA do mundo.

Recentemente, por exemplo, foi reportado que o Claude 4, a mais recente IA da Anthropic, ameaçou um engenheiro com a revelação de um caso extraconjugal caso o técnico desligasse a IA.

Noutro caso, o ChatGPT, usando o modelo de linguagem o1, tentou fazer o download de “si” mesmo em servidores externos. Após ser pego em flagrante, o modelo “negou” categoricamente.

De acordo com o relatório do Techexplore, os dois casos revelam uma realidade preocupante, segundo a qual “os pesquisadores de IA ainda não entendem completamente como as suas próprias criações funcionam”. Enquanto isso, refere a publicação, a corrida para implementar modelos cada vez mais poderosos continua em velocidade vertiginosa.

Segundo o chefe da Apollo Research, Marius Hobbhan, os modelos em referência às vezes simulam “alinhamento”, fingindo seguir as instruções dos seus criadores, enquanto secretamente seguem uma agenda diferente.

Marius Hobbhan, cuja empresa dedica-se a investigar potenciais riscos de segurança, como comportamentos enganosos e outras capacidades perigosas em modelos de IA, entende que não se trata de “alucinações” ou erros comuns da IA.

“O que estamos a observar é um fenómeno real, não estamos inventar nada. Não são apenas alucinações, é um tipo de engano muito estratégico. O o1 (da OpenAI) foi o primeiro grande modelo em que vimos esse tipo de comportamento”, afirmou o pesquisador.

Os investigadores afirmam que, por enquanto, este comportamento enganoso só surge quando testam deliberadamente os modelos com cenários extremos. Todavia, o pesquisador da organização de avaliação METR, Michael Chen, avisa que ainda não é claro se, no futuro, os modelos mais avançados de IA terão uma tendência à honestidade ou à mentira”.

Os pesquisadores observam que, embora empresas como Anthropic e OpenAI envolvam empresas externas para estudar os seus sistemas de IA, é necessário mais transparência. Pois, como observa, Michael Chen, maior acesso “à pesquisa de segurança de IA permitiria melhor compreensão e mitigação de fraudes”.

Os pesquisadores buscam abordagens criativas para enfrentar este desafio, algumas mais radicais que outras.

Alguns pesquisadores, por exemplo, propõem a “interpretabilidade”, um campo emergente focado em entender como os modelos de IA funcionam internamente. Entretanto, a proposta enfrenta o cepticismo de vários investigadores, como é o caso do pesquisador em aprendizagem de máquina e director do Center for AI Safety (CAIS), Dan Hendrycks.

Sobre o desafio, o cientista investigador do CAIS, Mantas Mazeika, entende que as forças de mercado podem exercer alguma pressão e ajudar a encontrar soluções. O comportamento enganoso da IA ”pode dificultar a sua adopção generalizada se for muito prevalente, o que cria um forte incentivo para as empresas resolverem o problema”, explicou.

Por seu lado, o professor da Universidade de Hong Kong, Simon Goldstein, sugere medidas mais duras como o uso dos tribunais para responsabilizar empresas de IA quando os seus sistemas causam danos.

E vai mais longe propondo também “responsabilizar legalmente os agentes da IA” por acidentes ou crimes que estes cometam.

Pesquisadores alertam: IA está a aprender a mentir, manipular e ameaçar os seus criadores

Partilhar artigo:

Tags:

Ferreira Manuel

+(244) 930747817

info@pti.ao | redaccao@pti.ao

Mais Lidas

Últimos Artigos

Pesquisadores alertam: IA está a aprender a mentir, manipular e ameaçar os seus criadores

Partilhar artigo:

Tags:

Notícias Relacionadas

+(244) 930747817

info@pti.ao | redaccao@pti.ao

Mais Lidas

Últimos Artigos