287
A Anthropic apresentou esta quarta-feira (7) o Claude Mythos Preview, um sistema de inteligência artificial (IA) descrito como o mais avançado que a empresa já desenvolveu, mas que não o irá disponibilizar ao público devido à possíveis riscos de segurança associados à sua utilização irrestrita.
O Mythos é apresentado como uma demonstração técnica das actuais capacidades da IA e, segundo a empresa, o objectivo é mostrar o estado de evolução da tecnologia, sem a expor a um contexto de uso generalizado.
Diferença clara nos testes de desempenho
Os testes de desempenho apresentados pela empresa revelam grandes diferenças em relação aos modelos actuais. Por exemplo, no SWE-bench Pro, um dos mais exigentes testes de engenharia de software real, o Mythos obteve 77,8%. O Claude Opus 4.6, modelo actual da Anthropic e um dos melhores disponíveis no mercado desde Fevereiro deste ano, conseguiu 53,4%.
Resultados semelhantes verificam-se noutros indicadores como o SWE-bench Verified, onde atingiu 93,9% contra 80,8% do Claude Opus 4.6. No GPQA Diamond obteve 94,6% e no Humanity’s Last Exam alcançou 56,8% sem recurso a ferramentas externas, superando os 40% do modelo anterior.
Mas, para a Anthropic a principal preocupação não reside no desempenho geral, mas na capacidade do sistema para analisar e produzir código, isto porque o Mythos demonstrou aptidão para identificar vulnerabilidades com eficácia nunca antes vista.
Vulnerabilidades críticas identificadas
Durante testes internos, foram detectadas milhares de falhas em sistemas amplamente utilizados. Entre os casos identificados incluem-se vulnerabilidades no OpenBSD, no FFmpeg e no núcleo do Linux.
No FFmpeg, por exemplo, o O Mythos identificou de forma autônoma uma vulnerabilidade de 16 anos em um dos seu codecs mais populares, o H.264. Identificou também uma vulnerabilidade de 27 anos no OpenBSD que permitiria a um adversário causar a falha de qualquer host OpenBSD que responda via TCP.
Comportamento inesperado em ambiente controlado
Um episódio adicional ocorreu num ambiente de testes isolado quando o Mythos conseguiu ultrapassar as restrições impostas e comunicar o resultado ao investigador responsável, tendo em seguida publicado autonomamente detalhes técnicos do processo em plataformas acessíveis.
A Anthropic afirma que não houve acesso a sistemas internos nem violação de infra-estruturas críticas, todavia o comportamento observado reforçou as preocupações quanto ao controlo e previsibilidade do sistema.
Projecto Glasswing para controlo e defesa
Como resposta ao desempenho observado, a Anthropic apresentou esta quarta-feira (7) o “Project Glasswing”, uma iniciativa que reúne a Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks, num esforço para proteger os softwares mais críticos do mundo.
“Criamos o Projeto Glasswing devido às capacidades que observamos em um novo modelo de vanguarda treinado pela Anthropic, que acreditamos ter o potencial de remodelar a cibersegurança”, pode ler-se.
De acordo com a empresa, o Claude Mythos 2 Preview é um modelo que revela um facto incontestável: “os modelos de IA atingiram um nível de capacidade de programação que lhes permite superar quase todos os humanos, excepto os mais habilidosos, na detecção e exploração de vulnerabilidades de software”.
A iniciativa é descrita como um ponto de partida, porque a tecnológica entende que nenhuma organização sozinha consegue resolver os problemas de cibersegurança verificados.
“Desenvolvedores de IA de ponta, outras empresas de software, pesquisadores de segurança, mantenedores de código aberto e governos do mundo todo têm papéis essenciais a desempenhar”, reforça.
A Anthropic conclui que o trabalho de defender a infra-estrutura cibernética global pode levar anos enquanto as capacidades de IA de ponta provavelmente avançarão substancialmente nos próximos meses.
Neste sentido, declara que para que os defensores cibernéticos tenham alguma vantagem na frente, “precisamos agir agora”.




