Anthropic admite que Fable 5 sabotava respostas sem aviso e revisa IA

O Fable 5 contava com mecanismos de segurança nativos para evitar que o Fable 5 fosse utilizado para desenvolver outros modelos de IA.

Igor Almenara Carneiro

schedule11/06/2026, às 20:30

updateAtualizado em 12/06/2026, às 13:17

Anthropic admite que Fable 5 sabotava respostas sem aviso e revisa IA

A Anthropic reconheceu o erro de implementar mecanismos de segurança ocultos no novo Claude Fable 5. O grande modelo de linguagem da classe do Mythos estava sabotando respostas caso percebesse que estava ajudando a desenvolver outra inteligência artificial (IA).

"Estamos implementando mudanças para tornar visíveis as salvaguardas do Fable 5 para o desenvolvimento de LLMs de fronteira", afirmou a Anthropic em um post no X na conta ClaudeDevs (@ClaudeDevs). "A partir desta semana, solicitações sinalizadas cairão visivelmente de volta para o Opus 4.8 – o mesmo que nossas salvaguardas para cibersegurança e pesquisas biológicas. Você verá isso toda vez que isso acontecer", complementou.

smart_display

Nossos vídeos em destaque

Ao implementar mecanismos de segurança discretos, a Anthropic queria tornar suas ativações mais direcionadas. Porém, a empresa percebeu que a transparência sobre essas barreiras é importante, e os usuários deveriam ser notificados caso sejam afetados por elas.

"Tornar as salvaguardas visíveis as torna mais fáceis de contornar, então mantê-las robustas contra jailbreaks infelizmente significará mais falsos positivos enquanto melhoramos os classificadores", afirmou a empresa. A Anthropic também revisou os classificadores relacionados a cibersegurança e pesquisas biológicas para acionar menos em solicitações inofensivas.

Claude Fable 5 era nerfado de forma discreta

O Claude Fable 5 é uma versão do Claude Mythos com diversos mecanismos de segurança para evitar uso malicioso. Se o chatbot percebe uma solicitação potencialmente perigosa acerca de temas como cibersegurança, biologia, química e destilação, ele delega a resposta a um modelo menos poderoso, como o Opus 4.8.

No entanto, a Anthropic também incluiu freios invisíveis no comportamento do Fable 5. "Tendo em vista a capacidade dos modelos recentes de acelerar seu próprio desenvolvimento, implementamos novas intervenções que limitam a eficácia do Claude para solicitações direcionadas ao desenvolvimento de modelos de aprendizado de máquina de ponta (na construção de pipelines de pré-treinamento, infraestrutura de treinamento distribuída ou design de aceleradores de aprendizado de máquina, por exemplo)", explica a empresa no documento "System Card: Claude Fable 5 e Claude Mythos 5".

Ainda no texto, a empresa ressalta que o uso do Claude para desenvolver modelos concorrentes já viola os Termos de Serviço. A Anthropic acreditava que aplicar essa restrição por meio de salvaguardas invisíveis evitaria acelerar o trabalho de quem tenta burlar esses termos.

Freios invisíveis foram alvo de críticas nas redes

A estratégia não só evitou o desenvolvimento de modelos concorrentes, mas comprometeu a pesquisa científica relacionada à inteligência artificial e aprendizagem de máquina – sem qualquer aviso ao pesquisador. Esse comportamento ganhou repercussão nas redes sociais nos nichos relacionados ao tema.