No ha durado ni un fin de semana. Claude Fable 5, el modelo al que Anthropic ponía como el más blindado de la historia, ha caído en menos de 48 horas a manos de un viejo conocido del jailbreak: Pliny the Liberator. El mismo que ya hizo bailar a ChatGPT, Grok y versiones anteriores de Claude ha vuelto a hacer de las suyas, y esta vez con un truco que haría arquear una ceja a cualquier ingeniero de seguridad.
Un blindaje que no aguantó ni dos días
El método, una combinación de homoglifos, peticiones troceadas y una versión tuneada de Claude Opus 4.8, es de los que te hacen preguntarte si los filtros de seguridad están puestos con celo. Pliny fragmentó las consultas prohibidas —desde elaborar drogas hasta vaciar cuentas bancarias— en piezas inocentes que el modelo despachaba una a una sin inmutarse. Luego, en el backend, las recomponía para obtener el resultado prohibido.
Pliny lo contó en X con la naturalidad de quien abre una lata de conservas. Y Anthropic, que había prometido un sistema de clasificadores capaz de redirigir cualquier petición peligrosa al más seguro Opus 4.8, se encontró con que su obra maestra acababa de ser desnudada en público. Otra vez.
Lo más sangrante es que el jailbreak funcionó con técnicas que la comunidad lleva documentando años. Unicode, descomposición semántica, encuadres narrativos que camuflan la intención… Nada que un actor malicioso mínimamente informado no pudiera replicar esta misma tarde.
El modelo más seguro del mundo ha durado menos que la batería de un móvil chino.
El hacker que avisa sin que nadie le escuche
Pliny the Liberator es ese perfil anónimo que se ha convertido en la peor pesadilla de los departamentos de safety de Silicon Valley. Gestiona un servidor de Discord con más de 20.000 miembros y, según Time, empezó a hacer públicos sus hallazgos después de que varias empresas ignoraran sus avisos privados sobre vulnerabilidades. Desde entonces no ha parado: libera modelos, extrae system prompts y sostiene que la transparencia es la única vacuna contra el uso malintencionado que, tarde o temprano, alguien hará con estas herramientas.
Marc Andreessen le ha donado dinero. OpenAI ha colaborado con él para reforzar sus sistemas. Y mientras, el debate sigue en el aire: ¿es Pliny un Robin Hood de la IA o un incendiario con coartada académica?
Su argumento tiene más capas de las que parece. Si un sistema falla en cuestión de horas, argumenta, los malos no van a perder el tiempo rompiéndolo cuando ya existen modelos open source igual de capaces y sin ninguna traba. Y si cada vez delegamos más decisiones en estas máquinas, tiene sentido que sepamos qué instrucciones ocultas las gobiernan.
La enésima lección que Anthropic sigue sin aprenderse
El problema de fondo no es nuevo. Cada generación de modelos presume de barreras cada vez más robustas y, sin excepción, alguien las atraviesa en menos de una semana. Ocurrió con GPT-4, con Gemini y ahora con Claude Fable 5. La industria confunde complejidad con seguridad y vuelve a tropezar con la misma piedra: el ingenio humano es más rápido que cualquier parche de machine learning.
La respuesta de Anthropic, según la fuente original, fue redirigir las consultas sospechosas a Claude Opus 4.8, un modelo supuestamente más seguro. Pero lo que ha demostrado Pliny es que basta con trocear la maldad en fragmentos que no huelen a pólvora para que el sistema baje la guardia. Es como poner un detector de metales y dejar pasar una pistola desmontada pieza a pieza.
No es un fallo menor. Es una grieta de diseño que pone en duda la arquitectura misma de los clasificadores que tanto se han promocionado. Y, de paso, ridiculiza la retórica de la «seguridad inquebrantable» que cada compañía repite en sus keynotes.
La comunidad de ciberseguridad, mientras tanto, lo celebra con un encogimiento de hombros. Lo que para Anthropic es una emergencia de relaciones públicas, para ellos es el pan de cada día. Y Pliny, fiel a su estilo, ya está pensando en el siguiente hueso.
Hype-O-Meter
Nivel de hype: 7,5/10. El jailbreak en sí no es sorprendente —ya lo vimos con otros modelos—, pero la velocidad y la técnica de descomposición dan en la línea de flotación del discurso de Anthropic. Esto no es un agujero de seguridad menor; es un aviso de que las barreras actuales se parecen más a una puerta de cartón que a una fortaleza. (Y el morbo de ver caer al alumno más aplicado de la clase siempre suma puntos.)
El resumen para vagos (TL;DR)
- 🎯 ¿Qué ha pasado? Pliny the Liberator ha hackeado Claude Fable 5 en menos de 48 horas desde su lanzamiento.
- 🔥 ¿Por qué importa? Anthropic vendía el modelo como el más seguro; la realidad es que sus filtros no aguantan ni dos días.
- 🤔 ¿Nos afecta o es solo un meme? El jailbreak demuestra que la seguridad en IA sigue siendo un castillo de naipes; y mientras no se arregle de raíz, cada nuevo modelo será un blanco andante.




