El modelo chino GLM-5.2 arrasa en programación, supera a GPT-5.5 y es más barato

Que un modelo chino supere a GPT-5.5 en programación y tenga a Claude Opus 4.8 mirando por el retrovisor ya es noticia. Que encima cueste una fracción del precio y se pueda ejecutar en local (si tienes una máquina de las de verdad) es directamente un aviso para OpenAI y Anthropic. GLM-5.2, la nueva criatura de Zhipu AI, ha llegado para recordarnos que la carrera de la IA no la ganan solo los que más gastan en tarjetas gráficas.

Por qué este bicho merece que hablemos de él

Lo primero que impresiona es la ficha técnica. GLM-5.2 es un modelo de 744.000 millones de parámetros (744B), aunque solo mantiene activos 40.000 millones en cada inferencia. Eso sí, maneja una ventana de contexto de un millón de tokens y estrena una nueva arquitectura llamada IndexShare (o IndexCache) que, según Zhipu, es su gran ventaja en rendimiento. En criollo: menos recursos para mover el mismo músculo.

La startup, que responde al dominio Z.ai, lleva años lanzando versiones de su modelo GLM. Pero esta vez el salto desde GLM-5.1 es tan grande que han pillado a todo el mundo con el pie cambiado. Especialmente en el terreno que más le gusta a Silicon Valley: el código.

Los benchmarks que están quemando Twitter

El dato que hace arquear la ceja es el test FrontierSWE, el más exigente para evaluar programación autónoma. GLM-5.2 ha superado a GPT-5.5 (sí, al último de OpenAI) y se ha quedado a un suspiro de Claude Opus 4.8. En otras pruebas como PostTrainBench o SWE-Marathon –que mide el aguante en sesiones larguísimas– la historia es parecida. Zhipu ha metido su modelo directamente en la mesa de los gigantes estadounidenses.

Pero no es solo la palabra del fabricante. La firma independiente Artificial Analysis, que tiene su propio índice de inteligencia, ha confirmado la foto. GLM-5.2 alcanza 51 puntos. GPT-5.5 se queda en 55, Claude Opus 4.8 en 56 y Claude Fable 5 en 60. Para que te hagas una idea, eso deja al modelo chino por delante de Gemini 3.5 Flash y muy por encima de sus paisanos Qwen 3.7 Max, MiniMax-M3 o DeepSeek V4.

El rendimiento en programación de este modelo abierto es tan bueno que parece un descuido de los que cobran 10 veces más por token.

El informe de Artificial Analysis también mete el dedo en la llaga. No es perfecto: en fiabilidad de respuestas y en otras áreas como la creatividad para redactar sigue lejos de los «frontier» de Anthropic u OpenAI. Pero ha recortado alucinaciones de forma notable, y donde pisa fuerte, pisa con bota militar.

La guerra del precio: China 1, Silicon Valley 0

Aquí viene el golpe de verdad, el que más duele en las oficinas de San Francisco. GLM-5.2 mantiene el precio por millón de tokens de su versión anterior: 1,4 dólares para entrada y 4,4 para salida. Compáralo con los 5/30 de GPT-5.5 o los 10/50 de Opus 4.8. Sí, el modelo chino consume más tokens que sus rivales –es menos eficiente en ese sentido–, pero aún así la factura final es ridículamente más baja. Te sale a cuenta aunque te equivoques de prompt tres veces.

Para los que trasteamos con suscripciones de estas, es un caramelito. Z.ai ofreció a finales de 2025 una suscripción anual a precio de derribo, y con ese acceso he podido cacharrear un rato. Le pasé un proyecto de código personal y detectó varios fallos de seguridad y optimizaciones que ni mi paranoia había visto. En modo conversación la cosa cambia: es más lento (razona más tiempo) y menos creativo que los modelos de Google, OpenAI o Anthropic, pero para programar, se pone el mono de trabajo y cumple.

En Reddit las opiniones bailan entre el escepticismo y el «pruébalo en local si tienes un Mac Studio con 256 GB de memoria unificada». Porque sí, la opción de correrlo en tu propio hierro es otro de sus grandes atractivos, siempre que tengas una máquina que pueda con esos 744B parámetros sin echar humo.

¿Cambia esto algo o es un espejismo en benchmarks?

Viene bien recordar que a DeepSeek V4 también lo aupamos en su día como el asesino de GPT y luego se desinfló en casos reales. Con GLM-5.2 la mejora respecto a su versión anterior es mucho más contundente, y las pruebas en código son consistentes. Pero la experiencia final depende de lo que hagas con él. Para un desarrollador que busque un «copiloto» barato y con capacidad de mantener sesiones largas, puede ser un filón. Para quien necesite creatividad, resúmenes o interacción natural, la brecha con Fable 5 o Opus 4.8 aún existe.

Lo que está claro es que la distancia entre los laboratorios chinos y los tres grandes americanos se acorta a velocidad de vértigo. Y cuando la diferencia se mide en centavos por token, la tentación de saltarse el modelo caro es muy grande.

Hype-O-Meter

Nivel de hype: 8,5/10. Zhipu ha metido un modelo abierto que en código casi iguala a los mejores y cuesta una décima parte. No es perfecto, pero el avance desde GLM-5.1 es tan bestia que cuesta no ilusionarse — sobre todo si eres programador y tu presupuesto no es el de una FAANG.

El resumen para vagos (TL;DR)

🎯 ¿Qué ha pasado? Zhipu AI ha lanzado GLM-5.2, un modelo chino que supera a GPT-5.5 en programación.
🔥 ¿Por qué importa? Es mucho más barato que sus rivales americanos y demuestra que China pisa fuerte en código.
🤔 ¿Nos afecta o es solo un meme? Si programas, corre a probarlo; si no, es una señal de que la hegemonía de OpenAI y Anthropic ya no es intocable.