GPT-5.5 reina en el ranking modelos IA 2026: así quedan Claude, Gemini y Grok

La clasificación más reñida de la historia de la inteligencia artificial acaba de actualizarse y el ganador se ha llevado la corona por un solo punto. Un miserable punto Elo que separa a GPT-5.5 de sus perseguidores. Así está el patio en mayo de 2026: cuatro gigantes apretadísimos en el Chatbot Arena+ de LMSYS, y una sensación de que cualquier descuido te deja fuera del podio.

OpenAI vuelve a liderar gracias a GPT-5.5-high, con 1506 puntos Elo globales, pero ni siquiera puede relajarse: Claude Opus 4.7 Thinking y Gemini 3.1 Pro empatan a 1505 puntos, y el cuarto clasificado, Claude Opus 4.7, se queda en 1503. Como en un final de etapa contrarreloj, las diferencias son de segundos. El ranking lo actualiza OpenLM.ai en su plataforma colaborativa de benchmarks, que combina millones de votos humanos con pruebas técnicas brutales como AAII v3, MMLU-Pro y el diabólico ARC-AGI v2.

La foto finish: cómo queda el top 5 (y por qué es histórico)

El sistema Elo Arena se nutre de más de 6 millones de preferencias de usuarios y las cruza con métricas técnicas estandarizadas. La mayoría de los votos proviene de sesiones en las que dos modelos anónimos se enfrentan y un humano elige al mejor. Este es el top 5 mundial según los datos de mayo:

GPT-5.5-high (OpenAI): 1506 puntos Elo, con un rendimiento especialmente alto en codificación (1562) y una puntuación de 85 en ARC-AGI v2, la más alta entre los primeros.
Claude Opus 4.7 Thinking (Anthropic): 1505 puntos, empate virtual con Gemini pero liderando en codificación pura con 1565 puntos.
Gemini-3.1-Pro (Google): 1505 puntos, caído desde el primer puesto de la anterior actualización, pero manteniendo un equilibrio notable en todas las pruebas.
Claude Opus 4.7 (Anthropic): 1503 puntos, la versión no-Thinking que se descuelga ligeramente en razonamiento abstracto.
Claude Opus 4.6 Thinking: 1503 puntos, el veterano de la familia que demuestra que Anthropic tiene una baraja muy amplia.

La sorpresa no es tanto quién gana, sino el margen. Una diferencia de menos de 2 puntos entre los cuatro primeros es el equivalente a un empate técnico con la moneda en el aire.

Claude Opus 4.7 Thinking: el especialista que no lidera pero arrasa en código

Anthropic puede presumir: su modelo Thinking saca la puntuación más alta en codificación de todo el top 5, con 1565 puntos. Un dato que, en la práctica, significa que si eres desarrollador y necesitas que una IA te ayude con un script complejo, probablemente prefieras esta bestia a cualquier otra. Además, Claude Opus 4.7 Thinking también destaca en MMLU-Pro (90 % de acierto), empatando con Gemini 3.1 Pro y dejando atrás a GPT-5.5 en esa prueba específica.

La estrategia de cada laboratorio se empieza a leer con claridad: OpenAI apuesta por la versatilidad y el rendimiento general, Anthropic por el razonamiento profundo y la precisión en entornos técnicos, Google por la comprensión multidisciplinar, y xAI por el contexto conversacional. Grok 4.20, de hecho, gana terreno en interacciones donde la chispa humana importa más que los benchmarks académicos. Eso sí, se queda fuera del top 5 porque las pruebas estandarizadas no miden el carisma.

China mira de lejos: el cepo al silicio les pasa factura

Los modelos chinos que hace meses parecían imparables —ERNIE-5.1 de Baidu, GLM-5.1, DeepSeek-V4-Pro— se han quedado fuera del top 5 y arañan puntuaciones significativamente más bajas (el mejor de ellos, 1475 puntos Elo, a más de 30 puntos de la cabeza). La razón no es un misterio: las restricciones a la exportación de chips de alto rendimiento impuestas por Estados Unidos les están cortando las alas. Mientras OpenAI y Anthropic entrenan con hardware de última generación, los laboratorios chinos hacen malabares con recursos limitados.

El resultado es una brecha que, aunque se va estrechando, todavía les mantiene a un par de iteraciones de distancia. Pero esto no es una carrera de velocidad, sino de resistencia. El dato clave es que la distancia entre el primer clasificado y los modelos chinos es la menor desde que existen estos benchmarks. Si las restricciones se suavizan o Pekín encuentra la manera de esquivarlas, la foto de dentro de seis meses podría ser muy distinta.

Hype-O-Meter

Nivel de hype: 7,5/10. Ver un top 5 con diferencias de un solo punto Elo entre los tres primeros es el sueño húmedo de cualquier analista. La madurez de los modelos es evidente, pero el margen para la sorpresa sigue intacto: nadie puede dormirse.

El resumen para vagos (TL;DR)

🎯 ¿Qué ha pasado? GPT-5.5 ha vuelto al número uno del Chatbot Arena+ con solo un punto de ventaja sobre Claude y Gemini.
🔥 ¿Por qué importa? Es la clasificación más apretada de la historia y confirma que ningún gigante puede relajarse.
🤔 ¿Nos afecta o es solo un meme? Afecta a cualquiera que use asistentes de IA: en unos meses tu herramienta favorita puede cambiar si el líder tropieza.