Google lanza DiffusionGemma, la IA que genera texto 10 veces más rápido que ChatGPT y es gratis

El modelo de DeepMind escribe bloques completos de 256 tokens en paralelo, alcanza 1.000 tokens por segundo en una GPU doméstica y es open source. Eso sí, Google avisa: para producción, mejor Gemma 4.

Juan Fernández

11 junio, 2026 09:11

Alguien en Google DeepMind ha decidido saltarse la cola de los tokens y escribir la página entera de golpe. El resultado se llama DiffusionGemma, un modelo experimental de IA que genera texto diez veces más rápido que ChatGPT — y encima es gratis y open source.

Cómo funciona exactamente (y por qué se parece más a DALL-E que a ChatGPT)

Olvida lo que sabes de los modelos de lenguaje tradicionales. GPT, Gemini y compañía generan un token tras otro, como una máquina de escribir que no puede avanzar hasta que la tecla anterior ha sonado. DiffusionGemma rompe esa cadena: en lugar de palabras sueltas, escribe bloques completos de 256 tokens de una tacada.

El truco está en un proceso de refinamiento iterativo que recuerda más a DALL-E o Midjourney que a un chatbot. Empieza con texto aleatorio —un «ruido» semántico— y lo va puliendo en varias pasadas hasta que queda coherente. Al trabajar en paralelo sobre cada bloque, la GPU no pierde el tiempo esperando: se pone a full desde el primer ciclo.

Esta arquitectura, además, activa la atención bidireccional: todos los tokens del bloque se leen entre sí a la vez. Eso abre la puerta a editar código rellenar huecos y trabajar con estructuras que no encajan en el orden secuencial. (Fíjate bien en la enumeración anterior: sí, falta una coma. Cosas que pasan en 2026.)

En números: en una GPU NVIDIA H100, DiffusionGemma alcanza 1.000 tokens por segundo, diez veces más que GPT-5.4 mini. Y si tienes una RTX 4090 o 5090 en casa, cabe en sus 18 GB de VRAM sin despeinarse.

DiffusionGemma no es una alternativa a ChatGPT, es un experimento sobre cómo querremos escribir en el futuro: más imprenta, menos máquina de escribir.

Dónde brilla (y dónde te va a decepcionar)

Google no vende humo. El propio equipo de DeepMind reconoce que DiffusionGemma prioriza velocidad sobre calidad final. Los modelos Gemma 4 estándar siguen siendo superiores para tareas de producción donde cada palabra cuenta. Aquí no se busca la precisión quirúrgica, sino la inmediatez.

¿Entonces para qué sirve? Para ediciones en tiempo real, prototipado rápido, experimentos con flujos de trabajo no lineales y, sobre todo, para trastear. Está disponible en Hugging Face bajo licencia Apache 2.0, así que puedes descargarlo y ejecutarlo localmente sin ataduras. La integración con herramientas populares (vLLM, MLX, Transformers) ya está lista y el soporte para llama.cpp llegará en breve.

En mi equipo —una RTX 4090— la sensación es de fluidez absoluta al pedirle correcciones sobre la marcha. Eso sí, como le pidas un texto con el mimo estilístico de un novelista, vas a salir frustrado. Es un sprinter, no un maratoniano.

Se veía venir: la era de los modelos que caben en tu cuarto

Que Google apueste por un modelo open source que cabe en hardware de consumo no es casualidad. La tendencia de modelos locales (Llama, Mistral, Gemma) va en serio, y DiffusionGemma suma una idea nueva: cambiar la coreografía de la inferencia para aprovechar al máximo la GPU. No es una evolución, es un giro de concepto.

Visto con perspectiva, este lanzamiento recuerda a aquellos primeros modelos de difusión para imágenes que nadie tomó en serio hasta que explotaron. DiffusionGemma no va a jubilar a ChatGPT, pero sí nos obliga a repensar cómo debe correr una IA en nuestros ordenadores. Y eso, en junio de 2026, pinta muy bien.

Hype-O-Meter

Nivel de hype: 7/10. La arquitectura es valiente, la licencia Apache 2.0 es un regalo y los 1.000 tokens/s en local son un sueño para los que odiamos esperar. No es un sustituto de Gemma 4, pero como laboratorio de ideas es puro oro — y gratis. Prueba a pedirle que te complete código mientras tomas un café; el café se enfría, la respuesta no.

El resumen para vagos (TL;DR)

🎯 ¿Qué ha pasado? Google ha presentado DiffusionGemma, un modelo de IA que genera texto por bloques de 256 tokens en lugar de palabra a palabra.
🔥 ¿Por qué importa? Es diez veces más rápido que ChatGPT, cabe en GPUs domésticas y se publica como open source.
🤔 ¿Nos afecta o es solo un meme? Afecta si te gusta trastear con IA local; para producción seria, mejor quédate con Gemma 4.

Artículo anterior

Resident Evil Veronica remake: Capcom lo reivindica como entrega principal en tercera persona

Artículo siguiente

Patrimonio Nacional saca a la luz los textiles de la Corte en la exposición 'Tejiendo la vida cortesana'