OpenAI lanza tres modelos de voz con razonamiento en tiempo real

GPT-Realtime-2 es el más potente: razona mientras hablas, llama a herramientas y hasta finge que piensa antes de soltar una respuesta. La traducción simultánea llega para call centers y eventos en directo. Y el reconocimiento en tiempo real convierte cualquier audio en texto casi

OpenAI ha vuelto a hacer lo que mejor se le da: soltar un lanzamiento que nos deja a medio camino entre el asombro y el escalofrío. Esta vez son tres modelos de voz que razonan, traducen y transcriben mientras tú aún estás terminando de hablar, sin esperar a que te calles. Los han bautizado GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. Y sí, ya están disponibles en la API.

Lo que puede hacer esta IA con tu voz

GPT-Realtime-2 es el buque insignia. Tiene una capacidad de razonamiento comparable a GPT-5 (el modelo aún en fase experimental, por si alguien lo dudaba) y una ventana de contexto de 128.000 tokens. Para que te hagas una idea: puedes mantener una conversación larguísima —del tipo de esas llamadas eternas al soporte técnico— sin que la IA pierda el hilo. Y lo más llamativo: interrumpe con frases como “déjame verificar eso” o “un momento” mientras consulta herramientas externas. Vamos, que aprende a hacerse el interesante en lugar de soltar el típico silencio incómodo.

Además, no se limita a esperar respuestas. Si estás frustrado, sube el tono; si confirma algo, lo baja. Todo configurable entre cinco niveles de profundidad de razonamiento, desde “rápido y barato” hasta “profundo y caro”. Un fine-tuning que da un poco de vértigo.

Publicidad

El juego de las traducciones y las transcripciones

El segundo modelo, GPT-Realtime-Translate, está pensado para empresas o plataformas donde dos personas hablan idiomas distintos sin pausa. Admite más de 70 idiomas de entrada y traduce en tiempo real a 13 de salida, manteniendo el ritmo natural de quien habla. Deutsche Telekom ya lo está probando para que sus clientes se comuniquen en el idioma que les dé la gana. Imagináos una call center donde te atienden en rumano sin que nadie haya estudiado rumano.

Y el tercero es Whisper, GPT-Realtime-Whisper, que convierte audio en texto al vuelo. Sirve para subtitular eventos en directo o generar resúmenes mientras la conversación sigue. Para departamentos de atención al cliente o sanidad, por ejemplo. La latencia promete ser casi imperceptible, y eso es justo lo que pedían las apps de subtitulado que llevan años prometiendo milagros sin entregarlos.

¿Esto para qué sirve, en serio?

OpenAI ha dado un paso hacia agentes de voz realmente naturales, y eso tiene implicaciones enormes para cualquier cosa que implique hablar con una máquina. Pero ojo: la competencia no se queda quieta. Google con su Gemini y Anthropic con Claude ya trabajan en interfaces de voz similares. La ventaja temporal de OpenAI podría ser mínima si no la usan bien. Y el precio, claro: 32 dólares por millón de tokens de entrada, 64 por salida para Realtime-2. Los otros dos modelos se cobran por minuto de audio: 0,034 dólares el traductor, 0,017 el transcriptor. No es barato, pero para una empresa que mueve miles de llamadas al día puede merecer la pena.

La capa de seguridad incluida en la API, que corta conversaciones si detecta violación de políticas, es la red de seguridad que todos esperábamos. Aunque como siempre, habrá quien encuentre la forma de trolearla.

Hype-O-Meter

Nivel de hype: 8,5/10. Técnicamente es un salto interesante: razonamiento multitool en tiempo real, frases de transición y modulación emocional. Pero la viabilidad masiva dependerá de que los precios bajen y la latencia no se coma la magia. Como demo, impresiona; como producto, aún toca esperar.

El resumen para vagos (TL;DR)

  • 🎯 ¿Qué ha pasado? OpenAI ha lanzado tres modelos de voz que razonan, traducen y transcriben mientras hablas.
  • 🔥 ¿Por qué importa? Porque elimina los silencios incómodos y ajusta el tono según la emoción del usuario.
  • 🤔 ¿Nos afecta o es solo un meme? Si llamas a un soporte o ves un evento con subtítulos, te va a llegar. Y quizá ni lo notes, que es lo inquietante.