OpenAI ha filtrado GPT-Bidi-1: su IA de voz ya puede interrumpir y ser interrumpida

El modelo de voz bidireccional aparece en el código de la app de ChatGPT, según ha descubierto Android Authority. Permite interrumpir a la IA y que ella te interrumpa con coletillas tipo 'vale', como si hablaras con un amigo.

A veces la carrera por la mejor IA conversacional parece una pelea de gallos: todos cacarean, pero ninguno escucha. Eso está a punto de cambiar. En OpenAI han dejado entrever, sin querer, su próximo asalto a Google: el modelo GPT-Bidi-1, una voz que entiende que una conversación va de dos y no de soltar un discurso.

El hallazgo lo ha destapado Android Authority y lo recoge Hipertextual: el código interno de la app de ChatGPT escondía referencias a esta nueva funcionalidad. Nada de anuncios rimbombantes ni keynotes; simplemente un trozo de código que confirma que la compañía de Sam Altman lleva meses trabajando en un motor de voz bidireccional.

La gran novedad es que la IA no solo habla: también calla y presta atención. GPT-Bidi-1 podrá interrumpirte con coletillas del tipo "vale" o "entiendo" para que la conversación fluya de forma natural. Y lo mejor: cuando tú interrumpas mientras ella suelta un listado, rectificará al instante. Imagina que le pides cinco películas de terror, empieza a enumerar títulos y a medio chorro le dices "mejor que sean pelis, no series". La IA, sin inmutarse, corrige y sigue. Eso, que parece una tontería, es una revolución para los que usamos el manos libres en el coche y acabamos discutiendo con un sintetizador.

Publicidad

El otro as bajo la manga es la capacidad de entender peticiones largas sin perder el contexto. Puedes soltarle la pregunta principal y luego añadir aclaraciones o matices: la IA no se olvida de lo primero que le dijiste. En la práctica, esto acerca el diálogo a una charla con un colega que tiene memoria y no se queda colgado en la primera frase.

Este movimiento no es casual. Google lleva meses vendiendo Gemini Live como la voz más natural del mercado, integrada a la perfección en Android. Pero OpenAI apunta directo a la línea de flotación con un modelo que, sobre el papel, supera la experiencia pasiva de Gemini Live y permite una ida y vuelta inédita entre humano y máquina.

Una IA que te corta a ti y a la que puedes cortar: lo que Google etiquetó de 'revolución' en 2023 podría tener dueño nuevo.

La filtración también sugiere que GPT-Bidi-1 aterrizará dentro de una nueva superapp de ChatGPT, diseñada a imagen y semejanza de los agentes de Claude. Es decir, no será solo un modo de voz, sino el engranaje de una interfaz más ambiciosa que mezcle conversación, codificación y agentes autónomos. Por ahora, OpenAI guarda silencio oficial; ni una palabra sobre fechas, precios ni disponibilidad.

¿Deberíamos emocionarnos? Repasemos el historial: Google Duplex ya nos prometió en 2018 una IA capaz de hacer llamadas telefónicas y quedó en anécdota. Lograr una conversación con interrupciones naturales es complejísimo desde el punto de vista técnico, y ningún asistente lo ha clavado. El diablo está en los detalles: latencia, manejo de ambigüedad y cortesía algorítmica. Si OpenAI logra pulir esos bordes, Gemini Live podría quedarse obsoleto de la noche a la mañana. Si no, será otra demo brillante que en la práctica se come la batería del móvil y se lía cuando hablas con acento.

El silencio de la compañía californiana no ayuda a calibrar expectativas. OpenAI tiene la costumbre de anunciar cosas "pronto" y luego esperar meses. Pero si la referencia ya está en el código de la app, es probable que las pruebas internas estén avanzadas. Tal vez en agosto o septiembre veamos un despliegue limitado, justo cuando Google empiece a dormirse en los laureles.

Hype-O-Meter

Nivel de hype: 7/10. El concepto es justo lo que necesitamos para que hablar con una IA no sea un suplicio. Pero sin confirmación oficial ni fecha de lanzamiento, conviene mantener la ilusión bajo control. Por ahora, toda precaución es poca.

El resumen para vagos (TL;DR)

  • 🎯 ¿Qué ha pasado? Una filtración en el código de ChatGPT ha revelado GPT-Bidi-1, un modelo de voz que conversa en ambos sentidos.
  • 🔥 ¿Por qué importa? Porque podrá interrumpir y dejarse interrumpir como una persona, plantando cara a Gemini Live.
  • 🤔 ¿Nos afecta o es solo un meme? Afecta si usas el móvil para hablar con IA; es la mejora que llevábamos esperando.