La IA de Alibaba que clona tu voz en segundos y habla 10 idiomas: el nuevo rival para ChatGPT y Gemini

La nueva inteligencia de Alibaba llega con fuerza para convertirse en una gran alternativa a ChatGPT y Gemini, siendo capaz de clonar voces de personas con apenas tres segundos de audio, y con la posibilidad de reproducirla en hasta diez idiomas diferentes.

Alibaba, el gigante chino del comercio electrónico, llega para revolucionar la inteligencia artificial con sus propios modelos de IA, que son incluso capaces de clonar tu voz en segundos y hablar 10 idiomas, convirtiéndose de esta manera en un importante rival para ChatGPT y Gemini.

La compañía asiática sigue apostando fuerte por la IA, siendo consciente de los interesantes usos que se le puede dar a esta tecnología y las aplicaciones que puede llegar a tener en diferentes ámbitos. La revolución en inteligencia artificial llega de la mano de Alibaba, dispuesta a plantar cara a OpenAI y Google.

ALIBABA SE LANZA HACIA EL DOMINIO DE LA IA

La inteligencia artificial de Alibaba que imita voces humanas desafía el liderazgo de ChatGPT y Gemini
Fuente: Unsplash

Mientras ChatGPT tiene una función secreta que puede cambiar su futuro para siempre, Alibaba Group ha mostrado a través de Qwen su gran valía a lo largo del año en materia de inteligencia artificial. Entre ellos se encuentran los lanzamientos de Qwen Image, y ahora ha hecho lo propio con dos nuevos modelos de IA que son capaces de crear o clonar voces a través de prompts.

Publicidad

El modelo Qwen3-TTS-VD Flash llega para permitir que los usuarios puedan generar voces basadas en descripciones detalladas, lo que permite que se pueda definir con mayor precisión diferentes características como la emoción o el tempo a la hora de hablar.

Se pueden utilizar incluso descripciones de cómo se desea que sea esa voz, todo ello a través de prompts en los que se indiquen descripciones detalladas al máximo. Se trata de un modelo que la compañía de Alibaba asegura que supera al API de GPT-4o mini-tts de OpenAI.

LA CLONACIÓN DE VOCES DE LA IA DE ALIBABA

Tecnología de clonación de voz de Alibaba marca competencia directa con gigantes como OpenAI y Google
Fuente: Unsplash

La segunda de las IA de Alibaba que llega para revolucionar la industria es su modelo Qwen3-TTS-VC-Flash, que en este caso consigue clonar voces a partir de solo 3 segundos de audio, así como reproducirlas en 10 idiomas diferentes.

Según ha informado The Decoder, este modelo está muy afinado, hasta el punto que consigue una tasa de error inferior a otras alternativas del mercado como Elevenlabs o MiniMax. Por si esto fuera poco, es capaz de procesar textos complejos, imitar los sonidos de animales y extraer voces de grabaciones.

Ambos modelos están disponibles a través de Alibaba Cloud API. De hecho, ya se pueden probar a través de Hugging Face, tanto en el caso del modelo de creación como en el modelo de clonación de voz, y todo ello a través de una interfaz muy sencilla de utilizar.

En este último caso, para tener la voz clonada de cualquier audio de 3 segundos o más, solo habrá que seguir estos pasos en el repositorio Hugging Face:

  1. En primer lugar, se pulsa sobre "Grabar" para tomar una muestra de voz, siendo recomendable que sea de entre 10 y 30 segundos para un mejor resultado final.
  2. A continuación, se introduce el texto que se desea sintetizar con esta voz.
  3. Luego se pulsa en "Start synthesis", y una vez finalizado el proceso, el resultado final se podrá guardar o reproducir, según se desee.

UN GRAN AVANCE DE LA IA DE ALIBABA

La IA de Alibaba para síntesis de voz multilingüe promete revolucionar la comunicación global
Fuente: Unsplash

Más allá de conocer el "modo Dios" de Gemini, que te ahorra horas y mejora tu experiencia en Chrome, es importante estar al tanto de las últimas novedades del sector, donde Qwen, la IA de Alibaba, se está consolidando como uno de los estandartes de LLMs de código abierto frente a los occidentales, como ChatGPT, Gemini o Claude.

Publicidad

Después de que en Europa se hayan lanzado recientemente dos modelos como Devstral 2 y Devstrall Small 2 para permitir a los usuarios disfrutar de la experiencia de los modelos de inteligencia artificial de código abierto, es Qwen la que está irrumpiendo con más fuerza.

La gran ventaja de estos es que se pueden instalar localmente en un PC de sobremesa, siempre que cuenten con el hardware necesario, y así proteger la privacidad de todas las consultas o los datos que se suministran a la IA.

De hecho, Devstrall Small 2 se ha convertido en un modelo muy eficaz en los recursos que necesita para poder usarse en un PC de sobremesa o incluso un ordenador portátil. Además, Qwen también cuenta con modelos ligeros que hacen posible que se lleve a los PC una de las mejores capacidades que ofrece este modelo de inteligencia artificial.

Publicidad