Te llama tu hijo llorando, dice que ha tenido un accidente y necesita 800 euros ya. Es su voz. Es exactamente su voz. Solo que no es él, sino una IA que lleva tres segundos de audio de un Story de Instagram y un ratito de procesamiento. Bienvenidos a la estafa de clonación de voz por IA que está vaciando cuentas de WhatsApp en cuestión de minutos.
El timo del 'familiar en apuros' lleva años circulando, pero ahora viene con esteroides. Lo que antes era un mensaje sospechoso desde un número raro pidiendo dinero ('mamá, se me ha roto el móvil, escríbeme aquí'), ahora es una nota de voz con la voz exacta de tu hija, tu hermano o tu pareja. Y al oído humano, según alertan los expertos en ciberseguridad citados por FayerWayer, le resulta prácticamente imposible distinguir la voz clonada de la real.
Cómo funciona el truco que ya está vaciando cuentas
El proceso es desesperantemente sencillo. El estafador necesita una muestra de audio de la víctima a la que va a suplantar: tres a diez segundos bastan en los modelos actuales. ¿De dónde la saca? Stories de Instagram, vídeos de TikTok, notas de voz reenviadas, audios de WhatsApp que circulan por grupos, podcasts caseros, hasta vídeos de bodas subidos a YouTube. Si tienes presencia digital, tu voz está ahí.
Con esa muestra, herramientas como ElevenLabs, Resemble o varias alternativas open-source generan una voice clone capaz de leer cualquier texto en ese mismo timbre, con esa cadencia, con esos titubeos. Hace dos años el resultado sonaba metálico. Hoy engaña incluso a familiares directos, sobre todo si la nota de voz es corta y dramática: 'mamá ayúdame, he tenido un accidente, mándame 600 euros a este Bizum'. Quien recibe ese audio no analiza, reacciona. Y ahí está el negocio.
La Oficina de Seguridad del Internauta del INCIBE lleva meses recibiendo denuncias de este patrón concreto. Ya no es un experimento, es operativa criminal a escala. Para entender el fenómeno técnico hay material extenso en la entrada de Wikipedia sobre deepfakes, que cubre desde el origen del término hasta los usos más turbios.
Por qué WhatsApp es el coladero perfecto
WhatsApp es el ecosistema ideal para el estafador por dos razones muy concretas. Una, la nota de voz es el formato rey en la app: estamos acostumbrados a recibir audios cortos, mal grabados, con ruido de fondo, y a darlos por buenos. Dos, el cifrado de extremo a extremo, que protege la privacidad legítima de los usuarios, también impide que la propia plataforma detecte audios sintéticos antes de que lleguen al destinatario.
Meta ha empezado a desplegar avisos cuando un número desconocido inicia conversación, y eso ayuda. Pero el problema gordo es otro: muchos estafadores no usan un número nuevo, sino que spoofean (suplantan) el contacto real, o consiguen acceso al WhatsApp de la víctima vía SIM swapping y mandan el audio desde el chat legítimo. Cuando llega desde 'Mamá' en tu agenda, ya has perdido el primer escudo.
El precedente que nadie quiso ver
Esto se veía venir desde 2023, cuando empezaron a circular los primeros casos en EE.UU. de padres recibiendo llamadas con la voz clonada de sus hijos pidiendo rescate. La FTC americana lanzó alertas, hubo titulares, y la conversación se diluyó. Lo que ahora vivimos en España es la fase de masificación: las herramientas son baratas, las muestras de voz están en redes y la población mayor sigue sin tener entrenamiento ninguno frente a este tipo de ataque.
El consejo de los expertos es tan simple que casi resulta humillante: cuelga, llama tú al número de siempre y verifica. Establece una palabra clave familiar para emergencias, algo que solo sepáis vosotros y que no esté en redes. Y desconfía siempre que la urgencia y el dinero aparezcan juntos en la misma frase. Los bancos pueden devolver una transferencia fraudulenta en algunos casos; un Bizum hecho 'voluntariamente' por la víctima, casi nunca. La pregunta abierta es cuánto tardarán los reguladores europeos en exigir marca de agua obligatoria en el audio sintético, algo que la AI Act de la Comisión Europea ya contempla pero aún no aterriza con plazos concretos para apps de mensajería.
Hype-O-Meter
Nivel de hype: 8,5/10. No es hype 'guay', es hype de pánico justificado: la tecnología funciona, el ataque escala y la defensa va dos pasos por detrás. Si tienes a alguien mayor en casa, esta semana toca explicarle el truco — y quedaros con una palabra clave entre vosotros.
El resumen para vagos (TL;DR)
- 🎯 ¿Qué ha pasado? Estafadores clonan voces de familiares con IA y piden dinero urgente por WhatsApp.
- 🔥 ¿Por qué importa? Tres segundos de audio de tus redes bastan para suplantarte; al oído es indistinguible.
- 🤔 ¿Nos afecta o es solo un meme? Afecta y mucho: pacta una palabra clave familiar y, ante urgencia, cuelga y llama tú.



