Si pensabas que tu canción favorita solo la escuchaban tus amigos en Spotify, siento decirte que también pudo servir para entrenar una IA.
El periodista Alex Reisner ha sacado a la luz cuatro datasets de música que se han usado para alimentar modelos de inteligencia artificial. Dos de ellos son monstruosos: 12 millones y 9 millones de pistas. Los otros dos, más pequeños, superan las 100.000 canciones cada uno. Y ahora, gracias a una base de datos pública y totalmente accesible que ha publicado The Atlantic, cualquier persona puede buscar si su artista favorito aparece en la lista.
Millones de canciones y ni un solo copyright pedido
Los datasets, que se han descargado miles de veces según Reisner, provienen de fuentes como el Free Music Archive, un repositorio de música libre para uso personal. Pero, como suele pasar, la letra pequeña se la pasaron por el forro. Google y Stability AI han confirmado que los usaron en sus investigaciones, aunque no son los únicos: es imposible rastrear todas las descargas.
Reisner ha creado un buscador público donde cualquier usuario puede meter el nombre de un artista y ver si su obra ha sido utilizada sin permiso. La transparencia es un primer paso, pero el daño ya está hecho.
Google y Stability AI, en el punto de mira
Ambas compañías han admitido que usaron estos conjuntos de datos en sus papers académicos, algo que, sobre el papel, es legal porque los datasets estaban disponibles públicamente. Pero la realidad es más turbia: los artistas nunca dieron su consentimiento para que su música entrenara una IA, y muchos ni siquiera saben que están ahí.
La transparencia no borra el daño ya hecho, pero al menos los artistas pueden ponerle nombre a quien usó su obra sin preguntar.
La polémica se aviva porque la industria musical, a diferencia de la visual, tiene sindicatos más fuertes y está empezando a moverse. Si los músicos se organizan, este podría ser el principio de una batalla legal larga y cara.
Esto ya lo vivimos con las imágenes, pero con música duele más
El año pasado ya hubo escándalos con bases de datos de imágenes como LAION-5B, que se usaron para entrenar generadores como Stable Diffusion. Los fotógrafos y artistas visuales denunciaron que sus obras estaban siendo utilizadas sin permiso ni compensación. La diferencia ahora es que la música es una industria con décadas de experiencia en litigios por derechos de autor, y los grandes sellos no se van a quedar de brazos cruzados.
No es solo una cuestión ética: es económica. Un dataset con 12 millones de canciones puede entrenar modelos capaces de generar música nueva que compita directamente con los humanos. Y eso, para un músico que vive de las reproducciones, es un puñal.
Hype-O-Meter
Nivel de hype: 3/10. No hay hype tecnológico que celebrar aquí. Esto es un escándalo de derechos de autor con todas las letras — y la puntuación baja refleja que lo importante no es el avance de la IA, sino el coste humano que tiene.
El resumen para vagos (TL;DR)
- 🎯 ¿Qué ha pasado? The Atlantic ha hecho pública una base de datos con millones de canciones usadas para entrenar IA.
- 🔥 ¿Por qué importa? Google y Stability AI han confirmado que las usaron sin pedir permiso a los artistas.
- 🤔 ¿Nos afecta o es solo un meme? Nos afecta de lleno: es la gota que colma el vaso de los derechos de autor en la era de la IA.



