Se considera que la ”Suite Illiac” es la primera pieza musical compuesta por una computadora electrónica. Lejaren Hiller, profesor y compositor de la Universidad de Illinois en Urbana-Champaign, programó minuciosamente Illiac I, la computadora pionera de la institución, para generar los cuatro movimientos de esta obra a partir de probabilidades algorítmicas. Eso ocurrió en 1956.
En el Laboratorio de Audio, Música e IA (AMAAI) de la Universidad de Tecnología y Diseño de Singapur estamos estudiando si los nuevos modelos de IA diseñados para detectar similitudes entre piezas musicales podrían revelar nuevas formas de distribuir las regalías. Ante un panorama musical cada vez más dominado por la IA, esta investigación podría ayudar a transformar la forma en que se compensa a los creadores.
Hoy en día, con el aumento de la potencia computacional y la tecnología de la IA generativa, se puede generar música en el navegador web tan solo con indicaciones de texto, y todo ello en cuestión de segundos. Los nuevos modelos de IA generativa, como Suno y Udio, pueden generar piezas impresionantes, con melodías, armonías y ritmos refinados, así como timbres con maestría profesional. Ahora bien, a diferencia de Illiac I, estos modelos se entrenan con música previamente escrita por manos humanas.
Por consiguiente, esta nueva capacidad de generar música viable desde el punto de vista comercial nos obliga a replantearnos el modo en que la industria protege y remunera a los artistas.
Cómo se crea música mediante IA
Las redes de aprendizaje profundo se basan en una idea similar. Las redes neuronales artificiales se inspiran en la biología humana, en particular en la teoría del conexionismo, que postula que el conocimiento surge del fortalecimiento de las conexiones (sinapsis) entre las unidades de procesamiento del cerebro (neuronas).
Durante su entrenamiento, las redes neuronales artificiales se alimentan con miles de piezas musicales. No almacenan estas piezas, sino que aprenden la relación estadística entre sus elementos musicales, del mismo modo que nuestro cerebro aprende patrones por exposición.
Tras el entrenamiento, lo que queda no es una base de datos de canciones, sino un conjunto de parámetros ponderados (pesos) que codifican las vías estadísticas necesarias para dar forma a la estructura musical. Estos pesos pueden interpretarse como la fuerza de las sinapsis en el cerebro. Cuando llega el momento de generar música, la red realiza una inferencia. Dada una entrada, a menudo un texto con instrucciones, toma muestras de la distribución estadística aprendida para producir nuevas secuencias.
Sin embargo, estos conjuntos de pesos pueden contener miles de millones de parámetros, lo que los convierte en una especie de caja negra (un sistema de IA cuyo funcionamiento interno es opaco) difícil de interpretar. En un intento por comprender mejor estas redes, los investigadores han desarrollado nuevas técnicas como las explicaciones aditivas de Shapley (SHAP) y la propagación de relevancia por capas (LRP), si bien la comprensión de estas complejas redes sigue siendo limitada.
Generador de música de IA ética a partir de texto
Esta falta de entendimiento desemboca en otro problema, el de la falta de transparencia de los sistemas comerciales. En el Laboratorio de Audio, Música e IA hemos creado Mustango, un modelo de conversión de texto en música controlable y de código abierto, como MusicGen de Meta. Pero, a diferencia del modelo de Meta, Mustango ha sido entrenado exclusivamente con datos de Creative Commons.
Al igual que sucedió con la revolución desencadenada por el iPod y la transmisión de música en continuo, la actual revolución de la IA, posiblemente mayor y más compleja, está obligando a la industria musical a adaptarse rápidamente. Al hacerlo, debemos pensar en tecnologías que puedan ayudarnos a facilitar la transparencia y las prácticas de entrenamiento éticas.