¡La Generación de MÚSICA y VOZ con IA ya está aquí! (Google MusicLM)

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

results.

Mention graph

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Hoy vamos con un vídeo sencillito, pero muy interesante.
Hoy vamos a hablar de Music LM, un nuevo trabajo que ha salido esta semana pasada
por parte de Google y que básicamente lo que nos proponen es un generador de música a partir de texto.
Ya sabéis que con toda esta tendencia que han abierto modelos como Stable Diffusion
o Dali 2 de poder generar imágenes a partir de texto,
pues ya sabéis que el campo del Machine Learning se ha puesto a las pilas
para intentar crear cualquier contenido digital a través de un input de texto.
Y en ese sentido, la generación musical siempre se ha mantenido como algo que va a acabar llegando,
pero que todavía no vemos resultados que estén tan perfeccionados.
Hemos visto en los pasados meses cómo han salido proyectos como Mubert,
cómo ha salido Reef Fusion y ahora pues tenemos este nuevo trabajo de Google que vemos aquí.
Imaginad, por ejemplo, que para un videojuego arcade, pues tú necesitas crear una banda sonora
que tenga un ritmo acelerado, que sea rítmico, que sea atractivo, que tenga un riff de guitarra,
una música repetitiva, fácil de recordar, pero con sonidos inesperados.
Y bueno, con golpes de platillos o de batería.
Entonces tú se lo das a la Inteligencia Artificial y ella te genera esto.
Vale, vale, vale, vale, vale.
Lo puedo ver, puedo ver ese videojuego arcade desarrollándose la pantalla, pero no.
Ahora lo que quieres es una fusión de reguetón con música electrónica,
con una atmósfera espacial, con sonidos de otro mundo
que te induce a la experiencia de sentirte que estás perdido en el espacio.
Y entonces se lo das a la Inteligencia Artificial y ella te genera.
Eso empieza a ser impresionante porque ya no es solo que la música esté bien,
ya no suena tan mal, no tiene artefactos sonoros que molesten,
sino que además puedes reconocer gran parte de la información
que le has pedido a través del prompt.
Es decir, hay una mejor relación entre el contenido generado y el prompt suministrado.
Pero bueno, oye que no, que a lo mejor lo que quieres es una melodía más meditativa,
más calmada, que tenga sonidos de flautas, de guitarras, donde la música se alenta.
Y entonces la Inteligencia Artificial pues te da esto.
Bastante impresionante.
Y un ejemplo más, pero más complicado.
Este ejemplo de aquí nos habla de música hip hop,
pero donde hay un vocalista masculino rapeando y una vocalista femenina cantando en forma de rap.
Bueno, con un montón de criterios que se están poniendo dentro del prompt y esto suena tal que así.
Ahí están los elementos y se pueden escuchar.
Esto es bastante impresionante y quizás la gente esté pensando,
bueno, generar música ya de por sí es bastante interesante,
el poder tener una melodía que funcione, donde los ritmos se vayan cumpliendo.
Pero esto ya va a otro nivel, el poder generar incluso la voz masculina o la voz femenina cantando.
Y esto es cierto, excepto porque este trabajo pues tampoco es nuevo.
Este trabajo Music LM está apoyado en un trabajo anterior que se llamaba Audio LM.
Este proyecto Audio LM está basado en la misma idea que Music LM.
De hecho, pertenece al mismo equipo de Google Research
y es la idea de convertir este proceso de generación musical o generación de audio
en algo similar a cómo actúan los modelos del lenguaje como GPT-3 que todos estamos utilizando hoy.
De hecho, Audio LM significa Language Model, modelo del lenguaje.
Y la verdad que no sé por qué este proyecto se me pasó por alto,
porque los resultados son bastante impresionantes.
Vais a escuchar aquí cómo consiguen generar una continuación del habla.
En este caso estamos hablando no de generación musical, sino generación del habla,
donde la consistencia, la voz de la persona, la pronunciación, la atmósfera, todo,
parece que está perfectamente modelado y la continuación pues casi es imperceptible.
Por ejemplo, para este audio de input,
la IA consigue continuarlo de esta manera.
O, por ejemplo, de esta otra manera.
Es perfecto. Esto ya podría ser clonación de voz.
Podemos escuchar otros ejemplos. Vamos a ver, por ejemplo, aquí.
Es perfecto. Esto ya podría ser clonación de voz.
Podemos escuchar otros ejemplos. Vamos a ver, por ejemplo, aquí.
Pues vamos a ver cómo lo continúa la IA.
Otro ejemplo.
Y lo impresionante de este trabajo de audio LM, recordemos, octubre de 2022,
es que no solo se preserva la identidad del que está hablando,
su sodia, su acento, toda la atmósfera de grabación,
sino que además el contenido que la IA está generando,
es decir, lo que decide hablar, cómo decide continuar esa frase,
también es algo que está siendo modelado por la IA.
Aquí no estás eligiendo un prompt inicial y que lo esté leyendo,
no es un texto speech, sino que en este caso está generando,
está continuando la onda de voz de la forma más coherente,
incluso con un contenido que es semánticamente razonable.
Y claro, en este proyecto de audio LM, si nos vamos al final, evidentemente,
pues quisieron probarlo no solo con ondas de audio del habla de una persona,
sino también con, oye, instrumentos musicales,
¿podrá continuar una melodía de piano de forma coherente y que tenga sentido?
Pues vamos a verlo.
Este sería el prompt.
Y este sería el resultado.
Y con estos resultados, pues era normal que el equipo de audio LM
siguiera avanzando hacia una herramienta que todos estamos esperando,
que es musical LM, esta idea de meter un prompt y que se pueda generar una melodía,
una canción con todos aquellos criterios que nosotros hayamos establecido.
Hemos visto que los resultados son bastante buenos.
Podemos meter un prompt lo complejo que queramos y se va a respetar
la mayoría de instrucciones que le facilitemos.
Pero vais a ver que hay muchos más usos de esta tecnología.
Por ejemplo, generación de contenido de larga duración.
Ya sabes que estos modelos autoregresivos que van generando tokens
en base a los tokens anterior, uno de los grandes limitantes que tienes
que bueno, pues tú vas generando una serie de tokens y llegados a un punto,
la ventana de contexto de estos modelos empieza a dejar atrás
los primeros tokens generados.
Esto lo que hace es que el modelo
pues vaya olvidándose, por así decirlo, de la estructura
de lo que generó inicialmente.
Esto en chat GPT o en GPT-3 os habrá pasado que cuando tienes una conversación
demasiado larga, ya el modelo no recuerda cuáles fueron las primeras
los primeros prompts, las primeras partes de la conversación.
Se va olvidando de esta información.
Esto en la parte de la música es incluso más importante, porque podrías
tener una canción donde la estructura inicial y la estructura final
fueran completamente diferentes, lo cual no suele ser habitual
en este tipo de contenido.
Este modelo consigue generar tokens para diferentes criterios,
pues tokens semánticos, tokens acústicos que van manteniendo la estructura
tanto en el corto como en el largo plazo,
permitiéndote generar contenido de larga duración como esta que veis aquí.
También esta tecnología te permite insertar una secuencia de prompts
donde tú puedas decir oye, quiero que los primeros 15 segundos
pues sea tiempo de meditar los siguientes 15 segundos, que sea tiempo de despertarse,
luego de correr, luego de tal.
Entonces tú puedes tener una generación que sea coherente,
pero donde el estilo vaya variando según el prompt que tú hayas insertado.
Esto se escucharía de la siguiente forma.
Esto sería el tiempo de meditar ahora y fijaos ahora cómo cambia
cuando llega el segundo 15.
Sí, sí, el tiempo de despertar.
Ahora el tiempo de correr.
Un poco desafinado y no lo vamos a enfrentar.
El tiempo de correr al 100% y fijaos que pasada la transición que he ido haciendo
en base a los pocos prompts que nosotros hemos insertado como input.
Vamos a escuchar la transición.
A que cambiaría?
Ahora pasaríamos a fuego.
Fuego artificiales.
Esto es super interesante porque me recuerda un vídeo de Jaime Altozano
donde él hablaba de la dificultad que tienen los juegos procedurales
como el Minecraft a la hora de desarrollar sus melodías,
del difícil problema de ingeniería que es que en función de tu gameplay,
si tú estás minando tranquilamente en la mina buscando diamantes
y de repente te aparece una araña,
pues cómo la música se tiene que adaptar a cada circunstancia.
Claro, yo ahora me imagino que estas herramientas te van a permitir
tener música procedural en el juego que se vaya adaptando a lo que tú estás haciendo.
Y si de repente aparece una araña,
pues toda esta melodía generada que tiene una serie de instrumentos,
una serie de elementos comunes,
pues se va a ir adaptando a exactamente la circunstancia de lo que ocurre.
Y eso va a ser impresionante.
Y si ya eso es impresionante,
si seguimos avanzando en los resultados que nos muestran,
pues vemos una cosa más interesante aún todavía
y es esta idea de poder condicionar no solo al prompt de texto que le facilitamos,
sino también poder tener un control de lo que se genera en base a otro audio.
Esto es similar a los sistemas de generación de imágenes,
donde en base a una imagen y el texto puedes condicionar que quieres generar.
En este caso sería similar.
Vamos a escuchar, por ejemplo,
lo que sería una persona tatareando la canción de Bella Ciao.
Vale, perfecto.
Este sería nuestro input.
Y cuando combinamos ese input de audio con el prompt,
pues, por ejemplo, ópera.
Tú sabes también que da la estrada, está bien estrada, está bien estrada.
Vale, vale, ha desafinado un poco.
Vamos a pasar, por ejemplo, a un solo de guitarra.
O un coro a capela.
O un cuarteto de cuerda.
Ole, es impresionante y no es nuevo.
Vale, ya existían proyectos que hacían esta idea de transferencia de tono,
que es como se le llama a este efecto donde estás manteniendo la melodía,
pero estás cambiando el tono de lo que se escucha.
Pero ver todo esto integrado en un mismo modelo que te permite tanto generar
música a partir del prompt como a partir de un audio,
pues es verdaderamente impresionante.
Vamos a escuchar otro ejemplo.
Ahora vete silbido, no?
Vamos a escucharlo ahora con sonidos tribales y flautas.
Y los resultados son bastante buenos.
No vamos a decir que son perfectos porque no lo son,
pero creo que estamos muy cerca y creo que 2023 va a ser ese año.
Y cuando eso ocurra, pues vamos a tener herramientas super extrañas y super raras.
Vamos a ver posibilidades nuevas, proyectos artísticos,
nueva forma de expresarse de la misma forma que lo hemos visto
con otras herramientas que ya han llegado.
Proyectos como este, no?
Tú puedes coger, por ejemplo, un cuadro famoso,
sacar una descripción de ese cuadro, ya sea de la Wikipedia
o puedes incluso usar otra inteligencia artificial
para que te genere esta descripción, por ejemplo, a Blip.
Y en función de lo que esa descripción de ese cuadro
le evoca a la inteligencia artificial,
pues va a ir generando diferentes melodías, no?
Entonces es como un proyecto artístico muy chulo,
una idea muy interesante de este proyecto,
donde puedes escuchar, por ejemplo,
la persistencia de la memoria de Salvador Dalí.
Sonaría así.
O por ejemplo, cómo sonaría la descripción del cuadro
de dance de Matisse, no? Vamos a ver.
Puedo verlo, puedo ver el movimiento incluso en el cuadro
con esta música.
O la noche estrellada de Van Gogh.
Sé que me repito, pero es increíble.
Si queréis escuchar el resto de cuadros,
escuchar el resto de cuadros,
si queréis escuchar el resto de cuadros,
tenéis el link abajo de esta página,
donde están todos los ejemplos que os estoy mostrando
y muchos más.
Y esto me va a parecer también muy interesante
cómo podemos condicionar la calidad de los resultados
según la experiencia del músico que lo interpreta
en base a cómo lo condicionamos en el prompt.
Podemos escuchar a una persona que toca el piano
a nivel beginner.
Bueno, ni tan beginner.
Y podemos escuchar, por ejemplo, un profesional piano player
que se ha hecho el curso de Music Hack de Jaime.
Podemos condicionar a lugares,
pues cómo sonaría escapar de una prisión.
O en la ópera.
Una ópera un poco extraña.
O condicionar por épocas,
pues cómo sonaría la música de los ochenta.
Frente a la música de los cincuenta.
Y de nuevo, no es perfecto, pero estamos avanzando.
De hecho, en el propio paper,
que os voy a dejar abajo también referencia a dos,
en la parte final hay una gráfica
que me parece muy interesante, esta de aquí,
donde podemos ver cómo se van comparando
los diferentes sistemas que han salido los últimos meses.
Pues hemos dicho Mubert, Refusion y Music LM
como en base a una evaluación humana,
es decir, por una persona que escucha las canciones
generadas por dos sistemas diferentes,
por ejemplo, Music LM y por Refusion.
Y se le pregunta, oye,
cuál se acerca más al prompt que hemos introducido, ¿no?
Podemos ver como en la mayoría de casos
la gente prefirió Music LM
frente a los otros sistemas generadores de música, ¿no?
Un setenta y cinco por ciento de las veces la gente eligió
pues la herramienta que estamos viendo hoy
frente a Refusion, que es una herramienta de hace un mes y medio
y un ochenta por ciento de veces sobre Mubert,
que es una herramienta de hace tres meses.
Es decir, se está avanzando muy rápido.
Y bueno, si os estáis preguntando qué es esto de Music Caps
que está aquí, que parece que gana los tres sistemas,
incluido a Music LM, no es ningún modelo generador de música,
es básicamente el dataset que han utilizado y por tanto,
pues la cercanía entre la música y el prompt
pues va a ser mucho mayor porque es el propio dataset.
Este dataset además lo han liberado.
Este dataset está disponible ya en Hugging Face,
así que si tenéis una tarde libre y un montón de GPUs,
pues podéis empezar por aquí.
¿Por qué? Porque si no, no habrá otra forma de que podáis utilizar
a un sistema como Music LM.
Y es que como nos tiene acostumbrados Google,
tal y como indican en el paper,
pues no tienen pensado hacer público a este modelo.
Por suerte, amigos, como digo, esto avanza muy rápido.
Y desde la semana pasada que salió este sistema hasta hoy,
pues ya han salido otros cuantos anuncios de modelos
que parecen tener un rendimiento similar
y que en estos casos, pues sí serán open source.
Y ya está, chicos, chicas, no tenía más que traeros,
más que este esta información,
estos resultados que son impresionantes
que a partir de la semana que viene vamos a estar haciendo directos
semanales en el canal de YouTube donde vamos a estar cubriendo
pues parte de esta actualidad que va sucediendo.
Vamos a ir hablando de los modelos que salen,
vamos a ir discutiendo diferentes papers y todo esto
pues se complementará perfectamente con el contenido habitual
del canal de DotsCV, vídeos más producidos,
vídeos más técnicos que seguirán llegando al ritmo al que estamos
ahora, que es bastante bueno.
Semana tras semana nuevo contenido y la semana que viene con un tema
que me habéis pedido mucho y que por fin vamos a empezar a explorar.
Modelos de difusión.
Ea, con ese spoiler ya os dejo tenéis un par de vídeos por aquí
que podéis ojear que son interesantes
y nos vemos con más inteligencia artificial aquí en DotsCV.