logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Seguramente habrás visto alguno de estos vídeos en redes sociales durante las últimas semanas.
Vídeos donde podemos ver cómo las imágenes que hace un año nos sorprendían cuando las generábamos
con Stable Diffusion y mucha paciencia, ahora pasan a ser generadas casi instantáneamente,
transformándose delante de tus ojos cuando varías el prompt o dibujas en un canvas o conectas con
tus aplicaciones favoritas, ya sea Photoshop, Blender, lo que sea. Y esto, una vez más, es un avance
espectacular. Pero como creo que para no todo el mundo es tan evidente el por qué y lo que podría
implicar a futuro, he querido preparar este vídeo de hoy. Porque creedme, cada día vemos avances en
inteligencia artificial que son impresionantes.
Pero de lo que vamos a hablar hoy supone un antes y un después en el mundo de la
IA generativa. Hablamos de la llegada de la interactividad.
Y para entender la importancia de lo que está ocurriendo, tenemos que echar la vista atrás.
No, más atrás. No, no, más atrás. Vámonos a las primeras décadas de la computación moderna.
Fijaos. En un inicio, los computadores no se parecían tanto a los sistemas que tenemos ahora.
Su limitada memoria, capacidad de cómputo o arquitectura solo permitía a estos sistemas
poder ejecutarse en lotes de instrucciones. Una única tarea ejecutada al mismo tiempo. Es decir,
si el ordenador estaba ocupado haciendo cálculos sobre una serie de datos, no era hasta que terminaba
su tarea que podía pasar a la siguiente. Pero con el paso de los años, esto se fue acelerando.
Y cada vez más y más, los ordenadores eran capaces de ejecutar tareas a mayor velocidad.
Incluso permitiendo en algunos casos el asignar tiempo de computación a diferentes tareas.
Primero dedicabas recursos a una tarea, luego a otra, luego a otra. Y claro, cuando la velocidad
de ejecución de los procesadores aceleró más y más, el resultado de cara al usuario final era
que estas tareas se estaban ejecutando simultáneamente. Entrábamos entonces en la época de los
ordenadores multitarea. Los avances en hardware y software fueron dando forma al concepto de
computación moderna. Y simplificando bastante, podemos decir que el aumento de la velocidad de
procesamiento permitió la llegada de los sistemas en tiempo real, que permitían al usuario ejecutar
varias tareas al mismo tiempo e interactuar con el ordenador de forma más orgánica. Y aparecieron
las interfaces gráficas, las ventanas, los ratones y el resto es historia.
La multitarea mejoró significativamente lo que estos sistemas podían aportar en términos de
productividad y usabilidad hasta convertirse en los ordenadores que utilizamos hoy en día. Y fijaos
como una de las claves para que esto ocurriera, pues tiene que ver con la reducción del tiempo de
procesamiento por debajo del umbral del tiempo real. Esto es muy importante. Y podemos encontrar
ejemplos más actuales. Muchos de vosotros, muchachos jóvenes, no os acordaréis, pero hubo una época en
internet donde ver una imagen en una página web era un proceso lento, limitado por tu módem de 56k.
La nostalgia. Pero cuando la tecnología siguió progresando, vivimos una evolución de internet
donde las imágenes se descargaban instantáneamente, luego los vídeos y luego nació en internet un lugar
donde todo este contenido multimedia encontró su espacio, las redes sociales. Para continuar su evolución
hasta el punto actual, donde podemos emitir miles y millones de imágenes por streaming en tiempo real,
para que tu creador de contenido favorito en un lugar del mundo pueda interactuar con sus millones
de usuarios en el resto del planeta. En resumen, lo que quiero que entendamos es que con determinadas
tecnologías, cuando las vamos mejorando, optimizando, evolucionando, pues podemos llegar a un punto donde,
por ejemplo, reduciendo sus tiempos de procesamiento, acabamos traspasando un umbral donde sus
capacidades, pues cambian por completo. Y cambian habilitando posibilidades nuevas y amplificando
el impacto que esta tecnología puede producir en órdenes de magnitud. Y amigos y amigas,
este es el umbral que estamos empezando a traspasar con la inteligencia artificial generativa.
Volvamos al presente. El presente es raro. Y es raro porque hemos asumido como normal que si
tú le escribes unas palabras a una inteligencia artificial, ésta te puede crear sin mayor problema
una imagen en respuesta a tu petición. Sí, en el presente la inteligencia artificial es capaz de
generar cualquier imagen. Y si esto se ha logrado ahora, en estos años, ha sido gracias al descubrimiento
reciente de un nuevo tipo de modelo que funciona detrás de mucha de esta guía generativa. Los modelos de
difusión. Los modelos de difusión llegaron para destronar a las antiguas redes generativas adversarias.
¿La recordáis? Y es que ya en 2019 contábamos con ideas espectaculares capaces de generar imágenes con
esta calidad. Podías generar caras de personas que no existen, o de pájaros, o flores, y además eran
rápidas. Tan rápidas que no era muy complicado usando a estas GANs generar animaciones como estas,
que te permitían explorar el espacio latente de estas redes generativas creando estas psicodélicas
animaciones. The old good times. Pero la pregunta está en el aire. Si las GANs eran tan rápidas y
daban esta calidad, ¿por qué se dejaron de utilizar? Buena pregunta amigo mío. Pues la respuesta la
encontramos en la diversidad. Mirad, para que lo entendáis fácil. Si situamos en un gráfico las tres
técnicas generativas más populares, nos encontramos con lo siguiente. Un triángulo. Un triángulo donde
vemos como las GANs, sí, son muy rápidas y producen resultados de alta calidad, pero con la limitación
de su falta de diversidad. Y es que las GANs, si recordáis, pues sí, eran muy buenas, por ejemplo,
generando caras. Pero los resultados generados por estos modelos carecían de una gran diversidad. Sí,
podían hacer caras de distintos tipos, pero quizás no con tanta diversidad en el uso de perspectivas,
lentes, iluminaciones y ni hablar de cualquier otra cosa que se aleje del contenido del dataset
original. Caras. En cambio, los modelos de difusión sí nos ofrece esto. La capacidad de poder aprender
una mayor diversidad de patrones, de aspectos, de detalles del dataset que estamos utilizando para su
entrenamiento. Y de ahí hemos pasado de redes generativas en 2019 que solo eran capaces de generar
caras, porque las entrenábamos solo con caras, a modelos de difusión entrenados con todas las
imágenes de Internet capaces de generar cualquier cosa. Y esa diversidad y capacidad de combinar y
fusionar conceptos como nunca antes habíamos visto, sumado a la alta calidad que ofrecen los
modelos de difusión, es lo que caracterizan a toda la revolución de la IA generativa.
Diversidad y calidad. Este es el punto fuerte de los modelos de difusión. Pero claro, entonces,
¿cuál es su talón de Aquiles? Pues aquí lo tenéis. Los modelos de difusión son lentos.
Y es que internamente, pues lo que está sucediendo es lo siguiente. En un modelo de difusión, una vez
está entrenado, para generar una imagen, pues partimos de una imagen como esta. Puro ruido. E
iteración tras iteración, el proceso de difusión irá limpiando este ruido para ir generando en cada paso
una imagen más visible, hasta acabar con un resultado donde la imagen, perfectamente limpia,
esté generada. Este proceso se contabiliza en pasos, o en inglés, steps. Y cada uno de estos pasos
vendría a representar, pues, este proceso en el que el modelo está limpiando el ruido que nos va
acercando poco a poco a la imagen final que queremos generar, a nuestra imagen. Este es el típico valor que
tú configuras cuando trabajas con estas herramientas. Y dependerá del número de pasos que tu imagen al
final, pues tenga más o menos detalle. Fijaos, esto sería una misma imagen para 5, 15, 25 y 35 steps. Y claro,
como es de esperar a mayor número de pasos, también es mayor el tiempo de generación. Con lo cual, lo que
tenemos es que para que un modelo como Stable Diffusion nos pueda generar una imagen decente, pues
tendremos que ejecutar este modelo entre 20 y 30 steps, lo cual se podría traducir, dependiendo del
hardware, en unos 10, 20 segundos. Y por esto que no nos encontremos con tanta frecuencia animaciones
locas como veíamos en 2018 con las redes generativas adversarias creadas, en este caso, con modelos de
difusión. Pero, ¿y si te dijera que el triángulo se ha roto? Colocando ahora los modelos de difusión en
un punto imbatible donde calidad de imagen, diversidad de los resultados y tiempo de inferencia
ya no son un problema. El punto en el que esta tecnología traspasa un nuevo umbral.
El éxito de lo que estamos viviendo se explica principalmente por tres papers. El primero es de
mayo de este año. Un paper de OpenAI firmado por varios investigadores e Ilia Schutzkeberg.
¿De qué me suena este nombre? Da igual. Y es que aquí lo que importa es que con este paper
vimos la aparición de la idea de los Consistency Models. Pues este paper lo que presenta es una
nueva técnica que permite coger a uno de estos modelos de difusión que requieren de varios pasos
para generar una imagen y reentrenarlo para cumplir un nuevo requisito que como resultado nos da una
propiedad muy, muy valiosa. Ojito, que el modelo pueda generar una imagen en un único step. Lo que
oyes, donde antes necesitabas un montón de pasos con su coste computacional asociado para generar una
imagen, ahora esta nueva técnica te permite saltártelos para alcanzar un resultado similar,
reduciendo drásticamente los tiempos necesarios por cada generación. Suena bien. Luego tenemos este
segundo paper de octubre de este año, que trasladó esta idea presentada por OpenAI pero al mundo de
los modelos de difusión latentes. Y es que tenéis que saber que modelos como Stable Diffusion realmente
no hacen este proceso de difusión decodificando imágenes con ruido. No, sino que realmente lo que
hacen es esta misma idea pero trabajando dentro del espacio latente. Haciendo esto mismo pero con la
representación en forma de vectores. Vectores mucho más ligeros que en cualquier momento podemos
decodificar a la imagen que representan. Y esto es lo que nos permitió poder trabajar con modelos
como Stable Diffusion de una forma tan ágil, porque si recordáis hace cosa de un año y medio pues todos
nosotros creíamos que un modelo de difusión de este tipo pues sólo lo podían ejecutar enormes
ordenadores dentro de empresas como OpenAI. Stable Diffusion dijo, hey, esto se puede hacer de una
forma diferente. Y esto se consiguió con esta idea de modelo de difusión latente, en inglés LDM,
Latent Diffusion Models. Pues justamente este segundo paper que estamos comentando lo que hace
es traer esta idea de los Consistency Models, estos modelos nuevos tan eficientes, con esta idea de los
Latent Diffusion Models, trayendo así los Latent Consistency Models. Madre mía, qué paranoia de siglas.
Vamos con más. Y es que nos queda un tercer y último paper que lo que hace es incorporar a esta
innovación el concepto de LoRa. Y es que como ya sabéis muchos, los LoRa son técnicas que nos permiten crear
adaptadores muy muy ligeros que dotan a nuestros modelos de nuevas propiedades. A lo mejor ha
descargado de internet un LoRa Pixel Art que puedes acoplar a tu modelo Stable Diffusion para que ahora
te pueda generar espectaculares imágenes en Pixel Art. O a lo mejor ahora puedes descargarte uno que haga
que tu modelo funcione mucho más rápido. El LoRa LCM que este paper ha puesto sobre la mesa. Pero que no te
confundan tantas siglas extrañas ni tantas palabras complejas, a menos que sea lo que te interesa. Si
es así te voy a dejar abajo en la bibliografía los tres artículos por si quieres profundizar. Pero para
el resto de mortales lo que quiero que entendáis es el punto en el que nos encontramos ahora. Y lo que
esto pone encima de la mesa son herramientas. Herramientas capaces de generar contenido con
inteligencia artificial ahora por debajo del segundo. Y la primera integración en ganar bastante
popularidad fue la que vimos hace un par de semanas con la aparición de CreaAI. Herramienta que de
hecho pudimos probar y disfrutar en este canal en directo charlando junto a uno de sus fundadores.
Y probando esta herramienta te das cuenta inmediatamente. El feedback directo que te da
la IA potenciada por la técnica LCM cambia por completo la forma de trabajar con estas herramientas.
Y es que es alucinante poder explorar el comportamiento que tiene cada una de las palabras
que escribes en el prompt. O entender cómo varía el resultado según vas pintando o jugando con los
elementos en el lienzo. O ver incluso como ciertas limitaciones que se le asumían a este tipo de
modelos generativos como era la falta de comprensión cuando le pedías quiere una esfera azul sobre un
cubo rojo que muchas veces fallaban. Pues ahora pasan a un segundo plano porque ahora solo tienes que
pedirle a la IA que quieres una esfera azul un cubo rojo y luego mover los elementos en tiempo real
hasta alcanzar la composición deseada. Y claro, cuando usuarios de todo internet empiezan a conocer
y a jugar con estas herramientas empezamos a ver un montón de resultados impresionantes.
Y la llegada de la interactividad también invita a repensar cuáles son estas interfaces idóneas para
sacarle el máximo partido a estos modelos. Y hay propuestas como las de TLDraw que nos muestran
cómo podemos configurar diversos canvas donde distintos prompts generen para un mismo input
en tiempo real diferentes versiones de tu imagen. También la reducción de tiempo de generación nos
acerca poco a poco a un escenario donde éstas ocurrirán en tiempo real. Y con esto pues en pocas
semanas hemos visto experimentos como estos donde el contenido capturado en tiempo real por una web
cam pues se puede reinterpretar para convertirlo en otra cosa. O donde también se está aplicando para
hacer transformaciones fotograma a fotograma de vídeos que ahora se pueden reconvertir a animaciones
reinterpretadas con inteligencia artificial. Donde nosotros tenemos el control a través del prompt. Y
obviamente estas animaciones todavía están lejos de ser perfectas. Hay un montón de errores en detalles
finos, hay un montón de errores en consistencia temporal, detalles que van bailando entre fotograma y
fotograma lo sabemos. Pero es que estas comparaciones las hacemos mirando atrás, mirando a cómo estaba
esta tecnología hace años o hace meses incluso, donde era mucho más imperfecta. Y ahora con la
llegada de los LCM y todo lo que esté por venir pues va a ser mucho más sencillo poder experimentar
nuevos flujos de trabajo que nos acerquen cada vez más a un resultado más profesional. Creedme,
vamos a llegar. Y como me gusta recordar, esta es sólo la peor versión de lo que tendremos a partir de ahora
de esta tecnología.
De hecho, las cosas avanzan tan rápido que al momento en el que estoy haciendo este vídeo, el equipo que puso a
Stable Diffusion en nuestras GPUs, Stability AI, ha presentado una nueva versión de su modelo Stable Diffusion XL,
la versión Turbo. Un modelo potenciado por una nueva técnica, Adversarial Diffusion Distillation, que combina lo mejor del mundo de las gas y los modelos de difusión y que superan a las técnicas de LCM Lora que veníamos comentando en este vídeo.
¡Hala! Toda la explicación a la basura. ¿Y va rápido? Y no, no me refiero al mundo de la IA, me refiero al modelo. ¿Va rápido? Mira, podéis probarlo si vais a la web de ClipDrop, tenéis el enlace abajo. Y vais a comprobar que es el
empezar a escribir el prompt y mágicamente, antes de que vuestros dedos y vosotros podáis terminar de pensar qué es lo que queréis generar, el modelo ya te estará devolviendo imágenes que nunca han existido.
Imágenes que a golpe de teclado podrás ir manipulando en tiempo real.
¡Wow!
Entonces, pongámonos a imaginar, sabiendo que estamos traspasando el umbral de la interactividad con la IA generativa, ¿qué más podemos esperar a futuro?
Pues sabemos que los modelos de difusión, aunque son populares en esto de generar imágenes, no solo se limitan a este tipo de datos.
En un futuro muy cercano podríamos ver la aplicación de técnicas similares a los LCM a otras modalidades como el audio, el 3D o incluso la generación de proteínas.
Donde, ojo, también hemos visto el uso de modelos de difusión. No todo iba a ser hacer imágenes bonitas.
Y claro, hablando de 3D, pues esto me lleva a preguntarme lo siguiente y es.
En software 3D, para la creación de imágenes, gran parte del tiempo se invierte en configurar luces, materiales, físicas, para luego darle a un botón y que el ordenador renderice una imagen final.
Pero es que ahora estamos viendo un cambio drástico en este flujo de trabajo, donde ahora renderizar una escena fotorrealista solo requiere de un cierto proceso de modelado, texturizado, composición y poco más.
Y es que seguramente empresas como Nvidia, pues están investigando internamente proyectos donde sustituir estos pipeline de procesamiento de gráficos en tiempo real por una tecnología que es la IA generativa, que ya demuestra ser capaz de traernos un montón de píxeles que conforman imágenes espectaculares cada vez a un tiempo menor.
Seguramente el futuro de los gráficos en tiempo real sea muy diferente a lo que tenemos hoy en día.
Y por soñar, pues seguramente en un futuro no muy lejano con la llegada de la realidad virtual, realidad aumentada, también veamos a estos modelos actuando en fracción de segundos para crear ante tus ojos mundos virtuales tridimensionales en tiempo real.
O por imaginar, pues también podemos imaginarnos a la inteligencia artificial generándote una banda sonora en tiempo real que tú puedas ir escuchando que reaccione a los inputs que diferentes cámaras y sensores vayan capturando de tu entorno.
Como digo, las posibilidades que se abren son muchas.
También durante este año hemos visto trabajos que aplican esta idea de los modelos de difusión a la robótica, donde se permite que el robot imagine el resultado a conseguir para luego cumplir su tarea.
Algo que gracias a los trabajos que estamos comentando hoy ahora podrá ocurrir en un menor tiempo y que servirá para no interrumpir la interacción del robot en tiempo real con el mundo físico.
Sé que todo esto suena a locura y sé que si esto lo hubiera escuchado hace no mucho, pues hubiera pensado que se me ha ido la cabeza, que estoy loco.
Pero es que esto me parece una locura de la misma forma que me pareció una locura hace tres años cuando os traje aquí en el canal por primera vez lo que era la investigación de Dalí 1, el visionar cosas como estas.
Es que esto directamente se podría convertir en una versión de Google Imágenes donde tú directamente escribes lo que quieres y se te genera al momento.
Ya no tendrías que estar cogiendo imágenes de internet que pueden tener copyright, sino directamente en un futuro Google Imágenes generará en tiempo real lo que nosotros le pidamos. Es muy bestia.
Y ahora a día de hoy, si necesito una imagen para un proyecto, para un vídeo de YouTube, pues directamente me voy a una inteligencia artificial, la genero en cuestión de segundos y la uso.
El futuro del pasado es el presente de hoy. Y si ahora me preguntáis cómo visión al futuro, pues solo os puedo decir que con total seguridad todas estas herramientas van a llegar.
Eso lo veo clarísimo. Lo que no tengo tan claro es lo que esto va a implicar, qué va a transformar, cómo va a cambiar la llegada de esta tecnología, nuestra sociedad, los puestos de trabajo, la forma de crear contenido, todo.
Todo. Y es que el umbral que acabamos de pasar de inteligencias artificiales interactivas que son capaces de crearlo todo en tiempos que nosotros ni podemos pensar,
pues posiblemente lo que nos acabe trayendo sean nuevas formas de creación, de expresión artística y de consumo que todavía no somos ni capaces de imaginar.
Un futuro incierto, difícil de predecir y que nos va a llevar a escenarios inimaginables desde el punto en el que nos encontramos hoy.
Y es que esto ya ocurrió con la llegada de la computación moderna o la llegada de Internet que nos ha llevado a evolucionar hacia el mundo en el que estamos hoy.
El mundo donde la inteligencia artificial ya no es una posibilidad, sino es una realidad.
La realidad
La realidad
Gracias por ver el video.