This graph shows how many times the word ______ has been mentioned throughout the history of the program.
Es que mirad este ejemplo real, en un futuro próximo editar una imagen será pues ir pidiéndole
a la inteligencia artificial lo que quieres, oye, en este cuadro de aquí quiero que sea
el de un perrete, y en el espacio del medio quiero que me pongas una mesita de cristal,
y sobre la mesa un florero, y esa pared del fondo, que mira, que mejor sea una ventana
pegada al sofá, ahí, ahí, perfecto, listo.
Que el campo de la inteligencia artificial avanza a un ritmo frenético es algo que habéis
escuchado muchas veces en este canal, lograndose año tras año lo que hace muy poco creíamos
imposible.
Y es por eso que ahora que se acaba el año, pues es un buen momento para echar la vista
atrás y ver qué hemos logrado en 2021.
Y esa, créedme, era mi idea inicial, pero sucede que, bueno, pues la gente de OpenAI
ha sacado hace unas semanas una cosa que lo vuelve a cambiar todo, y es que si algo ha
representado el mundillo del deep learning en 2021, ha sido esta preciosa unión que
se ha producido entre el campo de los modelos generativos y el campo del procesamiento del
lenguaje natural, el poder generar cosas a golpe de texto.
El trabajo que os traigo hoy no solo es el cierre perfecto para el arco argumental de
2021 y otro sustito para los que trabajéis en diseño, sino que también abre la puerta
a prometedoras líneas de investigación que seguramente veamos desarrollarse en los próximos
años.
¿Por qué?
Déjame que te dé un poco de contexto.
Uno de los primeros vídeos del 2021 en el canal fue el vídeo sobre Dali, una inteligencia
artificial desarrollada por OpenAI, que por primera vez nos enseñaba como un único modelo
de deep learning era capaz de generar cualquier representación de aquello que nosotros escribiéramos
con texto.
Lo que oyes, si tú escribías quiero un sillón en forma de aguacate, te generaba
imágenes como esta, quiero un gato hecho de berenjena y obtenías esto, o una lata
de refresco con una piña azul dibujada, o una ilustración de Pikachu en tutu paseando
a un perro.
No sé, lo que quisieras.
Todo lo que pudieras escribir, esta IA lo podía generar.
Esto era espectacular y suponía un antes y un después en el campo del deep learning.
¿Por qué?
Bueno, sí, antes contábamos con modelos que también podían generar contenido en
base al texto que le diéramos como input, vale.
Pero estos modelos siempre estaban restringidos a el dominio de las imágenes que hubiéramos
utilizado para el entrenamiento.
Si lo entrenábamos con imágenes de pájaros, pues solamente podía generar pájaros, nada
más.
Pero en cambio, Dali cambiaba todo esto y de repente un único modelo pues te podía
generar cosas tan diferentes como un sillón en forma de aguacate o un Pikachu con tutu.
Y eso, como digo, cambiaba las reglas del juego.
Y lo supe ver en aquel momento y tal cual dije en ese vídeo, pues...
Preparados, porque hoy vais a ver posiblemente la cosa más impresionante que hayáis visto
en este canal de YouTube y posiblemente estando en enero sea duro decir esto, pero creo que
estamos ante uno de los avances más impresionantes del campo de la inteligencia artificial en
todo 2021.
¿Y qué creéis, tenía razón?
¿Es Dali lo mejor que nos ha dado la inteligencia artificial en 2021?
Pues sí y no.
Quedaos y lo vais a entender.
A Dali nunca lo publicaron, nadie ha podido probarlo y su gran rendimiento únicamente
lo conocemos a través de los ejemplos que vimos en la web de OpenAI.
Durante este año ha habido propuestas de otras organizaciones de entrenar a sistemas
similares, estos sí disponibles para su uso, como la versión rusa Rudali, pero es cierto
que la calidad de los resultados no se asemeja al original.
Sin embargo, lo que sí publicó OpenAI fue el modelo preentrenado de otro trabajo muy
pero que muy interesante, Clip.
Si Dali era ese artista que había aprendido a pintar aquello que le dijéramos con texto,
Clip era el experto que para un texto dado tenía el ojo perfectamente entrenado para
saber si aquella imagen describía exactamente lo que el texto expresaba.
Si Dali era la unión entre el lenguaje natural y los modelos generativos, Clip era lo mismo
pero uniendo el lenguaje natural con los modelos de visión.
Y os lo digo, Clip es una tecnología super super interesante que creo que cuando salió
no supimos entender todo el valor que tenía.
De hecho no fue hasta abril que yo saqué el vídeo explicando ahí si en profundidad
cómo funcionaba y qué implicaba, y es un vídeo que os recomiendo ver si realmente
os interesa el funcionamiento de todos estos sistemas.
Pero bueno, ¿qué nos aportó Clip?
Pues esto.
Y es que bueno, no teníamos a Dali pero sí teníamos a Clip.
Y siendo esta una inteligencia artificial muy bien entrenada para entender si una imagen
se asociaba con una descripción dada, pues fue una comunidad de internet a quien se le
ocurrió la idea de utilizar esto para supervisar lo que otro modelo generativo iba a crear,
logrando así un sistema similar al de Dali, el poder generar contenido en base a texto,
pero en este caso con resultados con una carga artística mucho más impresionante.
Muchos lo recordaréis porque ha sido uno de los grandes platos fuertes del año, VQ GAN
más Clip.
VQ GAN más Clip tuvo su momento durante este año y realmente os estaréis dando cuenta
ahora que muchas de las aplicaciones tipo WomboArt y cosas similares utilizan esta tecnología
por detrás.
De hecho, me consta incluso que hay empresas que están generando y comercializando NFTs
con esto y se están forrando pues vendiendo esto por mucha pasta.
Esto es puro 2021.
Y cuando creemos que sí, que trabajos como Dali o como Clip realmente iban a ser lo más
representativo de este año en el mundo del deep learning, de repente llega la gente de
OpenAI y nos viene a decir algo así como que bueno, que aquello que presentó en enero,
que es cosa del pasado, hablemos de Glide, Glide o Guided Language to Image Diffusion
for Generation and Editing, que te digo yo pa que pones tantas palabras y luego la la
G de Generation no la estás cogiendo porque si no Glide se te queda.
Es el nuevo proyecto de la gente de OpenAI que continúa el legado que ya inició Dali,
aunque con unos cambios que son muy importantes y que vamos a comentar luego.
En concreto, lo que tenemos con Glide es de nuevo un sistema que para cualquier input
de texto que le demos, por muy loco que sea, es capaz de generar una imagen que represente
lo que hayamos descrito.
Y esto mola porque como podemos ver funciona muy bien para todo tipo de ejemplos.
¿Un erizo usando una calculadora?
Toma ya.
¿Robots meditando en un retiro vipa sana?
Pues también, sea lo que sea eso.
¿Una pintura en alta calidad al óleo de un hámster dragón psicodélico?
Hecho.
O algo tan común como una fotografía de un canal de Venecia.
Todo esto resultados generados por el mismo modelo y respondiendo a la perfección a la
descripción dada como texto.
Si lo comparamos con Dali, la mejora la encontramos principalmente a nivel visual, ya que si bien
Dali era muy bueno generando una gran variedad de imágenes de cualquier cosa que le pidiéramos,
sí es cierto que en las generaciones que hacía, pues se notaba una falta de nitidez
en los detalles más finos.
Fijaos por ejemplo en el detalle del pelo de estos capibaras generados aquí.
¿Lo notas?
Y yo creo que queda bastante claro si ponemos para un mismo input los resultados que cada
modelo generaría, que este modelo de aquí pues consigue resultados mucho más interesantes.
De hecho, en la publicación que han sacado con este trabajo nos cuentan que han realizado
experimentos con evaluadores humanos, quienes han elegido los resultados de Glide por encima
de los de Dali en un 87% de veces por su calidad gráfica, demostrando así la superioridad
de este modelo.
Es que pensad, hace mucho, hace dos, tres años, estábamos en un punto donde conseguir
que una inteligencia artificial generara, pues yo que sé, ilustraciones de un perro era
impresionante.
Lo que decíamos es que en el futuro podremos decorar nuestros salones con cuadros creados
por inteligencias artificiales, pero es que ahora realmente le podemos pedir a la IA que
directamente te genere la imagen del salón que esté decorado con el cuadro que tú quieras.
Es que es muy loco todo esto.
Y aquí es donde viene lo que considero quizás más interesante y es que este modelo no funciona
como tú crees.
Si acostumbras a trabajar en el campo del deep learning, sabrás que para poder generar contenido
realista durante muchos años nos hemos apoyado en las redes generativas adversarias, consiguiendo
con ellas cosas increíbles y recientemente también hemos visto en el canal como a través
de los variational autoencoders combinados a veces con estrategias autoregresivas, pues
también se puede generar contenido realista, siendo Dali uno de los grandes ejemplos de
ello.
Bueno, y si te dijera que Glide no está utilizando ni redes generativas adversarias, ni variational
autoencoders, ni ninguna movida de esta.
Ojo cuidado porque se suma a la batalla un nuevo contendiente, los modelos de difusión.
Por ejemplo, Google este año desarrolló a SR3, un modelo de subresolución basado
en técnicas de difusión con el que conseguía recuperar el detalle de imágenes de 64 por
64 píxeles rescaladas ahora a una resolución de 1024 por 1024.
Pura magia.
Y también demostraron que sí, que usando estos métodos de difusión pues se podía
generar imágenes en altísima calidad de cualquier clase de objeto que definamos.
Ok, pues parece que este tipo de modelo se iguala a lo que antes podíamos lograr con
las redes generativas adversarias.
Mola.
Pero no es que las iguales, es que según OpenAI en este trabajo de mayo, los modelos
de difusión vencen a las GANs en la sintetización de imágenes.
Punto.
Es que este es el título del paper, tal cual, no hay más.
Ahora, si os tengo que convencer del potencial de los modelos de difusión, quiero que presteis
toda la atención al siguiente trabajo, porque es impresionante.
Este modelo se llama Palette, proviene también de Google y es la demostración perfecta de
cómo los modelos de difusión están llevando al campo de la generación artificial con
deep learning al siguiente nivel.
Fijaos, el mismo sistema es capaz de hacer las siguientes tareas.
Coloreado de imágenes.
Esto era antes y esto era después.
Pero vamos, que podría ser esta imagen, o esta, o esta otra.
O por ejemplo, restauración de imágenes con artefactos JPG.
Aquí vemos lo que sería la imagen en mala calidad y está la restauración lograda por
esta misma IA.
Wow.
¿Qué más?
In Paintings.
Ya lo vimos en el vídeo de Gauguin 2.
Esto es completar parte de una imagen que hemos borrado.
Fijaos por qué es impresionante.
¿Ves la imagen de este niño?
¿Qué crees que se puede haber borrado aquí?
Pues como si fuera magia, estas cuerdas han desaparecido.
Es que es una auténtica pasada comprobar cómo cada una de las generaciones es completamente
coherente con el resto de la parte mostrada en la imagen original.
Y estoy seguro de que si te preguntara por ejemplo cuál de estas dos imágenes es real
y cuál contiene elementos editados, te llevaría un buen rato encontrar los detalles que la
diferencian.
Fíjate bien que toda esta parte de aquí pues ha sido generada con IA.
Estamos alcanzando el culmen de la generación digital automática.
Y de hecho, esto del inpainting con palette lo podemos llevar más allá haciendo lo que
se conoce como uncropping, es decir, ampliar los marcos de una imagen y dejar que la IA
invente el resto, generando así una nueva imagen que luego podemos volver a procesar
repitiendo el mismo proceso.
Ampliamos marcos, generamos imagen, ampliamos marcos, y así generamos un efecto de zoom
out infinito donde al final acabamos con un escenario completamente inventado por la IA.
Es una auténtica locura.
Te invito a que pares y vuelvas atrás para comprobar cada uno de los resultados porque
son impresionantes.
Y esto es palette, es una arquitectura entrenada para resolver todas estas tareas tan impresionantes
con un grado de calidad que se aprovecha de el rendimiento que van demostrando estos modelos
de difusión.
Ya dedicaremos un vídeo al completo a ganar intuición en cómo funcionan estos modelos
de difusión y compararlo un poco con el funcionamiento también de las redes generativas, porque
es verdaderamente impresionante lo que este tipo de arquitecturas puede llegar a demostrar
en los próximos años.
Si no estás suscrito a este canal, pues te recomiendo que lo hagas y que le dejas la
campanita para recibir notificación cuando esto ocurra.
Pero este es el motivo por el que estoy tan entusiasmado con los trabajos que estamos
viendo en este vídeo y es que no es solo que en 2021 hayamos conectado el lenguaje
natural con los modelos generativos, sino que también de cara al futuro se están abriendo
unas líneas de investigación que son muy prometedoras en todo lo referente a los modelos
de difusión.
Por eso Glide me parece el trabajo más importante de 2021, porque es el trabajo que conecta
todo, conecta los modelos generativos con lenguaje, con modelos de difusión y notan
unos resultados espectaculares como los que hemos visto.
Y no solo te permite generar imágenes nuevas, sino que al igual que pasaba con palette,
pues puedes hacer in paintings de determinadas zonas y pedir con descripciones de texto pues
que se modifiquen como tú quieras, donde por ejemplo podemos decidir que en este cuadro
de aquí el perro que está abrazando a la chica pues sea de la raza corgi, lo escribes
y listo.
Es que mirad este ejemplo real, en un futuro próximo editar una imagen será pues ir pidiéndole
a la inteligencia artificial lo que quieres, oye, en este cuadro de aquí quiero que sea
el de un perrete, y en el espacio del medio quiero que me pongas una mesita de cristal,
y sobre la mesa un florero, y esa pared del fondo, que mira, que mejor sea una ventana
pegada al sofá, ahí, ahí, perfecto, listo. ¿Os imagináis el impacto que tendrá esta
tecnología en profesiones donde se dedican horas y horas a estar trabajando en frente
de una pantalla en un software de edición? Este es de los primeros trabajos que me hacen
pensar que ese futuro que yo me imaginaba donde Google imágenes pues tú podías escribir
y ya no te daba imágenes que buscaras en internet, sino imágenes generadas artificialmente,
es posible.
Es que además estos son imágenes que no tendrán copyright, y es por eso que considero
que toda esta tendencia de modelos generativos con lenguaje, con modelos de difusión, con
palet, con dali, con clip, es la tendencia que define al campo de la inteligencia artificial
en 2021. ¿Vosotros qué pensáis? Yo personalmente estoy muy contento, porque al final esto ha
sido una tendencia que durante todo este año en este canal os he podido ir contando.
Visto así, estoy muy, pero que muy orgulloso del trabajo que se ha hecho este año en este
canal de YouTube. Y si vosotros también lo estáis, ya sabéis que lo podéis apoyar
a través de Patreon, pues con una pequeña aportación mensual. No voy a dar la turra
más con esto, ya creo que lo sabemos todos. Tenéis abajo un enlace en la cajita de descripción.
Esperemos un 2022 lleno de nuevos avances, nuevas tecnologías, más ciencia y más pasión
por la inteligencia artificial. Feliz 2022 a todos y nos vemos el año que viene.