DALL·E 2, La IA que Genera CUALQUIER IMAGEN

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

results.

Mention graph

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

¿Puede una inteligencia artificial hacer el trabajo de un diseñador gráfico
creando imágenes o ilustraciones de aquello que le pidamos?
Si me hubieran preguntado hace 6-7 años, hubiera dicho que no, que era imposible.
Si me hubieras preguntado hace 4 años, te hubiera dicho, bueno, hay modelos generativos
que ya son capaces de generar contenido realista, pero bueno, parece bastante improbable que
podamos crear todo aquello que se nos ocurra.
Si me hubieras preguntado hace un año, te hubiera dicho que, bueno, parece que sí.
Tenemos a Dalí, que es un ejemplo de inteligencia artificial, que era capaz de crear ya cualquier
imagen que nosotros describiéramos con texto, con muy poquita calidad y en ocasiones costándole
generar aquello que le pedíamos.
Y ya hace unos meses en este canal te adelanté que la cosa pintaba bien.
En el vídeo de Glide, con la introducción de los modelos de difusión, podíamos ver
como todo esto cada vez se va convirtiendo en una herramienta más potente.
A lo que nos lleva al día de hoy, donde se ha presentado ya lo que sería la segunda
versión del sistema Dalí, Dalí 2, y donde podemos afirmar con un rotundo sí que la
inteligencia artificial puede crear cualquier contenido que nosotros le planteemos.
Esta imagen que está viendo, de hecho, la ha creado este propio sistema.
Dalí 2 es la última creación del laboratorio de OpenAI, una inteligencia artificial a la
que le puedes pedir con texto que te genere cualquier cosa que tú quieras, un astronauta
montando a caballo estilo fotorrealista y te lo crea, una ilustración de arte digital
de un bol de sopa que abre un portal a otra dimensión, te lo crea.
Oso de peluche trabajando en una investigación de inteligencia artificial en la luna en 1980,
te lo crea.
O bajo el agua con tecnología de 1990, también te lo crea.
Cualquier cosa que le quieras pedir, esta inteligencia artificial te lo va a crear.
Esto es una revolución en sí mismo, y como considero que esta es una noticia que todo
el mundo debería de conocer, este vídeo se va a centrar en traeros todos los resultados
que OpenAI ha ido presentando, así como comentar algunas de las implicaciones que creo que
esto va a tener a futuro.
Pero antes de continuar, quiero contarte algo que te va a interesar, y es que KPMG, una
de las consultoras más importantes del país, que trabaja en proyectos transversales en
áreas como inteligencia artificial, ciberseguridad, digitalización, cloud, pues están buscando
talento y tú, sí, tú, puedes formar parte de su equipo.
¿Cómo?
Pues mira, tienes que saber que ellos mensualmente están organizando un hackathon, un proceso
de selección diferente donde vas a poder enfrentarte a un reto real de la compañía
colaborando con personas de múltiples disciplinas, lo cual siempre está muy bien.
De hecho, el próximo hackathon que se va a celebrar es del día 26 al 27 de abril,
y va a ser un hackathon que va a estar orientado para público femenino.
Así que si eres o conoces a algún estudiante de grado máster que esté terminando sus
estudios en la rama de tecnología, ciencia, matemáticas o alguna carrera STEM, pues te
animo a participar o que le haga llegar esta información.
Y no te preocupes si no puedes participar que la siguiente edición de mayo va a ser
un hackathon mixto, estate atento.
Agradecer la confianza a KPMG, que en esta ocasión han querido contar conmigo como embajador
de este hackathon, donde voy a estar supervisando el reto de IA y también voy a estar en la
entrega de premios, lo cual me hace muchísima ilusión, y a ti te invito a participar.
Si te interesa y te quieres apuntar, te dejo abajo en la caja de descripción un enlace
con toda la información.
Creo que no me equivoco al decir que esto es lo más impresionante que se ha logrado
en el campo de la inteligencia artificial hasta la fecha.
Dali2 es, como digo, un sistema al cual tú le puedes poner como input cualquier texto
que se te ocurra y éste va a ser capaz de generarte una imagen en alta calidad de aquella
idea que tú le hayas pedido.
Como ejemplo, podemos ver aquí que, bueno, si tú le pides que te genere un astronauta
montando a caballo en un estilo fotorrealista, la inteligencia artificial es capaz de crearte
pues estas imágenes, diferentes estilos, pero que cumplen aquello que le hemos pedido
de un astronauta montando a caballo, o sea, es exactamente eso.
Imágenes que no solo cumplen con el objetivo que le hemos pedido con texto, sino que también
son visualmente atractivas.
Si yo por ejemplo cambio ahora y digo que quiero astronautas en un resort tropical al
estilo pixel art, pues la inteligencia artificial va a ser capaz de generarnos todas estas versiones
también de la misma imagen.
O una astronauta jugando al baloncesto a estilo de acuarela.
Como digo, estas son imágenes completamente nuevas, la IA no está copiando esto de internet
o lo tiene memorizado, sino que son imágenes completamente originales.
Y esto tiene unas implicaciones a nivel artístico y a nivel de copyright pues que serán interesantes
de comentar.
Y quiero que veamos juntos algunos de los ejemplos que OpenAI ha mostrado en su página
web porque son impresionantes, fijaos.
Osos de peluches mezclando químicos como científicos locos al estilo de los dibujos
animados de 1990.
Te genera una ilustración que efectivamente cumple con todos estos requisitos.
Osos de peluches, científicos mezclando químicos al estilo de lo que le hemos pedido.
Oye no, que quiero que el estilo sea steampunk, pues te genera una ilustración realista como
esta que de nuevo cumple con el objetivo y claro, esto cuando lo genera la IA no te genera
una única ilustración, sino que puede generarte diferentes variaciones para el mismo input
para elegir aquella que mejor se adapte a lo que tú necesitas.
Oye que no, que lo quiero como arte digital, pues aquí lo tienes con otro estilo, la misma
idea, el mismo concepto, un montón de ilustraciones que si se tradujera esto al número de horas
que le llevaría a un artista digital humano pues esto sería una enorme cantidad de trabajo
y en este caso una IA lo puede generar automáticamente, en algunos casos con mejores o peores resultados
como podemos ver.
O por ejemplo osos de peluches yendo a comprar al supermercado al estilo japonés pues tenemos
todas estas ilustraciones o al estilo del antiguo Egipto y fijaos que aquí en realidad
parece que está generando más bien un tipo de exposición sobre Egipto más que, bueno,
aquí efectivamente siempre con las bolsas de la compra, Dios, es que en realidad si
tú me enseñaras esta foto y no me dijeras que lo ha generado una inteligencia artificial
yo no tendría por qué pensar que es falsa, sino pensaría que esto se ha tomado una fotografía
en un escenario con estos elementos, es absurdamente impresionante.
Y es en esto donde Dali 2 muestra su mejora, ha mejorado respecto a la primera versión
de hace un solo año en que la calidad de los resultados ahora son mucho más expresivos,
podemos poner inputs más complejos y la imagen que se va a generar pues va a representar
mejor eso, por ejemplo la pintura de un zorro que está sentado en un campo al amanecer
al estilo de Claude Monet, ¿vale?
Dali 1 hace un año generaba una imagen como esta que no estaba mal, hace un año era bastante
impresionante ver este tipo de resultados, lo que ahora consigue Dali 2 es mejorar la
calidad de esos resultados tanto en resolución como en hacer cumplir lo que ese input le
pide.
Es que pensar que de la primera imagen a la segunda imagen solo ha pasado un año y
unos pocos meses da vértigo, da bastante vértigo lo rápido que se mueve todo esto
pero es impresionante.
Aunque en realidad Dali 2 no es exactamente la evolución de Dali, más bien Dali 2 es
una continuación de lo que ya pudimos ver en el mes de diciembre con Glide, la inteligencia
artificial que catalogué como lo más impresionante de 2021 y que ahora en 2022 nos está demostrando
que efectivamente es así, y es que Dali 1 para generar el contenido utilizaba un tipo
de red neuronal que es muy diferente a los métodos que vieron utilizando ahora tanto
Glide como Dali 2, que son los métodos de difusión.
Estos métodos de difusión son una nueva forma de modelos generativos que tienen como
podemos ver un enorme potencial y del que próximamente os hablaré aquí en el canal.
Pero cómo podemos reconocer que Dali 2 está utilizando este tipo de tecnologías?
Pues esto lo vais a reconocer rápidamente cuando veáis estos modelos generativos que
a partir de una imagen de ruido aleatorio pues empiezan a generar como si emergiera
de ella una imagen tan espectacular como estas que estamos viendo aquí.
Esa es la pista perfecta para saber que detrás de todo esto están actuando estos potentísimos
modelos de difusión, pero como digo ya haremos un vídeo sobre esto en este canal.
La cosa es que Dali 2 como evolución también que es de Glide también puede hacer algo
tan impresionante como lo que vimos en aquel vídeo.
Si recordáis Glide era capaz de hacer in-paintings, esto es pues coger una parte de la imagen,
seleccionarla y poder pedirle a la IA que te genere algo que sea coherente con el resto
del contexto de la imagen y que cumpla con la instrucción de aquello que le hemos pedido
contexto.
Esto señoras y señores se va a convertir en el estándar de edición de imágenes del
futuro.
Si usas esta imagen de un perrete, pues coges, seleccionas que es lo que quieres eliminar,
quitas al perro y le dices que lo que quieres es un gato.
Vemos como el modelo de difusión crea un gato sentado en el sofá que es perfectamente
coherente con la imagen original.
O quiero la monalisa con un peinado determinado, pues seleccionas, lo escribes con el texto
y te lo genera.
Fijaos como la coherencia de por ejemplo la piel de la frente se mantiene respecto a
lo que sería el resto del cuadro.
O por ejemplo tomas la imagen de un mono, seleccionas lo que quieras modificar, quiero
que aparezca pagando impuestos, te lo genera, quiero que tenga un gorro que sea gracioso,
te lo genera.
Esto señoras y señores es la herramienta de edición definitiva.
Y quizás lo que me parece más espectacular de todo esto es cómo la IA realmente consigue
entender el contexto de toda la imagen.
En esta demo que nos enseñan en la página web, pues podemos ver cómo para esta imagen
dada como input y para la instrucción, oye, quiero que amanezcas un flamenco, la IA sabe
adaptarse según cuál sea la localización en la que tú marques que quieres que esté
ese flamenco.
Por ejemplo, si yo marco por aquí, pues vemos cómo la IA ha generado una imagen del flamenco
y donde quiero que os fijéis en el detalle de que como el suelo es reflectante, la IA
lo entiende y también nos está generando este reflejo en el suelo.
Esta imagen podría pasar perfectamente por real, pero es que no, yo quiero que el flamenco
esté aquí, en el agua.
Bueno, pues si el flamenco tiene que estar aquí, tiene que estar más alejado, tiene
que estar flotando, porque evidentemente está sobre el agua, y de nuevo podemos ver cómo
pues nos genera una variación de imágenes que es plausible, son bastante coherentes
con el resto de la composición.
No, quiero que el flamenco esté aquí atrás, pues oye, el flamenco aquí atrás estará
fuera en el patio y vemos que lo que nos coloca es al animal que también en algunos
casos pues tiene el reflejo que le corresponde.
Mirad, otra demo, de nuevo tenemos una imagen de entrada y en este caso la instrucción
es, oye, quiero que haya un perrete, quiero que esté esta raza de perro, el corgi y evidentemente
si yo lo marco en el sillón, pues la IA sabe generarnos un perro realista como sería adecuado
para la foto, ¿vale?
Pero si yo le marco, por ejemplo, que el perro esté en este cuadro, vemos cómo la inteligencia
artificial sabe adaptar el estilo de lo que le estamos pidiendo al contexto del cuadro
que está insertado en nuestra imagen, lo cual pues de nuevo es impresionante.
Y si lo marcamos, por ejemplo, en este cuadro, pues vemos que también son ediciones que
serían coherentes a lo que nosotros queramos.
Oye, que no quiero un perro, que quiero un panda, te lo generaría.
Oye, que quiero que este cuadro sea un portal interdimensional a otra realidad, te lo generaría.
Esto es loquísimo.
Y quiero que pensemos esto ya no sólo como herramienta para ilustradores o artistas o
como un juego para nosotros que queramos crear diferentes imágenes, sino también como una
herramienta de trabajo para otros profesionales.
Imaginamos por ejemplo en un diseñador de interiores que, para una imagen de referencia
de una casa, pues quiere decorarla y quiere añadir un sofá a una determinada zona.
Oye, quiero un sofá aquí atrás, automáticamente te lo genera.
Diferentes versiones del sofá y así te podrías hacer a la idea.
No, que quiero que el sofá esté en esta zona, bueno, pues te genera diferentes versiones
y listo, ¿vale?
Esto será el día a día de las herramientas que estaremos utilizando en muy poquito tiempo.
Y a mí me peta la cabeza.
Oye Dalí, que quiero un bol de sopa que sea un portal a otra dimensión como arte digital
y te lo genera.
Es que...
Y fijaos que no son solamente composiciones donde vayan cambiando los colores o algún
elemento, sino que cada una de las imágenes es muy diferente a las anteriores.
Son colores, estilos, efectos, composiciones muy diferentes, pero que todas podrían pasar
por una respuesta bastante válida al input que le hemos pedido.
Oye, que quiero que este bol de sopa esté al estilo de Basquiat.
Pues vean, aquí tenemos al estilo, efectivamente, o dibujado, guay, al estilo rupestre, pintura
rupestre, ahí en las cuevas, pues de repente, ¿cómo sería el concepto de inteligencia
artificial pintado en una pared en atapuerca, por ejemplo?
Pues podríamos generarlo.
Y estoy pensando que esto efectivamente por una parte va a afectar al trabajo del diseñador
gráfico porque, vale, a lo mejor no desaparecerá, a lo mejor se transformará en otra cosa,
pero es cierto que a día de hoy la gran cantidad de horas de trabajo estamos viendo que se
están automatizando con este tipo de inteligencias artificiales.
Pero esto es una herramienta que a nivel creativo, a nivel de quiero nuevos conceptos, quiero
que me enseñes cómo es una inteligencia artificial en el antiguo Egipto, quiero que me generes
osos de peluches en la luna, quiero que me generes y que la IA te dé respuestas que
sean plausibles, es algo que no teníamos hasta ahora y esto nos va a abrir un horizonte
de creatividad o de poder ver incluso conceptos que no habíamos podido generar antes, que
va a ser muy impresionante.
Y claro, si la inteligencia artificial es capaz de generarte una imagen a partir de
cualquier input, pues también puede hacer esto y es, oye, te voy a pasar una imagen
que sea creada por un humano con una idea, con una composición, con unos elementos,
con un copyright y me vas a generar pues 30, 50, todas las versiones que quieras que se
asemejen a esa imagen, que tenga la misma idea pero representada de otra manera.
Entonces, por ejemplo, para el cuadro de la chica de la perla podemos ver cómo nos generan
versiones, en este caso pues nuevas que no existían previamente, pero que se están
adaptando al concepto original de esta imagen, yo a lo mejor veo un cuadro como el beso y
quiero generarme una versión diferente que no tenga ningún tipo de copyright y la IA
es capaz de generarte versiones que no son copias, versiones que podemos entender que
si son, se asemejan a la original pero que son completamente nuevas.
Oye, que a lo mejor en un banco de imágenes me encontré con esta imagen y la quiero
utilizar para un proyecto, bueno, podría comprarla o podría generarme con Dali2 pues un montón
de versiones, casi casi parecidas, porque algunas caras de los ratones dan un poquito
de miedo.
Hola amigo, ¿qué te pasa?
Pero donde la idea general de la imagen se mantiene y para muchos trabajos esto sería
más que suficiente.
Oye, que he visto esta imagen en internet y quiero una composición similar para las
paredes de mi casa, pues la IA te lo puede generar.
Oye, que he visto esta foto del frontal de una tienda y querría ver otras variaciones,
pues la IA te lo puede generar.
O sea, estas imágenes realmente, si no te fijas bien en los detalles, podrían pasar
perfectamente por fotografías reales, de hecho a mí me sorprende mucho como Dali lo
que consigue es generar un efecto de composición general muy coherente que tú lo ves y pasaría
perfectamente el filtro de esta imagen es real, pero que cuando te empiezas a fijar
en los detalles, pues la imagen pierde toda su coherencia, fijaos aquí la puerta por
ejemplo como pues entra y dobla, pero realmente no tiene mucho sentido esta bisagra o podemos
ver aquí elementos como las plantas de dentro, no hay una composición clara, pero si tú
lo ves como un todo, esta imagen te la crees por completo.
Hey Dali, que me he encontrado esta imagen en internet y quiero tener una versión para
mí pero que esté libre de copyright, ¿me la puedes generar?
Pues mira si, te puedo generar esta, esta, esta, esta, mira esta por ejemplo se parece
bastante y podría pasar perfectamente por la original, si tú me cambias esta por esta,
yo no sabría decirte exactamente cuál es la imagen, la imagen original y como veis
esto nos está llevando a un mundo donde toda la generación de contenido va a cambiar radicalmente,
esto ya lo llevo años vaticinando en este canal, os lo he dicho, llegará a un punto
en el que en Google no vamos a buscar imágenes, sino que las vamos a generar en función de
lo que queramos, yo eso lo tenía claro, yo sabía que ese momento iba a llegar, lo que
no me esperaba es que esto fuera a ocurrir tan rápido, hace un año Dali era esto y
ahora tenemos esto.
Mirad, aquí dentro del paper todavía tenemos más ejemplos que podemos analizar, tenemos
al perrete, al perrete con la boina y bueno al perrete francés, tenemos aquí también
a Salvador Dali que es el que da nombre a este sistema, ese juego de palabras entre
Dali y Wally, tenemos esta imagen que es muy curiosa, fijaos bien en esta imagen que a
priori parece que es perfecta, pero que cuando nos empezamos a fijar en los detalles falla
por todos lados, fijaos que la mano, en este caso se fusionan, cuando nos fijamos en donde
debería estar la diferencia entre una mano y otra falla, fijaos los dedos, este dedo
a qué mano pertenece, o sea de verdad me sorprende muchísimo la capacidad que tiene
Dali de engañarnos visualmente y es que un montón de ejemplos más, una máquina de
expreso que hace café a partir de las almas de los humanos y genera esta ilustración,
o por ejemplo un delfín con traje de astronauta en Saturno y te hace esta ilustración que
podría ser perfectamente una ilustración creada por un artista, o el gato Napoleón
o el oso de peluche haciendo skate, y es que claro no es que solamente te genere una
imagen de aquello que le pides, sino que te puede generar todas las versiones que quieras
del input que tú le has pasado, con lo cual pues al final puedes acabar eligiendo aquella
imagen que más asemeje a lo que tú querías inicialmente.
Y Carlos, ¿se puede utilizar este sistema?
No, de momento este sistema está cerrado como ocurrió inicialmente con GPT-3, solo
han dado acceso a un selecto grupo de personas que están cercanas a OpenAI, aunque han puesto
una waitlist donde te puedes apuntar y cuando empiezan a abrir el acceso a esto pues ya
te irán avisando, yo estoy intentando pelearlo desde que lo tenga, evidentemente habrá un
vídeo aquí en el canal analizando los resultados que esto genera, así que si te interesa pues
suscríbete abajo, pero evidentemente esto no es una herramienta que puedas abrir a todo
el público de golpe por las grandes implicaciones que esto puede tener, hasta que el público
general no sepa que existe una tecnología como esta capaz de generar imágenes realistas
de cualquier cosa o hacer cualquier montaje, antes tienes que establecer algún tipo de
filtro que lo limite, y de hecho la propia IAN, su capacidad de generar contenido también
tiene unos determinados filtros implementados, por ejemplo OpenAI ha limitado la capacidad
de Dalí de poder generar imágenes que sean violentas, de odio o con contenido explícito
adulto, esto lo han hecho filtrando este tipo de contenido del dataset de entrenamiento,
o también la posible creación de caras de figuras públicas por evidentemente las consecuencias
que esto podría tener, algo que ellos reconocen que no es suficiente, ya que nosotros no podemos
comunicar con Dalí a través de sinónimos visuales que nos acaben llevando imágenes
que puedan parecer violentas, aun cuando la descripción de esto es un caballo durmiendo
sobre un mar de agua roja, y esto lo complica todo, no lo vamos a negar.
Aparte de esto, también se ha identificado algo que ya es común en muchos de estos sistemas
de inteligencia artificial, y es la aparición de sesgos que están introducidos en el propio
dataset, donde por ejemplo si tú le pides a la IA que te genere a un builder, a un constructor,
pues te va a generar una figura masculina occidental, o donde si le pides que te genere
un asistente de vuelo te va a generar a una figura femenina asiática, sesgos que como
digo están dentro del propio dataset.
Sesgos que no solo van en los roles de género, también culturales, pues podemos ver que
si tú le pides generame el concepto de una boda, pues Dalí va a atender a generarte
un tipo de ritual más cristiano, más occidental, cuando en realidad una boda pues tiene muchas
materializaciones diferentes en otras culturas, lo mismo pasa con restaurantes y con otros
tantos conceptos, pero por otro lado esta herramienta es la herramienta perfecta para
poder identificar que estos sesgos existen en nuestra cultura, en el tipo de contenido
multimedia que consumimos, pero no solo eso, sino que ahora podemos empezar a revertir
estos sesgos a partir de pedirle a Dalí 2 que cree aquellas imágenes de forma explícita
que no contenga dichos sesgos, oye quiero que me generes a un profesional de la construcción,
pero en un rol femenino.
¿Qué?
¿Qué os parece?
Creo que queda bastante claro lo revolucionario de todo esto, Dalí 2 es una herramienta histórica
que no tiene precedente, que va a cambiar muchas cosas, que va a ser disruptivo en muchos sectores
y que en muy poquito tiempo pues todos vamos a poder tener acceso y que como digo va a
cambiar muchas cosas, realmente me encantaría que este vídeo no solo quedara dentro de
mi comunidad, que al final en cierta forma ya sabíamos que esto podía ocurrir, no nos
pilla de sorpresa porque llevamos años hablando de la evolución de estos sistemas, pero
me encantaría que este vídeo llegara a otras comunidades, que llegara pues a círculos
de artistas, de diseñadores, de gente que trabaje con este tipo de herramientas o que
crean que esto le pueda impactar, porque creo que se tiene que armar un debate sobre este
tipo de tecnologías.
Voy a seguir todo el mes de abril haciendo vídeos de este tipo, cubriendo toda esta
actualidad que está saliendo, ha salido Dalí, ha salido una actualización de Codex, han
salido modelos de lenguaje más grandes que GPT-3 de la mano de Google, la próxima semana
estaremos hablando de Palm de Google, que muchos de vosotros me lo habéis pedido, así
que estad atentos, es impresionante, recordad que podéis apoyar todo este contenido a través
de Patreon, si te gusta esta actualidad, todo el contenido y la información que te traigo,
pues una pequeña ayuda mensual, pues ayuda a que todo esto siga funcionando y también
recordad que abajo tenéis toda la información del hackathon de KPMG.
Chicos, chicas, muchas gracias, nos vemos la semana que viene, te dejo por aquí dos
vídeos relacionados con el tema y nos vemos con más inteligencia artificial en el próximo
vídeo.