Stable Diffusion es MEJOR que DALL·E 2... y puedes probarlo!

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

results.

Mention graph

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Voy a pedirle algo que Dalí 2 no pueda hacer y es un personaje famoso.
Le voy a pedir, por ejemplo, que me haga un fotograma de Emma Watson en la película de Iron Man.
Vamos a decirle que sueñe con eso.
Un fotograma de Emma Watson en Iron Man.
Le voy a pedir que me haga nueve imágenes.
Le doy la instrucción y a ver cuánto tarda en generarlo a partir de que le doy la instrucción.
Sabemos que Dalí tarda unos 20 segundos.
Y en este caso, ¡boom!, lo tenemos.
Y no tenemos una imagen solo, sino tenemos nueve imágenes diferentes de Emma Watson en Iron Man.
O también le puedo pedir un fotograma de Emma Watson en Star Wars,
o en Stranger Things, o en Juego de Tronos,
Lego la Película,
Piratas del Caribe,
Interstellar,
S.Req,
lo que se te ocurra.
Hola, ¿qué tal?
Vamos a hablar de Stable Diffusion.
Una inteligencia artificial que creo se va a convertir en una de las más importantes
en todo este periodo actual que estamos viviendo.
Es un modelo generador de imágenes a partir de texto como podría ser Dalí 2 o Mid Journey,
pero que en este caso tiene una serie de características que sé que os van a interesar muchísimo.
Pues por ejemplo, una calidad de imagen que no tiene nada que envidiar a sus competidores más potentes.
También, y ojo cuidado, no tiene ningún tipo de censura.
Y la cosa más importante de todas, este es un proyecto open source que todos podremos utilizar.
A ver, vamos a ponernos todos al día.
En abril de este año sale Dalí 2,
que es la evolución del sistema que anteriormente había presentado la empresa OpenAI de su sistema Dalí, Dalí 1.
Por aquel entonces, hace cuatro meses,
pues nos voló a todos la cabeza al ver un sistema tan avanzado capaz de generar cualquier cosa que le pudiéramos pedir a través de texto.
Por primera vez, estábamos viendo un sistema de inteligencia artificial
haciendo el trabajo que normalmente pues le llevaría un fotógrafo, a un ilustrador, a un diseñador gráfico,
pues hora de trabajo en cuestión de segundos.
En este momento se inicia la revolución.
Actualmente, en agosto de 2022, Dalí 2 sigue en fase beta.
Una fase beta que eso sí, ya incorpora millones de personas que están cada día generando nuevas y nuevas imágenes que antes no existían,
bajo un modelo de pago donde cada generación te estaría costando,
pues más o menos 0,13 dólares por cada vez que cliques el botón de generar.
Ojo, un precio que está muy bien si notamos cuenta de que OpenAI nos está cediendo todos los derechos comerciales de cada imagen,
que si la queremos utilizar para crear un póster o una camiseta, pues podemos hacerlo.
Luego nos encontramos con Mid Journey, que es como una versión de Dalí 2, pero mucho más artística.
El motivo de esto seguramente tenga que ver con el tipo de dataset con el que hayan entrenado a esta inteligencia artificial,
seguramente tomando imágenes mucho más estéticas, mucho más de ilustraciones, de dibujos que han encontrado a través de internet.
Claro, esto significa que esta inteligencia artificial no puede crear imágenes fotorrealistas de objetos o personas como puede hacer la propia Dalí 2,
pero para muchos Mid Journey se ha convertido en una herramienta de trabajo, también de pago,
que en muchos casos supera la propia inteligencia artificial de OpenAI.
Aunque si por popularidad fuera tendríamos que hablar de Dalí Mini.
Mucha gente creyó que esta inteligencia artificial era como un proyecto anexo de la propia OpenAI,
que estaban sacando una versión miniaturizada de su Dalí 2 y que todo el mundo podía utilizarla porque qué buena es esta empresa, pero nada que ver.
Esto fue una inteligencia artificial que una comunidad se encargó de entrenar y ponerla a disposición de todo el mundo a través de internet,
y con esto nació la máquina de memes.
Y es que está ahí, además de ser gratuita y accesible por todo el mundo, tenía una característica que la hacía muy, pero como interesante,
y es que no tenía ningún tipo de censura, lo cual en manos de la gente de internet permitió que surgieran cosas tan locas como estas de aquí.
Y la cosa no queda ahí, porque luego también las grandes compañías, viendo el éxito de OpenAI,
pues también quisieron sumarse a toda esta revolución y en cuestión de un mes Google ya tenía su primera propuesta, Google Imagen.
Un sistema bastante similar en su forma de funcionar, también haciendo uso de los famosos modelos de difusión,
y que incluso en calidad mejoraba aquello que Dalí todavía no podía hacer bien, por ejemplo generar texto.
Y por si esto fuera poco, un mes más tarde, en junio, Google saca otro sistema generador de imágenes,
que en este caso no estaba haciendo uso de los modelos de difusión, sino de las VQ GANs, que tan famosas fueron en 2021.
Luego también Meta sacó ahí de un cajón, volvió a desempolvar un proyecto que se llamaba Make a Scene, hicieron ahí un video corporativo muy chulo,
que es un proyecto que quizás en la parte generativa no es tan espectacular, pero sí innova en la parte de cómo controlar lo que vamos a generar con la IA,
donde puedes dibujar una especie de boceto de lo que quieres y lo genera, también muy interesante.
Y luego tenemos también por la parte de Microsoft Aneuwa, que este sí me ha parecido un proyecto bastante interesante,
no solo por ser capaz de generar imágenes a partir de texto o hacerte el outpainting,
pues completar la imagen más allá de los marcos originales, eso que puede hacer Dalí 2,
pero también tiene una característica muy impresionante que es a partir de una imagen poder generarte una animación, un video.
Tú le das a la inteligencia artificial una imagen como esta y ella te va a generar un video como este.
Pero claro, imagina de ahora que no, que de repente llega una comunidad de internet y dicen,
oye, esto de Dalí 2 está muy bien, es espectacular, pero no nos gusta que esto esté en el control de una empresa sola,
que OpenAI pueda decidir pues que de repente esto no se puede generar o que impongan un precio que a lo mejor mucha gente no se puede permitir.
No queremos esto, queremos generar una versión que sea gratuita, que sea open source, que cualquiera la pueda descargar y usarla,
que la creatividad tiene que ser libre.
Aquí es donde entra StableDiffusion.
StableDiffusion se coordina a través de Stability.ai, que como podemos ver en su página web,
pues tienen eslóganes de inteligencia artificial por la gente, para la gente,
que están construyendo las herramientas de inteligencia artificial abiertas para que todo el mundo pueda alcanzar su potencial.
Y realmente esto es pues una coordinación de varias comunidades que ya mucha gente conocerá,
porque han impulsado muchos proyectos muy interesantes open source de inteligencia artificial.
Y lo que han hecho básicamente ha sido pues plantarle cara a OpenAI,
porque esta gente se ha coordinado y han creado su propio dataset, un dataset que es open source.
Han creado un dataset de 5000 millones de imágenes con sus respectivas descripciones en texto
y han cogido la computación que ha cedido pues la gente de Stability.ai
y han entrenado una arquitectura que es muy semejante a cómo funciona, por ejemplo, Google Imagen.
Y en una haza similar a la de David contra Goliath se pone a competir contra los mayores no quedándose atrás.
En muchos casos lo que genera StableDiffusion es de una calidad similar, en otros casos es peor,
pero también en ciertas situaciones las más artísticas, sobre todo en la gran variedad de estilos que tiene,
creo que es más potente incluso que lo que nos puede ofrecer la IA de OpenAI.
Voy a enseñaros un poco cómo funciona.
De momento el acceso es limitado, es una beta privada que solo se puede acceder a través del Discord que ellos han montado.
Bueno, de hecho esto que acabo de decir es falso y es que incluso ahora mismo vosotros podéis probar esta inteligencia artificial.
Quedas por aquí que luego os explico.
Funciona bastante bien, somos 15.000 personas cada segundo generando, generando imágenes
y la verdad que el sistema funciona sorprendentemente bien, es muy rápido, incluso más rápido que la propia Dali 2.
Y quiero que veáis unos cuantos resultados que la gente pues está haciendo ahora mismo
para que veáis la gran diversidad de cosas que se puede hacer.
Vale, vemos resultados más pues tipo ciencia ficción 3D.
Podemos ver pues por ejemplo imágenes realistas de Joe Biden en un ring.
Podemos ver imágenes un poco más abstractas.
Diferentes tipos de ilustraciones que se pueden asemejar más al estilo más artístico que tiene Mid Journey.
Diferentes tipos de retratos.
Y aquí tengo que ir con cuidado porque en algunos casos la IA puede generar imágenes que son no aptas para YouTube, por ejemplo.
Entonces vamos a ir con bastante cuidado.
Vemos diferentes estilos de imágenes.
Por aquí en blanco y negro o mira, por ejemplo, retratos con una calidad visual que en muchos casos supera lo que Dali 2 puede hacer.
Ilustraciones más coloridas, imágenes más realistas.
De todo.
Que tenemos por aquí, una pintura de Walter White como si fuera un sacerdote tecnológico sosteniendo un libro.
Vemos que nos genera pues una ilustración como esta o como esta o como esta.
Espectacular.
Entonces vamos a hacer algunas pruebas para que podáis ver realmente el rendimiento que tiene esta herramienta y cómo se siente al utilizarlo.
Como siempre, con este tipo de tecnologías, lo más complicado suele encontrar el input que realmente refleja aquella idea que tengas en tu cabeza.
Siempre hay que jugar con modificadores de estilo, con diferentes palabras claves que le dan esa calidad extra.
Vamos a probarla. Vamos a pedirle que nos genere, por ejemplo, una fotografía de una taza de Bob Esponja por probar.
Para eso, en el Discord tengo que usar el comando Dream para poder decirle al bot que quiero generar y le vamos a poner aquí que nos genere.
Pues a Fotograf of a Mac with Spongebob Squarepants.
Creo que se escribe Squarepants y le voy a poner que me genere nueve imágenes independientes.
Fijaos lo rápido que va a generar estas imágenes.
Por lo general, depende de cuánta gente esté conectada en el servidor, pero el tiempo.
Bueno, Ronda, lo acabáis de ver, no ha tardado ni 10 segundos en generarnos nueve imágenes diferentes.
Esta podría estar guay.
Esta podría estar cerca a lo que queríamos.
Esta también vale.
En este caso, pues parece que no hay muchas imágenes de Bob Esponja o a lo mejor las han filtrado por el tema del copyright.
Pero esta de aquí, aunque tiene unas un poco rara, podría servir.
Por ejemplo, que está creando la gente ahora mismo?
Pues un árbol gigante que alcanza el cielo, nubes detalladas, algunos modificadores estilo Studio Ghibli.
Y con esto obtenemos imágenes como estas, que son la verdad que espectaculares.
Cada una es mejor que la anterior.
Claro, si este resultado me ha gustado, pues yo puedo venir para acá, le puedo copiar el input.
Me lo llevo y lo puedo modificar para generar algo a mi gusto.
Por ejemplo, un árbol que crezca hasta el cielo, le voy a poner Barcelona City, la ciudad de Barcelona.
Le vamos a dar a generar y que la IA empiece a trabajar.
Ha procesado el input, lo está calculando y en cuestión de segundos veremos los resultados de cómo sería la ciudad de Barcelona
con este estilo Studio Ghibli.
Vamos a ver qué sale.
Vale, lo tenemos.
Wow, wow, wow, wow, wow.
Qué bonito, qué bonito.
Mira, vale, aquí lo tenemos.
Se ve efectivamente Barcelona porque está la Sagrada Familia aquí.
Qué bonito.
Realmente cualquiera de estas imágenes luego las puedes coger y te las puedes imprimir.
Antes tendrías que pasarlas por algún tipo de inteligencia artificial de super resolución
que aumente la resolución de las imágenes, porque de momento la resolución está a 512 por 512
cuando son imágenes cuadradas y si no, pues más o menos ronda por esa por esa resolución.
Entonces tendríamos que ampliarlo, pero vamos, los resultados son wow, con la Sagrada Familia entre las nubes.
Qué chulo, qué bonito.
Pues por ejemplo, veo por aquí imágenes.
Estas están chulas también, pues podemos coger el input que ha usado esta persona.
Vamos a copiarlo directamente, vamos a coger todo esto de aquí.
Vale, y le voy a cambiar, pues, por ejemplo, el nombre de la persona.
Vamos a poner, por ejemplo, aquí Elon Musk.
Vale, vamos a ver si podemos generar pues a Elon Musk.
Y en cuestión de segundos, pues obtenemos.
Ahí lo vemos.
Wow, qué guapa está.
Qué guapa.
¿Qué pasa cuando intentas ir a Dalí y generar una imagen?
Pues de Elon Musk, esto.
Recordemos que las limitaciones que ha impuesto OpenII a su sistema
para asegurarse un uso responsable de la inteligencia artificial,
pues limita la creación de contenido que pueda ser ligeramente sexual.
Ya puede ser la propia imagen de una persona desnuda o una obra de arte
donde se puede haber a lo mejor un pecho femenino.
No se pueden generar imágenes violentas, no se pueden generar imágenes
que puedan contener personalidades famosas para que esto a mí me vuela la cabeza.
Me parece impresionante que una gente se haya coordinado
sin ser una gran empresa que cuenta con recursos limitados,
como puede ser Google, Microsoft, OpenII y hayan entrenado un modelo
de estas características, pero la cosa no se queda aquí.
La buena noticia es que este modelo, como he dicho, va a ser Open Source
y Open Source significa que cualquiera va a poder acceder al código,
a los datos, al modelo, descargarlos y utilizarlos.
Cualquiera va a poder coger, meterse en la página de GitHub de esta gente
y descargarse el checkpoint, el archivo de parámetros
del modelo que han entrenado y utilizarlo en su ordenador.
Ahora, que un modelo esté públicamente disponible para descargar y utilizar
no siempre significa que sea accesible.
¿Por qué? Bueno, accesible significa que cualquiera pueda acceder
a su uso de una forma bastante sencilla, sin barreras, entre medias.
Y claro, estos modelos suelen ser modelos bastante grandes
que requieren de una infraestructura que posiblemente muchos de nosotros
no tengamos y donde, bueno, pues eso hace que su uso no sea factible
por muchos de nosotros.
Eso significa que no siempre vamos a poder utilizar todos estos modelos
que se liberan, están más pensados para organizaciones o investigadores
que quieran hacer la inversión en toda la infraestructura necesaria.
¿Y qué sucede con Stable Diffusion?
Pues yo no sé qué tipo de magia negra han hecho.
Yo no sé cómo han entrenado este sistema, cómo han montado a esta arquitectura,
pero han comunicado que el modelo, cuando esté disponible,
va a ser un modelo que va a poder utilizarse en una tarjeta gráfica normal.
Una tarjeta gráfica que tenga al menos 10 gigas de memoria de vídeo,
que puede ser cualquier tarjeta tipo 2080 Ti, 3080, 3090, cualquiera de estas.
Y esto, amigos, es una locura, porque esto significa que en cuestión de semanas
puede que cualquiera de nosotros que tenga una tarjeta gráfica medianamente potente
pueda tener descargado en su ordenador un sistema tipo Dali 2
para generar imágenes infinitas sin coste alguno y sin ningún tipo de limitación.
Pero, Carlos, es que yo no tengo una tarjeta tan potente.
Bueno, pues mira tú qué suerte que si quieres puede ganar de mi mano y de la de Nvidia
una tarjeta gráfica 3090 que te va a dar de sobra
para hacer todos los experimentos que quieras.
Y es que sí, en un mes se vuelve a celebrar una vez más el GTC,
el Gran Evento de Inteligencia Artificial de Nvidia.
Y de nuevo estamos sorteando una GPU 3090 que puede ser tuya.
Ya veré más detalles en un próximo vídeo, pero que sepáis que el sorteo ya está abierto
y que es muy sencillo, solo tenéis que registraros con mi link,
hacer retweet a este tweet de aquí y asistir a alguna de las charlas del evento.
Solamente eso.
Os dejo abajo el link al tweet en la descripción.
Sinceramente, me parece una locura que en cuestión de cuatro meses desde que saliera Dali 2
estemos en este punto.
Es que Dali 2 todavía no ha salido a fase final.
Todavía no es un producto comercial que cualquiera pueda acceder
y ya tiene un competidor que le está rompiendo por completo el mercado, el modelo de negocio, todo.
Y esto, por un lado, es muy bueno, pero por el otro es muy peligroso, porque sí,
por mucho que nos moleste las limitaciones que impone OpenAI en el uso de su modelo,
en muchos casos están justificados.
Es decir, que yo pueda ir a la herramienta ahora mismo y que, por ejemplo,
le pida que me genere una imagen de Emma Watson como un samurái antiguo
y me genere imágenes como estas, que son bastante espectaculares,
bastante, bastante chulas, pues está bien,
pero yo en ningún momento tengo el permiso del famoso para hacer este tipo de montaje.
Y ya os digo, esto no es lo más peligroso que se podría generar.
Luego también está la parte en que los resultados en muchos casos son bastante realistas
y esta herramienta, a diferencia de Dali o imagen de Google,
pues no tiene ningún tipo de marca de agua identificativa que permita
pues saber si la imagen ha sido generada con inteligencia artificial.
En una encuesta recientemente que he publicado en Twitter, he puesto estas cuatro imágenes
y le he preguntado a la gente que si sabía identificar cuál de las cuatro imágenes era real.
Si quieres, puedes parar aquí el video y hacer la prueba.
Mucha gente lo intentó y os puedo decir que la mayoría de la gente se equivocó.
El resultado de la encuesta incluso demuestra que la imagen mapotada no era la real,
sino una generada por la inteligencia artificial.
Y esto, amigos, pues es un problema.
¡Uuuh! Pues sí es un problema, sí, ¿eh?
Pero menos mal que aún no han dado acceso ilimitado a todo el mundo, ¿verdad?
Bueno, en realidad las cosas han cambiado bastante en las últimas horas.
¿Recordáis el Discord del que os he hablado antes?
Pues ya lo han chapado.
Sefini.
Ya no se puede generar nada más.
¿Y ahora qué?
Pues desde ayer el sistema ha pasado de beta privada a beta pública.
Significando esto que ahora vosotros también podéis probarlo.
Han creado una web que se llama DreamStudio
y ahí podéis usar StableDiffusion por muy poquito dinero.
Pero, Carlos, ¿esto no iba a ser gratis? ¿Esto no era open source?
A ver, sí, lo será cuando liberen el modelo.
Pero si ellos están gastando recursos para que tú uses su hardware,
pues es normal que te cobren algo.
Igualmente, tenéis unos cuantos créditos iniciales para que lo probéis gratis.
Tened cuidado que se hagas tan rápido.
Os dejo también el link abajo en la descripción.
La pregunta del millón es ¿cuándo van a liberar al modelo?
Pues digamos que yo no sé nada, ¿vale?
Pero desde hace unos días, Emad, la persona tras todo este proyecto,
nos ha compartido una cuenta atrás en Twitter que acabará mañana.
¿Qué significará?
Ya lo he dicho, no lo sé.
Pero podéis esperar que haya un video extra por aquí en el canal en los próximos días.
Amigos, amigas, esto va muy rápido.
Está claro que este tipo de herramientas representan el futuro de la generación de imágenes
y que lo hayan liberado también trae muchas cosas positivas.
Hay mucha gente que ya está trabajando en herramientas,
en mejores interfaces para generar imágenes con estas sías.
Pues, por ejemplo, tenemos este proyecto de aquí que plantea una especie de
canvas de lienzo donde tú puedes ir seleccionando regiones y generando imágenes
e ir completando para generar una composición de diferentes elementos que vayas pidiendo.
O, por ejemplo, este proyecto de aquí que a mí me parece increíble,
de la gente de Runway ML, quien también ha colaborado en el entrenamiento
de esta inteligencia artificial y que están planteando un sistema donde tú
puedas hacer producción de video,
reemplazando el fondo de una escena en base a lo que genera este modelo de
difusión que es Stable Diffusion.
Sin lugar a dudas, chicos y chicas, estamos viviendo una revolución.
Y esto es solamente la inteligencia artificial aplicado al mundo de la
generación de imágenes, del arte, de las ilustraciones.
Pero la inteligencia artificial se está aplicando a otros tantos sectores
fundamentales que también van a ser transformados y revolucionados.
Y todo esto te lo voy a contar aquí.
Entonces, si te ha gustado el vídeo, apóyalo en Patreon y si no estás
suscrito, suscríbete.
Y si quieres seguirme por otras redes, por Twitter e Instagram,
que también publico cosas, puedes hacerlo allí.
También tienes aquí un par de vídeos que te pueden interesar.
Y nos vemos en el siguiente vídeo.