logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Este vídeo de aquí, este de aquí y este de aquí están generados con inteligencia artificial.
¿Qué está pasando?
¿En serio, en serio? ¿Qué está pasando?
A ver, situémonos.
A comienzo de 2021, OpenAI plantó una semilla con la salida de su sistema Dali,
una propuesta de inteligencia artificial donde mostraban cómo era posible, utilizando texto,
poder generar cualquier imagen que se nos ocurriera.
La calidad no era espectacular, bastante experimental de hecho, pero era mejor que cualquier cosa que
hubiéramos visto hasta la fecha.
Y además, durante 2021, pues estos modelos se fueron refinando y mejorando,
todo gracias a la llegada de los famosísimos modelos de difusión que OpenAI utilizó para mejorar a su tecnología.
Así, un año más tarde, en abril de este año, aparece la segunda versión de este sistema, Dali 2.
Mejorando a todo lo anterior en resolución, en capacidad artística, en versatilidad para poder hacer in-paintings
que fueran coherentes con cualquier imagen, una propuesta que superaba a todo lo que existiera anteriormente.
Y para mí, esta fue una de las primeras veces que pudimos constatar que la inteligencia artificial de verdad
era esa tecnología revolucionaria y disruptiva que desde este canal venimos avisando.
Y tal es el impacto de lo que genera Dali, que a partir de ese momento los tiempos se acortan.
Y pasamos de ver impresionantes avances cada año, a ver cómo la inteligencia artificial va cumpliendo hitos cada mes.
En mayo, un mes más tarde, Google presentó Imagen.
Luego, en junio, Google de nuevo presentó Party.
Y para agosto ya se empezaban a escuchar rumores de que había una comunidad online que se estaba coordinando
para entrenar a una especie de Dali 2, pero que en este caso iba a ser gratuito y open source.
Un sistema que se llamaría algo así como StableDiffusion.
Y yo aquí desde este canal ya os supe avisar de que esto iba a ser más grande de lo que pensábamos.
Porque el acceder de forma gratuita al modelo no es la única ventaja de que esto sea open source, no.
Aquí tenemos, por ejemplo, a comunidades enteras trabajando para integrar a StableDiffusion con otras herramientas
como Photoshop o como Blender, a artistas creando libremente nuevas formas de expresión
que no tengan ningún tipo de censura, a científicos y entusiastas pudiendo destripar por completo
a esta tecnología y construyendo sobre ella para saber mejor cómo funciona.
Y en conclusión, bueno, pues a toda la comunidad trabajando a un ritmo mucho más ágil de lo que podría ser
cualquier empresa con todos sus enormes presupuestos.
¿No me crees? Pues mira este ejemplo de aquí.
Mira, en agosto de este año salió el siguiente paper de Google que presentaba una técnica llamada DreamBooth.
Lo que permitía era hacer un reentranamiento de estos modelos generadores de imágenes
para poder enseñarle nuevos conceptos.
Hey, ¿qué querías generar imágenes con tu perrito Spot?
Pues mira, sacas unas pocas fotos de él, cuatro o cinco imágenes y le enseñabas ese concepto a tu inteligencia artificial.
A partir de este momento, pues tú podías crear a Spot en la acrópolis o nadando o recibiendo un corte de pelo.
Libertad absoluta para crear infinitas imágenes de Spot.
Lo que sucede es que esto es solo un paper, una receta de cómo lo han hecho,
pero no está el código que nos permitiría poder ejecutar todo esto en nuestros sistemas.
¿Pero qué pasó? Bueno, pues que la comunidad se interesó por este paper
y en cuestión de dos semanas ya tenían creada una implementación sobre StableDiffusion.
Dos semanas.
De hecho, estuvimos hablando de este modelo en este directo de aquí,
donde entre todos pudimos generar imágenes tales como, pues yo como una estatua de bronce
o dentro de una ilustración al estilo cyberpunk o como un muñeco de goma espuma o tallado en madera.
O yo al natural.
Claro, vale, esta foto no tiene nada artificial, está está real.
Vamos, que ni un mes pasó desde que salió el artículo de Google
hasta que la comunidad nos pudo ofrecer una herramienta que todos pudimos utilizar.
Y aquel titular es el siguiente.
Estamos entrando en una fase de transformación tecnológica sin precedente,
donde los logros ya no se van cumpliendo año tras año o mes tras mes.
No, aquí ya los avances se van logrando semana tras semana e incluso en algunos casos día a día.
Esto que vais a ver ahora, amigos,
es todo lo que ha avanzado el mundo de la creación con inteligencia artificial en un solo mes.
Empecemos con Dali2.
Para empezar, tenéis que saber que esta herramienta ya no está en beta privada.
Ahora cualquiera puede registrarse y empezar a crear imágenes en segundos.
Bueno, cualquiera no.
Y es que todavía sigue habiendo una extraña restricción geográfica
para ciertos países de Latinoamérica que no termino de entender
y que personalmente me parece una vergüenza.
No sé exactamente por qué está ocurriendo esto,
pero bueno, no es un problema que no se pueda resolver con, por ejemplo, una VPN.
Y esta no es la única novedad en Dali2.
Y es que ahora han vuelto a permitir el poder subir imágenes con caras de personas reales,
algo que anteriormente habían prohibido por seguridad,
pero que la verdad limitaba esta herramienta en una de sus funcionalidades más interesantes,
ya que me parece súper potente poder subir imágenes tuyas
aquí en cuestión de minutos con la función de inpainting poder lograr cosas como estas.
Aparte, también han mejorado su interfaz para poder crear outpaintings,
dejándonos ahora subir imágenes a un lienzo infinito y poder, por ejemplo,
rellenar el espacio entre ellas o generar imágenes de resoluciones mayores a los 1024 por 1024 píxeles,
algo que es súper útil para poder crear montajes mucho más avanzados o murales enormes.
Pero ojo, cuidado, no olvidéis que cada vez que generéis un trozo de imagen aquí,
estaréis pagando 0,13 dólares.
Luego, respecto a los inpaintings y outpaintings,
esto también es una funcionalidad nueva que han añadido a la herramienta web de StableDiffusion,
que ya sabéis que es Dream Studio.
Aunque por ahora, pues eso hay que reconocerlo,
la calidad que consigue StableDiffusion para inpaintings
pues no es tan buena como la que nos puede ofrecer Dali.
Pero si una ventaja tiene StableDiffusion sobre Dali2,
son las conversiones de imagen a imagen.
Es decir, usar una imagen de referencia como inicialización,
que combinado con el texto que ingresamos como input,
pues ya te da un control absoluto de lo que quieras generar.
Durante el mes de septiembre, internet no ha dejado de llenarse de espectaculares resultados
donde cualquier composición hecha con unas pocas líneas de paint
se acaban convirtiendo al momento en espectaculares imágenes de una gran calidad visual.
De hecho, es con esta idea del image to image
que hay quien ha combinado a StableDiffusion con motores 3D como Blender.
Para usar a la inteligencia artificial como una suerte de renderizador final
que va a aplicar el estilo que tú hayas escrito sobre la animación 3D del programa.
Por ejemplo, quieres a este personaje animado al estilo de Picasso,
pues lo escribes y lo tienes.
Y con esto ya tendríamos un montón de herramientas para que nuestra cabeza ya esté
burbujeando con un montón de ideas y oportunidades para poder sacarle jugo a todo esto.
Pero he esperado un momento, tranquilo, sí.
Ya os he dicho que este mes ha sido bastante intenso
y esto solo acaba de empezar.
Y es que si lo que consiguió Dali2 ya a principios de este año
me pareció algo que no creí que fuéramos a ver durante bastante tiempo,
cuando ya asumí que estábamos en este punto de maduración
donde la tecnología podía estar a este nivel,
de repente la IA me vuelve a sorprender mostrándome algo
que no creí que fuéramos a ver hasta dentro de mucho tiempo.
Efectivamente, estoy hablando de la generación de vídeo.
Y ojo que esto no es una cosa aislada porque no ha salido ni uno ni dos,
sino tres modelos diferentes que superan con creces
pues cualquier cosa que tuviéramos hasta ahora en generación de vídeo.
El primer modelo que salió fue el de Meta, Make a Video.
Y bueno, básicamente es esto, aquello que describes con texto,
pues el modelo te lo genera con resultados verdaderamente impresionantes.
Un oso de peluche pintando un autorretrato, aquí lo tienes.
Un robot bailando en medio de Times Square,
primeros planos de un pincel moviéndose sobre un lienzo
o un gato viendo la televisión con el mando en la mano.
En la, en la, en la, ¿qué es eso?
Bueno, como veis, los resultados no son perfectos
y creo que algún día echaremos la vista atrás
y veremos este tipo de fallos que ocurrían en esta época
pues con cierta nostalgia.
Mientras tanto, aquí estamos en 2022 en un mundo que ahora admite
que podamos pedirle a una inteligencia artificial
que nos genera en segundos nueve clips de vídeo de dos canguros
preparando la cena apresuradamente.
Además, esta herramienta, Make a Video, no solo puede generarte
un vídeo a partir de texto, sino también generarte un vídeo
de una imagen dada como input, que le dé vida.
O a partir de un vídeo poder generar versiones alternativas de este.
Toda una revolución que solo acaba de comenzar.
Y como decía, no es el único trabajo que ha llegado a resultados impresionantes.
Ese mismo día la gente de Google Brain publicó Fennaky.
Este trabajo de aquí que también es capaz de hacer lo mismo,
generar vídeo a partir de texto.
Y aquí mi ojo crítico me hace ver que la calidad
quizás no está tan pulida como en el trabajo anterior.
Pero como ventaja, pues hay que destacar que este proyecto
tiene la capacidad de poder generar vídeos de mayor duración,
pudiendo llegar a los minutos de clip.
Y estos dos trabajos serían impresionantes
si no fuera porque una semana después llega Google
con otro proyecto de generación de vídeo y vuelve a subir el listón.
Y al igual que hizo a principios de año compitiendo contra Dalí
con su sistema Imagen, pues ahora nos presenta Imagen Video,
que es hasta la fecha el generador de vídeo más potente jamás creado.
Mirad estos resultados.
Aquí tenemos a un oso de peluche huyendo por Nueva York
o un osito de peluche fregando los platos.
O por ejemplo, un vídeo de un dron sobrevolando una batalla de barcos piratas.
Un oso panda conduciendo un coche, un astronauta montando a caballo,
una taza de café que se llena o un elefante bajo el agua con un gorrito de cumpleaños.
Ojo, tampoco es perfecto.
Mirad, por ejemplo, en este caso, el baile de piernas que tiene el elefante.
Pero bueno, aún así es impresionante.
Es que pensar desde mayo, que salió Imagen hasta septiembre,
hemos pasado de esto a esto.
No notáis que las cosas se están acelerando.
Es que si la inteligencia artificial ha sido capaz de generar imágenes
antes de lo que nosotros esperábamos y una vez ahí también ha sido capaz de generar vídeo
antes de lo que nosotros esperábamos, pues no sería impensable pensar que
en algún punto también será capaz de generar modelos tridimensionales instantáneamente.
¿Qué?
Ah, que también es capaz de generar modelos 3D.
Vale, vamos a ver esto, pero antes quiero que veas esta imagen de aquí.
¿Sabéis qué es?
Bueno, pues este es uno de los espectrogramas de audio que van a estar contenidos
en el dataset de más de 480 gigas de datos.
Madre mía, con el que vais a poder trabajar en el Marin Dataton.
Este es un dataton que se va a celebrar en muy poquitos días, del 21 al 23 de octubre
y que está impulsado por la Incubadora de Alta Tecnología Marino-Marítima
y la Sociedad de Promoción Económica de Gran Canaria.
Esta es una competición de deep learning donde vosotros os vais a tener que enfrentar
a un reto científico real trabajando con datos marinos reales.
Habrá dos retos diferentes según el nivel de dificultad donde vais a estar trabajando
con datos de audiodatos como este de aquí.
¿Sabéis identificar qué estamos escuchando?
Bueno, este va a ser un reto en el que vais a aprender un montón de cosas, tanto de vuestros
compañeros como de los tutores que os van a acompañar en todo momento.
Y además, si estáis entre los tres equipos ganadores, pues podréis ganar una tarjeta
gráfica 3090 Ti con la que podréis entrenar mucho de las cosas que hemos visto en este
vídeo y también participaréis en un directo conmigo para poder ver y comentar cuáles
han sido vuestras soluciones.
E importante, esto lo tenéis que saber, es una competición semipresencial, significando
esto que podéis participar tanto en físico, en Las Palmas de Gran Canaria, desde donde
se va a seleccionar a uno de los equipos ganadores, como online, con lo cual está abierto para
todos vosotros, así que os dejo abajo toda la información en la caja de descripción.
¿Sí?
¿Sí?
Sí, sí, lo del trete.
Ya voy, ya voy.
Y ahora, de lo que más me ha impresionado de las últimas semanas, os presento a Dream
Fusion.
Dream Fusion es, pues esto, una inteligencia artificial que es capaz de generarte cualquier
modelo en 3D que le pidas contexto.
Una ardilla te lo hace, una ardilla en kimono te lo hace, una ardilla en kimono tocando
el saxofón te lo hace, o por ejemplo dos loros jugando al ajedrez, o un león leyendo
el periódico, una gamba tocando el saxofón, una moto de papiroflexia, o un coche antiguo
en el que ha crecido vegetación.
Todo esto modelos creados automáticamente tras escribir contexto.
Este trabajo es impresionante y reconozco que es el que más desprevenido me ha pillado,
porque hace no mucho me preguntaron cuánto tiempo tardaríamos en ver un sistema así,
que tú pudieras teclear lo que quisieras y te generara la malla en 3D, y yo dije que
bueno que todavía faltaba porque no teníamos tantos datos como imágenes o como vídeos
o incluso como música para poder entrenar un sistema de este tipo.
Bueno queréis saber cuántos modelos de 3D han utilizado para entrenar un sistema como
DreamFusion?
Cero.
Ni un archivo.obj.
Y esto es lo que verdaderamente me impresiona, cómo han conseguido que una inteligencia
artificial pueda dominar una tarea diferente, la de generar imágenes 3D a partir de entrenarla
con los sistemas generadores de imágenes en dos dimensiones.
Han combinado estos sistemas junto a la tecnología Nerf para hacer una especie de estrategia
en el que le vamos a pedir a la inteligencia artificial que poco a poco vaya modelando
este objeto tridimensional con las texturas adecuadas para que genere una imagen, una
perspectiva que combinado con estos modelos de visión, pues generen una imagen que se
parezca a aquello que hemos puesto como texto.
En este punto estamos, en un periodo donde las cosas se han ido acelerando y donde se
han ido bajando.
Semana tras semana hemos visto cómo se ha resuelto la generación de vídeo, la generación
de 3D, la generación de audio.
También hemos visto algún proyecto de Text to Audio donde tú puedes escribir, pues quiero
que se escuche el ruido de los pájaros y te genera ese sonido.
Al mismo tiempo también aparecen modelos de Text to Animation donde tú puedes escribir
cómo quieres que sea la animación que ejecute un modelo 3D determinado.
Mientras que por otro lado vemos que Nerf también sigue avanzando y mejorando.
Una auténtica explosión de herramientas creativas.
Quiero que useis este vídeo para avisar de lo que está pasando, del punto en el que
nos encontramos y creo que todos deberíamos de ponernos ya en el escenario donde asumimos
que la inteligencia artificial va a ser capaz de crear cualquier contenido digital que podamos
imaginar.
Creo que estamos en un punto clave donde los primeros que empecéis a trabajar con estas
herramientas, a jugar con ellas, a experimentar, a crear cosas nuevas, pues tendréis una ventaja
competitiva que el resto de la gente desconoce.
Considero que estamos entrando en una especie de singularidad tecnológica en el área de
la creatividad, de la generación con inteligencia artificial.
Llevamos años hablando de que todo esto iba a ocurrir, que todo esto iba a acabar llegando
y ahora que está aquí no deja de ser impresionante, está siendo unos meses, unas semanas fascinantes
y ojo, que lo que está pasando ahora en la parte de creación de contenido, generación
artificial, lo vamos a ver replicado en otros sectores, esta aceleración, este desbloqueo
del potencial que nos puede ofrecer la inteligencia artificial, está aún por llegar en otras
áreas, como por ejemplo la científica.
Ya hablaremos de esto en un próximo vídeo, pero bueno, simplemente deciros que si os
gusta este canal podéis apoyarlo a través de Patreon, tenéis también abajo en el enlace
la cajita de descripción y tenéis toda la información del datatón que hemos comentado
antes.
Si tenéis también por aquí un par de vídeos que os pueden interesar, échale un vistazo
que la revolución de la inteligencia artificial no para y aquí en.csv te la estaré contando.
¡Olé, qué final más bueno!