This graph shows how many times the word ______ has been mentioned throughout the history of the program.
Salta la noticia. Hola chicos y chicas ¿qué tal estáis? Bienvenidos a un directo improvisado
porque si lo estáis viendo bien en pantalla, tenemos un nuevo juguetito. OpenAI, la empresa
que revolucionó el mercado y la industria de la generación de imágenes con inteligencia
artificial con la salida de Dali2 en abril de 2022, acaba de sacar la tercera versión del
modelo sin que nadie la esperara. No se esperaba nada, no se esperaba nada de OpenAI. Yo ya estaba
bajando la persiana de mi trabajo y estaba aquà grabando vÃdeos para vosotros. Ya he ido a descansar
un poquito, me he sentado ahà en el sofá y digo a ver si ha pasado algo en Twitter. Miro y me sale
tweet de Sam Almond, 20 segundos. Pues eso, que nada, que ahà está Dali3. Confirmadme si se oye bien,
qué tal, qué tal, se oye bien, se ve, se oye bien. Necesito saber esta información y arrancamos. No
he mirado nada, ¿vale? No he mirado nada, puede que se oiga con eco, puede que se escuche un poco con
eco porque la habitación la tengo con mala acústica ahora mismo. Perfecto. Dali3, no he abierto nada
porque he querido hacer el unboxing de todo esto con vosotros. TodavÃa no hay modelo, es decir, no se
puede probar, pero podemos ver todo lo que han sacado. Lo único que he visto es esta imagen de
aquà que han publicado. Tenemos el tweet de OpenAI, pues quiero que lo veáis bien, aquà se ve. Dice
nuestro siguiente modelo de texto a imagen Dali3 puede traducir peticiones en imágenes que son
precisas y detalladas respecto al prompt que le estamos pidiendo. Pronto llegará a ChatGPT Plus
y Enterprise, ¿vale? Dentro de poco vamos a tener dentro de ChatGPT Plus el acceso al modelo de
Dali3, lo cual también te va a permitir ayudar, o sea, te va a ayudar a crear prompts increÃbles
que llevarán tus ideas a la realidad, ¿vale? Esta imagen de aquà ya no da muchas pistas de lo que
podemos esperar de Dali3 y esta imagen acaba de pasar en cuestión de minutos a la historia de las
imágenes de la misma forma que en el pasado imágenes como la silla en forma de aguacate, de ahà el meme,
como sigue evolucionando el meme dentro de OpenAI, pues me hace mucha gracia. La silla en forma de
aguacate fue la primera demostración técnica que más se popularizó cuando salió Dali1, cuando era
sólo un proyecto de investigación y el año pasado la recuperaron con la salida de Dali2, pues
demostraron cómo habÃa sido la evolución, de antes podÃamos hacer esto, ahora tenemos esta calidad y
nos sacaron la silla en forma de aguacate. Entonces ahora con esto lo que nos están demostrando es
lo siguiente, hey, sÃ, podemos hacer aguacates, podemos hacer sillas, podemos tumbar el aguacate
en una silla porque está en una terapia con una cuchara que es su psicólogo y además el texto,
el prompt, o sea el texto que le han puesto en el prompt para que se genere y lo ha generado
bastante bien es I just feel so empty inside y lo ha clavado, ¿vale? Lo ha clavado. Entonces aquÃ
parece que la cosa se ve interesante. ¿Podéis confirmarme que está todo correcto? ¿S� ¿Todo
bien? ¿Todo bien? ¿Por qué me decÃs palta? ¿Por qué me decÃs todo palta? No entiendo nada. Vamos para
dentro, vamos a leer el artÃculo, vamos a ver qué novedades nos trae y vamos a ver cómo está la
cosa. Pensemos que en la industria de generación de imagen, Dali 2 generó la granola, generó el
impacto, el tsunami, pero rápidamente fue adelantado por otros competidores. Al mes de salir Dali 2,
Google sacó sus proyectos, Google imagen, sacaron Party, sacaron Fennaky, si no recuerdo mal. Meta
también sacó Make an Image, es decir, muchas empresas se unieron a esto y poco a poco empezó
a aparecer ahà otra empresa que generaba ruido, no sé si os suena, Mid Journey, que poco a poco
fue generando cada vez más modelos, mucho más potentes, más interesantes que a mi punto de vista,
yo creo que al de todos, a dÃa de hoy supera con creces a Dali 2. Entonces es interesante cómo una
empresa que tuvo la iniciativa se ha quedado muy atrás respecto a sus competidores y no hablemos
de Stable Diffusion que ha generado toda la ola y toda la repercusión que ha tenido en el mercado
open source. Entonces Dali 3 nos tiene que traer algo bueno, nos tiene que traer algo potente para
poder empezar a funcionar. Entonces vamos a ver qué vemos aquÃ, pues Dali 3 entiende significativamente,
bueno voy a traducir la página si la podemos traducir, ahà está. Dali 3 comprende mucho más
matices y detalles que nuestros sistemas anteriores, lo que le permite traducir fácilmente sus ideas
en imágenes excepcionalmente precisas. Y nos muestran aquà cuatro imágenes de las cuales,
pues mira aquà tenemos el prompt, que lo estabais preguntando. Una ilustración de un aguacate sentado
en la silla de un terapeuta diciendo, me siento tan vacÃo por dentro con un agujero del tamaño
de un hoyo en el centro. El terapeuta una cuchara garabatea notas. Y ya está. Se lo das a Dali 3
y le dices, trabaja, genera, work for me. Y te hace esta pedazo de ilustración. Bastante bastante
decente, bastante bastante decente. De hecho de las cuatro imágenes que veo aquà son muy bonitas
todas, pero esta es la que más me impresiona. ¿Qué tenemos aqu� Vemos una animación en dos dimensiones
de una banda de música folclórica compuesta de hojas otoñales antropomorfas. Cada una tocando
instrumentos tradicionales de bluegrass en medio de un entorno de bosque rústico salpicado de la
suave luz de una luna llena. Y para mà creo que es la imagen perfecta. Responda el prompt, perfecta.
No está teniendo que especificar detalles. Al estilo de tal o este estilo concreto. Le das
todos los elementos, le dices que quieres una animación 2D y te lo hace. Vamos a ver esto en
tamaño grande. 1024x1024. Estoy arriba viendo la resolución de lo que genera. Vamos a ver de cerca
algunos detalles. Veo que hay detalles fino que está bastante bien hecho. Pues los brazos están
bien hechos. Todo en general está bastante bien hecho. Lo único que noto son aquà imperfecciones,
pero que puede ser incluso del propio estilo 2D que están que están aplicando. Entonces,
bastante bastante decente. Aquà hay algún fallillo en el ojo, pero asà visto en grande
no está nada mal. Por aquà quizás veo algún artefacto extraño, pero bueno, ¿qué más tenemos?
Madre mÃa. Frente a un fondo negro intenso, una figura de mediana edad con su piel tóngana,
rica y brillante. Esta es la traducción. Es capturada en medio de un giro con su cabello
risado flotando como una tormenta detrás de ella. Su atuendo parece un torbellino de fragmentos de
mármol y porcelana. Iluminada por el brillo de los fragmentos de porcelana esparcidos,
creando una atmósfera de ensueño, la bailarina logra parecer fragmentada,
pero mantiene una forma armoniosa y fluida. Esta serÃa la imagen que ha generado.
¿Visto la longitud de estos prompts? Wow, bastante guapa la imagen.
A ver esas manos, ¿cuántos dos tiene? Una, dos, tres, cuatro...
Vale, visto la longitud de los prompts, tiene todo el sentido el tema de chat GPT de por medio.
Y este de aquÃ, foto de una silla esférica inspirada en el litchi, no hemos perdido la silla en forma
de aguacate, con un exterior blanco lleno de baches y un interior lujoso contrastada con un
papel tapiz tropical. Y aquà lo tenemos. Es muy fuerte que en el pasado, y cuando digo en el pasado,
digo en 2016, si tú haces suma a esto, esto podrÃa ser una imagen de lo que ella generaba hace tres
años. Generaba este tipo de imágenes, tal cual, este tipo de patrones repetidos y ahora pues tenemos
esto. Entonces, visto esto, vamos a seguir bajando a ver qué más sorpresas nos deparan.
Yo en su momento, y no lo estoy viendo, asà que sospecho que no, en su momento dije que creÃa que
Dali3 iba a tirar por el 3D. O sea que iba a tener por primera vez un modelo generando 3D,
y creo que no va a ser el caso. Dali3 es mucho mejor que Dali2 a la hora de crear imágenes que
siguen de cerca indicaciones complejas. Por ejemplo, Dali3 puede representar con precisión una escena
con objetos especÃficos y las relaciones entre ellos. Algo que se le criticaba mucho a Dali2
respecto a su inteligencia, al que no pudiera ordenar los elementos en una escena. Dali3 ofrece
mejoras significativas sobre Dali2 al generar texto dentro de una imagen y en detalles humanos
como manos. Bien, Dali3 crea imágenes atractivas de forma predeterminada sin necesidad de hacks
ni ingenierÃa rápida. Se encuentra en versión preliminar, investigando y estará disponible pronto.
Esto no va a llevar un ratito, pero no tenéis tiempo, estáis cómodos aquà conmigo. Los
sistemas modernos de conversión de texto-imagen tienden a ignorar palabras o descripciones. Esto
es cierto. Lo que obliga a los usuarios a aprender ingenierÃa rápidamente. Esto es una mala traducción
de prompt engineer. Eso lo hemos visto, tú haces un prompt que es muy largo y alguna palabra se le
olvida. Si tú le pides quiero un león con gafas de sol haciendo surf sobre una ola tropical, a lo
mejor te pone el león surfeando pero no le pone gafas de sol, por ejemplo. Dali3 representa un
salto adelante en nuestra capacidad de generar imágenes que se adhieran exactamente al texto
que proporcionas. Oye, que en el prompt le he pedido que ponga un sidewalk lleno de gente que
está disfrutando de la noche. Pues mira, te lo hace. Que quiero que aparezca la luna brillando
en el fondo, te lo mete. Que quiero que haya un vendedor que tenga cara de gruñón, alto,
sofisticado, que está llevando un traje, bla bla bla. Te pone todos los elementos que le pidas.
Parece que se están centrando mucho en esto, en la comprensión del prompt por parte de dali3.
Qué raro se me hace decir dali3, se me hace muy raro. Pero parece que es esto. El gran avance
respecto a dali2, además de la mejor calidad, son prompts mejor entendidos. Aquà están estas
comparaciones, me encantan. Incluso con el mismo prompt dali3 ofrece mejoras significativas sobre
dali2. Ahà está. Este prompt, una expresiva pintura al olio de un jugador de baloncesto
haciendo un mate, representado como la explosión de una núvolos nebulosa, dali3 te consigue hacer
esto. Cuando dali2 te podÃa hacer esto de aquÃ. Entonces sà hay una mejora significativa. La cosa
es que estamos muy mal acostumbrados con stable diffusion xl y mid journey. Esta imagen yo la veo,
pero ya no me genera ese efecto wow de una i ha creado esto porque ya estamos mal acostumbrados
por las otras ias que son bastante potentes. Y esta imagen era muy guapa. Y me acuerdo que
me flipaba porque tiene el estilo como si estuviera pintada con cera. Y tiene un estilo
muy chulo pero que luego aprendà a reconocer que era un estilo caracterÃstico de todas las
imágenes de dali2. No es que tuviera estilo de cera sino que todas las imágenes incluso las
realistas tenÃan un efecto, una textura rara. Que aquà no la estoy viendo por cierto. ¿A cuánto de
vosotros os gusta más la de la izquierda? ¿A cuánto de vosotros os gusta más la de la derecha? Decidmelo,
ponedlo ahà abajo. Seguimos. Dali3 está construido de forma nativa en chat gpt. ¡Ojo! Vale, vale,
vale, vale, vale, vale, vale, vale, vale, vale, vale, vale, vale. Ojo que le acaba de crecer una
cabeza a chat gpt. Ojito que se viene la ia multimodal. ¡Ojito que se viene la ia multimodal!
Si recordáis en el último vÃdeo hablamos de multimodalidad ¿vale? Una inteligencia artificial
que puede aceptar diferentes tipos de datos como input y que puede generar diferentes tipos de
output como salida. Dali3 está integrado dentro de ChatGPT lo que significa que
ChatGPT va a ser la parte lingüÃstica, la que puede generar el texto y Dali3 va
a poder generar las imágenes. Ojito, ojito, ojito, que se viene la multimodalidad no
sólo en input sino también en output. Y esto mola porque seguramente en
noviembre, que va a ser el evento de developers de OpenAI, van a sacar algo
más tocho. Van a sacar, no sé, no sé si van a tirar ya por la parte de visión
por computador, es decir que también acepte, sà seguramente es que lo vamos a
ver, si están sacando la multimodalidad de salida van a sacar la multimodalidad de
entrada casi seguro. Si es que no lo sacan antes. Imaginaos en un futuro un
ChatGPT que sea el cerebro, el GPT-5, lo dije en el último vÃdeo, que tenga
input de imágenes, salida de imágenes, que tenga input de texto, salida de texto y
que tenga input de audio, whisper integrado y que tenga como salida
generación de audio. Que tú le hables, le des una foto o le metas texto y te
pueda responder y hablarte de una foto, generar tu imagen, todo eso, todo eso va
a llegar. Y parece que OpenAI se está moviendo ahÃ. Esto me gusta, esto me, esto
me pone. Dali3 en ChatGPT. Cuando se le solicite una idea, ChatGPT generará
automáticamente indicaciones detalladas y personalizadas para Dali3 que darán
vida a su idea. Si te gusta una imagen en particular que no queda del todo bien,
puedes pedir a la ChatGPT que haga ajustes con sólo unas palabras, ¿vale? Parece que
tiene esto de generar prompt de instrucciones para modificar una imagen
de forma nativa, ¿vale? Es decir, tú generas la imagen, me invento, ¿no? La del
deportista, ¿no? Saltando a la canasta y le dices, oye, muy guay, muy chula, 10 de 10,
crack ya, pero ponme el 23, ¿vale? No quiero el 21, quiero el 23, you know. Entonces te lo podrá
modificar, entiendo. Dali3 estará disponible para los clientes de ChatGPT+, los que
pagamos GPT4 y Enterprise a principios de octubre, es decir, en dos semanas, dos, tres
semanas. Están buscando GPUs, están ahà moviéndose por Silicon Valley a ver si
encuentran H100 y bueno, cuando las tengan enchufadas ya no dejan acceso. Al igual que
con Dali2, las imágenes que cree, me lo he saltado, me he puesto a mirar aquà el chat y me he despistado.
Al igual que con Dali2, las imágenes que cree con Dali3 son suyas para usar y no
necesita nuestro permiso para reimprimirlas, venderlas o comercializarlas. Para vosotros,
jugadores. Y tenemos un vÃdeo. Esto me encanta, esto va directo a YouTube. Vamos para allá. AquÃ
vemos ChatGPT que le han puesto el punto final en referencia a .csv, evidentemente, y ahora
esto refuerza mi idea de llamar Yepeto a ChatGPT. Pero bueno, el vÃdeo hace lo siguiente.
Vale, dice mi hija de 5 años nos deja de hablar de un super duper Sunflower. ¿A qué se parece eso?
¿A qué se parece un Sunflower, un girasol, un erizo de girasol? Ahà está ChatGPT pensando.
Vale, ha dicho se llama Larry tal, no sé qué. Entonces le ha generado una versión con el
nombre, con el texto. Y la calidad de la imagen que genera, muy muy chula, muy muy chula.
O puedes mostrarme a Larry siendo kind hearted, siendo pues eso. Y ahà está el erizo. Vamos a
mirar una cosita súper interesante. Vamos a mirar si hay coherencia en Larry. Vamos a ver si Larry
se parece entre imágenes, porque esto es una cosa que se persigue mucho con mi journey y todas estas
guÃas. Porque imagÃnate que tú estás ilustrando, me invento una novela infantil como esta de aquÃ.
Claro, tú quieres que Larry mantenga coherencia entre las páginas, no que vaya siendo un
personaje diferente. Entonces vemos que Larry, pues algún atributo, las cejas. Tiene cejas,
tiene las manitas. Vamos a ver a Larry antes. Tiene cejas, tiene manitas. Creo que modifica
un poco. Creo que no es exactamente igual Larry, pero más o menos se parece. Y luego le dice...
PodrÃas hacerme unos cuantos stickers. Te hacen los stickers. Muy buena calidad. Se aproxima mucho
a mi journey. Bueno, no, se aproxima, no. O sea, lo iguala. Y en algunos casos, bueno, habrÃa que probarlo.
HabrÃa que testarlo bien.
¿Vale? PodrÃas crear ahora una novela... Madre mÃa. Madre mÃa, cuando empiezas a ver las piezas juntas,
o sea, aunque sabemos que va a llegar, cuando empiezas a ver las piezas juntas... Mola, ¿vale?
Porque aquà lo que estamos viendo es, bueno, ¿puedes crearme una novela infantil? Entonces,
ChavGPT, con su inteligencia, te va a hacer una novela infantil que te va a ilustrar de golpe.
Larry ha cambiado. Este Larry no es nuestro Larry. Este no es mi Larry. Larry era diferente,
amigos. Larry ha cambiado. Esto lo tienen que arreglar. Estoy mirando todos los detalles. Quiero
ver si hay artefactos raros. Pues aquà veo un pétalo que no toca. Veo aquà algo extraño,
una estrella fuga un poco rara. Hay brochazos raros en el cielo, pero en general está bien.
Una cosa que tenemos que entender es que esto... Qué guapo, Dali3, que me gusta. Esto que estamos
viendo aquà realmente no es 100% nuevo, porque quien haya trabajado con BingChat, que sabéis que
BingChat no deja de ser GPT-4 en cierta forma, en cierto sabor, BingChat ya tenÃa acceso a
un generador de imágenes que era un Dali2 vitaminado. La gente sabÃa que ese era un
Dali2 más avanzado. Entonces, no hay un salto tan claro, sino que ha sido algo más paulatino si
has pasado por ese punto. Si has trabajado con BingChat generando imágenes. Pero bueno,
para muchos es algo nuevo. Un enfoque en la seguridad. Esta no nos gusta. Bueno,
no os gusta a vosotros, que os quejáis mucho. Al igual que las personas anteriores,
hemos tomado medidas para limitar la capacidad de Dali3 de generar contenido violento para
adultos u odioso, bajo los criterios de OpenAI. Recordemos que el año pasado una de las polémicas
que tenÃa Dali2 era que no te permitÃa generar imágenes donde en el prompt apareciera la palabra
Ucrania. Dali3 prevenir generaciones dañinas. Dali3 tiene mitigaciones para rechazar solicitudes
que soliciten una figura pública por su nombre. Mejoramos el desempeño de seguridad en áreas de
riesgo como la generación de figuras públicas y secos dañinos relacionados con la representación
excesiva e insuficiente, para ayudar a informar nuestras evaluaciones de riesgos y esfuerzos de
mitigaciones en áreas como propaganda y desinformación. Que tienen controlado todos
los temas éticos que están relacionados con estos sistemas. Probas internas. También
necesitamos investigar las mejores formas de ayudar a las personas a identificar cuando se
creó una imagen con IA. Estamos experimentando con un clasificador de procedencia. Esto me gustarÃa
ver cómo es en inglés la traducción. ¿Cómo puedo deshacer la traducción de Google? A ver cómo se
llama esto. Provenant classifier. A new internal tool that can help us identify whether or not
the image was generated. Vale, bueno que están trabajando con sistemas de detección de imágenes
que sabemos que es uno de los grandes problemas que se viene con todo esto de la IA generativa.
Tanto en texto como en imágenes pues nos vamos a encontrar con esto. Con problemas de contenido
en internet que no vamos a saber diferenciar si es real o no. Ya está pasando. Ya todo el mundo ha
volcado en internet. Algún vÃdeo, bueno el vÃdeo todavÃa se detecta, algún texto que no ha sido
escrito por un humano sino por una IA. Entonces eso es un problema. Control creativo. Esto me mola.
Dali3 está diseñado para rechazar solicitudes que soliciten una imagen al estilo de un artista
vivo. Ojo, interesante. Esto es una de las grandes polémicas. Artista vivo además. Esta es una de
las grandes polémicas que tuvo stable diffusion originalmente. Que todo el mundo usaba en los
prompts. Quiero que me hagas una imagen al estilo de Greg Rukowski. Por ejemplo, era un prompt
super tÃpico. Esto lo que generó fue que Greg Rukowski, que es un artista vivo, dijera what the fuck
que está pasando aquà porque todo el mundo está pirateando mi estilo. Si es que un estilo se puede
piratear. Pero es cierto que es un tema delicado, éticamente delicado y estoy de acuerdo en que se
haga esto porque si quieres conseguir un estilo de un artista semejante, al menos mojate el culo.
La expresión de si quieres pese mojate el culo, pues mojate el culo para intentar aprender qué
estilo está representando y reflejalo en el prompt. Los creadores ahora también pueden excluir sus
imágenes del entrenamiento de nuestros futuros modelos de generación de imágenes. Han puesto
un sistema, un formulario, por lo que estamos viendo aquÃ, para hacer lo que se denomina un opt-out.
Un opt-out es esto. Tú dices, hola soy el artista de tal y quiero que me saques del dataset porque
no me parece ético ni legal. Lo cual es delicado también porque la cosa es que un artista no
deberÃa de tener que pedir permiso para que le quiten un dataset, sino que la empresa deberÃa
de pedir permiso para usar ese dataset. Ese es un poco también un debate que está ahà sobrevolando
y que es interesante que conozcáis. Entonces, vamos a ver unas cuantas imágenes que tenemos por
aquÃ. Vamos a estar analizándolas. No tenemos prisa, nadie tiene prisa. Dice, quiero la silueta
de un piano de cola con vistas a un paisaje urbano oscuro visto desde un ático en el último piso,
representada con el estilo audaz y vÃvido de un cartel de viaje antiguo. Y te das una imagen
muy guapa. Te das una imagen muy muy guapa. Veo muy pocos artefactos. Veo, por ejemplo, detallitos
aquÃ, veo cosillas aquÃ, pues las ventanas, pero es que hasta casi casi lo podemos achacar al estilo
de esto. Si te acercas sà se nota. Si te acercas sà hay más fallos, pero visto desde lejos,
en términos generales está bastante bien. Está bastante bien. Me decÃs que tiene tres patas.
Desconozco si un piano tiene que tener cuatro patas. PodrÃa tener tres. Mi mesa, la que estoy
apoyado ahora tiene tres patas. La silla. La silla la vemos mal. Os parece que está mal. Me parece
que está mal la sombra de la silla. Esto de aquà no coincide con esto de aquÃ. Pero entendedme,
respecto a Dali 2 ha mejorado. Ha mejorado bastante en cuanto a fallos. Pero sÃ, sà es cierto que si
te vas fijando empiezan a aparecer cosillas. Pero la imagen es esta. La imagen es esta. ¿Qué más
tenemos? Vamos a ver. Ojo, la calidad es muy buena. La calidad, señoras y señores, es muy buena.
Si os fijamos en el patrón del suelo, que excepto en esta zona, más o menos se respeta. Son como los
patrones repetidos que se empieza a liar. AquÃ, por ejemplo, si se ve algo más raro. El plátano
está genial. Todo esto, el sillón en forma de plátano. La cortina como cae y como se apoya. La
iluminación que entra por aquÃ. Fijaos que aquà hay como un glow por encima de la ventana. La sombra
que proyecta por la pared tiene bastante sentido. Es decir, yo veo esta imagen en general y la veo
bien. De hecho, lo único que no me gusta es el cuadro este. Este cuadro está mal hecho, Dali.
DeberÃas de recurrentemente llamar a Dali 3 para generar un cuadro dentro de tu cuadro.
¿Qué más? Dios, qué desagradable. Cuánta carne. Un vasto paisaje compuesto Ãntegramente de
diversas carnes se extiende ante el espectador. Tiernas y suculentas colinas de roast beef,
muslos de pollos, rÃos de tocino y cantos rodados de jamón crean una escena surrealista pero
apetitosa. El cielo está adornado con sol de peperoni y nubes de salami.
Vale, está todo bien pero las nubes no son de salami.
Esto, además de que me van a desmonetizar yo creo el vÃdeo por tanta carne asà puesta
junta. Esto no es salami, amigos. Pero bueno, está bastante bien. ¿Qué más? ArtesanÃa en
papel representa a una niña dándole un suave abrazo a su gato. Ambos están sentados entre
macetas con el gato ronroneando. Está muy guay que respeta mucho esto, la composición de la
escena. Ambos están sentados entre macetas con el gato ronroneando contento mientras la niña
sonrÃe. La escena está adornada con flores y hojas de papel hechas a mano. Muy bien.
Esta está guapa, Dios. Ojo, aquà difÃcil esta, esta es complicada.
A ver, un diorama en minimapa de una cafeterÃa adornada con planta de interior,
lo tenemos, vigas de madera se entrecruzan arriba y se destaca una estación de preparación de
cerveza frÃa con pequeñas botellas y vasos. ¿Qué es esto? Lo de Cold Brew que comenta.
Entonces está bien, pero el texto aquà falla un poco. Aquà tendrÃas que retocarlo, sin ninguna
duda, en algún software. Pero se ve muy guapa. La imagen en general, si te empiezas a fijar en
los detalles, falla, como siempre. La perspectiva aquà es un poco rara. Y esta vea aquÃ,
o sea, la perspectiva falla. Esta vea aquà no se corresponde, no deberÃa estar. Esta vea aquÃ
no toca, pero en general está muy bien. Vale, ¿qué más tenemos? Esta me gusta.
Pequeños reyes de la papa con coronas majestuosas sentados en tronos supervisando
su vasto reino de la papa lleno de súbditos y castillos de papa. Son papas, son papas con
ojos. Papas con ojos sonrientes. Este tiene el ojo aquà arriba. Qué bueno. Castillo de la papa.
Greg Brockman está lanzando más ejemplos por Twitter. Ahora los miramos. Ahora vamos para ella.
Vamos con una que tenga texto. Esta de aquÃ. Un cartel de viaje antiguo de Venus en orientación
vertical. La escena muestra las espesas y amarillentas nubes de Venus con la silueta
de un antiguo cohete acercándose. Aquà está. Formas misteriosas insinúan montañas y valles
debajo de las nubes. El texto inferior dice, explora Venus, la belleza detrás de las nieblas.
Explore Venus. Ojo, que está el texto entero. Dice, explore Venus behind the mist, detrás de la
niebla. Y aquà el texto se pierde un poco. Aquà ya esto se lo inventa, pero esto, esto y esto está
bien. Vale, ojo, que esto lo haya clavado sà que sorprende bastante. Que esto lo haya clavado es
bastante guapo. Más, más cosas, más cosas. Otro contexto. Ilustración de un corazón humano hecho
de vidrio translúcido colocado sobre un pedestal en medio de un mar tormentoso. Los rayos del sol
atraviesan las nubes iluminando el corazón y revelando un pequeño universo en su interior.
¡Ala! Mira que bonito. La cita encuentra el universo dentro de ti. Está grabada en mégrita en el
horizonte. No está en el horizonte, te equivocaste. Find the universe within you. No está en el
horizonte, pero está. Lo cual es interesante. Y la imagen de nuevo, muy guapa, muy guapa.
Madre mÃa, la gente, la perspectiva está mal. Mist se escribe con una S. No me impresiona,
esto lo hago con el paint. Me parece correcto. Vale, otra imagen. Esta imagen, o sea, es que
nos acostumbramos tan rápido a las cosas que esta imagen hace un año nos hubiera volado la cabeza.
Hace dos la hubiéramos tachado de imposible, hubiéramos dicho, la tecnologÃa no está ahÃ. No te
flipes. Una inteligencia artificial haciendo esto, imposible. Y aquà está. Vale, más, más, más. Estoy
abriendo las que más me impresionan visualmente, que son bastantes. Esta está muy guapa. Una
representación 3D de una taza de café colocada en el alféizar de una ventana durante un dÃa
tormentoso. La tormenta fuera de la ventana se refleja en el café, con relámpagos en miniatura
y olas turbulentas dentro de la taza. La habitación está poco iluminada, lo que contribuye a la
atmósfera dramática. SÃ, pero no. Es decir, yo creo que lo que se estaban imaginando aquà eran
truenos cayendo sobre la taza. Y no es lo que estamos viendo, pero la imagen está guapÃsima.
O sea, la imagen está brutal. No nos engañemos. Más, más. Esta, que es fotorrealista. Esta imagen,
señores. O sea, esta imagen, fijaos en los detalles. Fijaos en los detalles. A ver, esta resolución,
¿cuánta es? Esta es 3200. Esta es 1792 x 1024. Ojito, esto es más de lo que estamos acostumbrados.
Esta es más grande. Esta es igual de alta, pero más ancha. Y tenemos pues un bonito cangrejito
ermitaño dentro de su casa. Y vemos que la foto le cubre la espuma del mar y además tiene como
un poco de, cuando dejas el tiempo de exposición, un poquito más tiempo y se ve como el agua con
poquito de forma de seda. Bastante chula, ¿no? Dice, fotografÃa en primer plano de un cangrejo
ermitaño enclavado en arena húmeda con espuma de mar cerca y los detalles de su caparazón y la
textura de la arena acentuados. Muy guapo. Muy guapo. Muy, muy guapo. No sé. O sea, realmente la
respuesta la sabÃamos por mid-journey, pero sÃ, la inteligencia artificial puede crear cualquier
tipo de imagen. Puede crear cualquier tipo de imagen. O sea, si le ponemos en un prompt cualquier
cosa, te lo genera y te genera infinitas versiones, infinitas versiones de esa imagen. Y eso para mÃ
siempre ha representado algo muy importante porque una imagen no tiene ninguna caracterÃstica
diferenciadora con respecto a otro tipo de datos. Es decir, una canción es un dato diferente una
imagen. Efectivamente, una tabla de datos es un tipo de datos diferente una imagen. Un vÃdeo
tiene dimensión temporal, lo entendemos, pero son datos. Y si la IA puede modelizar los datos de
esta forma, para mà esto demuestra que la inteligencia artificial puede modelizar cualquier
tipo de datos y podrá generar canciones espectaculares, podrá generar vÃdeos espectaculares,
podrá generar audios espectaculares, podrá generar todo de manera espectacular. Y lo único que nos va
a dejar limitados a ese futuro hipotético que ya sabemos que va a llegar es la computación. O sea,
ahora mismo si tuviéramos computación infinita, pues podrÃamos dejar entrenando a Dalà 8 si
quisiéramos, pero no lo tenemos. IncreÃble, increÃble. Bueno, estas imágenes de aquÃ. Me gustan
mucho las fotorrealistas en general. Un edificio de arquitectura moderna con grandes ventanales de
cristal situado sobre un acantilado con vistas a un sereno océano al atardecer. Pues vale. Y esta
por aquÃ. Vale, aquà hay detallillos que están mal. Vamos a verlo más de cerca. Esto es como una silla en
forma de calabaza, por lo que dicen. Y nada, veo aquà como detalles de la mesa un poco raros. Veo sofás
que tienen una estructura rara. Vale, aquà sà veo ya cositas a las que me tiene más acostumbrado mi
Journey to Stable Diffusion. Fondos donde las cosas fallan. Pero en general, como imagen, es bonita y está bien.
Tenemos algo más. Veo aquà créditos. No tenemos nada más. No tenemos nada más. En serio, ya está, ya está.
Bueno, no tenemos ni un paper. Nada, nada. Bueno, no tenemos nada más. Es que nos mal acostumbraron,
porque con Dali 2 el artÃculo que enseñaron era mucho más completo en cuanto a que también
habÃa funcionalidades nuevas. HabÃa el tema de los in-paintings, que también sorprendió muchÃsimo,
porque era la primera vez que veÃamos una herramienta de esa calidad generando in-paintings.
HabÃa más cosillas. Por ejemplo, también el generar imágenes similares a otras imágenes. El poder
darle una imagen como input y que te generara variaciones. Aquà solamente es un generador de
imágenes con una calidad superior integrado en chat GPT. Esto es muy interesante y es la
nueva versión de Dali 3. Vamos a ver qué nos han puesto en Instagram si hay alguna imagen nueva,
sólo por curiosidad. Ahà está. La del aguacate es brutal. Esta es historia de las imágenes ya.
Y me estabais diciendo que en Twitter el señor Greg Brockman, que va a aparecer por aquà yo creo,
a ver, vamos a buscar. Estamos todos hablando ahora de Dali 3. A ver, Dali 3, Dali 3. Estamos todos,
todos Dali 3. Vale, vale, vale, vale. Carpathy, compañÃa. Genial, genial.
Y esto no, no. More good openAI fine-tuning developer news, team just enabled fine-tuning,
existing fine-tuning models. Todo esto por cierto, esto que estamos hablando de,
estamos hablando de que hay fine-tune. No, esto es como fake, no? Esto te coña yo creo,
porque aquà pone vÃa openAI. No entiendo nada lo que me estés diciendo. Que, que nada,
que esto tiene sentido que esté pasando hoy porque mañana Microsoft va a tener un evento
donde van a presentar cosas y seguramente parte de lo que quieran presentar mañana va a estar
integrado con lo que openAI va presentando hoy. Y esto es una cosa a la que nos tienen acostumbrados,
pasó igual con GPT-4. Primero salió GPT-4 y al dÃa siguiente Microsoft hizo un evento donde
integraba parte de eso en sus herramientas. Entonces no es de extrañar que mañana pueda
haber alguna noticia interesante, alguna novedad interesante y si eso ocurriera pues lo estaremos
contando aquà en el canal. Voy a buscar esto rápido a ver si tenemos algún ejemplillo más
que nos pueda interesar. Vamos a ver, señor Brockman. Vale, me interesan sobre todo imágenes
como ésta, que tengan texto y que me sorprendan un poco. Entonces dice el señor Greg Brockman,
Dali3 está listo y es capaz de entender pequeños detalles y seguir los program con más talento.
Entonces, générame una imagen que ponga Dali y te das una imagen como ésta.
La integración con chatgpt es realmente especial. Para generar esta imagen lo único que le pedÃ
a chatgpt fue que me hiciera un cartón que fuera gracioso y me vino con este concepto y
escribió el prompt detallado para Dali3. Ojito. Vale, fijaos cosas interesantes. El texto te lo
genera, pero no te lo genera a la perfección. Esto le pasa también a otros modelos como éste,
ideogram. Este modelo que sale de un equipo de gente que trabajó en Google y luego se fueron,
fijaos que también genera imágenes bastante espectaculares. De hecho, podrÃa parecer también
lo que hemos visto, quizás un poquito por debajo de este Dali3, bueno, un poquito no,
hay bastantes fallos, pero una cosa que tiene es que te genera el texto bien. No,
we want delete option, bla bla bla. Pero no siempre acierta, no siempre acierta. Hay errores,
a ver si encontramos alguno que se vea. Pero bueno, el texto lo hace bien. You are on the
90 list, the retro attic. Pero a veces te mete alguna letra de más o se equivoca con alguna
letra. Suele ser normal con la forma de funcionar de estos modelos. Ahora, ¿qué pasa con esta imagen?
Que me parece más interesante todavÃa, además de que el portátil no se apoya en ningún lado.
Que hay humor, hay humor en esta imagen. Y esto es curioso, porque dirÃa que hasta ChatGPT,
la parte del humor, todavÃa se la traganta. Entonces ChatGPT ha dicho, vale, quiere un cartón,
un cartón normalmente suele ser gracioso. Como es gracioso, voy a pensar una situación graciosa y
aquà lo curioso serÃa, claro, con los modelos multimodales ya no sabemos si la idea se genera
en un espacio latente común o si la idea surge el humor, el concepto de humor está modelizado
en la parte de texto, pues empieza a decir, vale, algo gracioso podrÃa ser que un programador esté
en situación inverosÃmil en la playa, trabajando. Y esto podrÃa acompañarlo con el texto tal.
Entonces te genera el prompt y luego dale I3, haz el trabajo o que el humor esté codificado en la
parte visual, que serÃa algo más loco, pero tenemos que empezar a pensar un poco en clave de
esta forma, donde está modelizado el concepto del humor, por asà decirlo, y es súper curioso.
¿Qué más? ¿Qué más me cuentas? Note that the text is much better than previous system,
but still not always perfect on first try. Claro, que el texto falle no es problemático,
porque según dicen tú vas a poder pedirle instrucciones a ChatGPT para decir, oye,
edÃtame esto para que corrÃgeme el texto. Vuelve a intentarlo, pero corrigiéndome el texto,
y deberÃa generarte una imagen igual con esa corrección. Entonces es curioso.
Como otro ejemplo, o sea, a modo de otro ejemplo, aquà le he preguntado a ChatGPT hazme un meme
gracioso. Tiene que ser poco parecido a cualquier cosa que hayamos visto antes,
y entonces con esto, prompteo a Dalà con la frase un pingüino en el desierto con una mochila que
está confundido. Y entonces dice, con un texto que dice, creo que he reservado el vuelo al lugar
equivocado. Y está bien. Excepto esto que está mal escrito. Dice que no está Cherry Picket,
es decir que le ha dicho ponme un meme gracioso y le ha salido esto de la primera, y está bastante
guay. De nuevo, aquà por lo que parece es ChatGPT el que se ocupa de eso. Otra cosa que hay que
pensar es que a lo mejor dentro de la multimodalidad que estamos hablando, como no hay paper,
no lo vamos a poder saber. Esto es una cosa que vamos a criticar de nuevo en alto y es,
maldita sea OpenAI, dónde están los papers, dónde están los papeles, dónde están los
artÃculos cientÃficos para entender un poco más cómo funciona esto. A lo mejor la multimodalidad
en este caso no la están construyendo como tal, es decir, no están haciendo un entrenamiento de
de cero, y es lo más probable, donde se está entrenando la parte de texto y visual, sino que
directamente están conectando a Dali3 con la parte de texto de ChatGPT. Lo cual tiene sentido,
por ejemplo, de cara a eficiencia al consumo energético, al consumo de computación. Tiene
sentido para una empresa que va a abrir esto a millones de usuarios. Pero bueno, es curioso.
Podemos utilizar Dali3 para hacer algunas visualizaciones interesantes. Por ejemplo,
un procesador que pone Ignite your creativity with Dali3. Esta imagen está guapa, excepto
porque hay distorsión en el detalle fino que le falla, pero está guapa. Vista de lejos está
bastante bien. Y creo que este es el último post. Quiero saber vuestras impresiones. Quiero
saber vuestras impresiones sobre la tecnologÃa que hemos visto hoy. OpenAI de la nada aparece
con este bombazo, sin avisar. A mà nadie me ha avisado de esto, pero bastante chulo, bastante
impresionante ver que al menos siguen trabajando en esta lÃnea, porque yo sà notaba que la habÃan
dejado muy abandonada. El producto de Dali3, la marca de la casa de OpenAI, estaba quedándose
muy atrás frente a la competencia y al menos con esto igualan la puesta y en algunos casos la
mejoran. Yo creo que está a la par con midjourney y mejoran la parte de texto y quizás alguna parte
de comprensión del prompt. Han hecho un muy buen trabajo. Vuelve a ser atractivo al generador de
imagen de OpenAI. Entonces, es una muy buena noticia y nos habla mucho de hacia dónde se está
moviendo OpenAI, que es centralizar en una única herramienta, que parece ser ChatGPT. Pues todo.
GPT4 es ChatGPT. Dali3 estará conectado a ChatGPT. Por favor, Whisper. En la aplicación lo tenemos,
pero no están conectados. Quiero que Whisper esté dentro de ChatGPT. Y por favor, que creen
ya un generador de voces, un sintetizador de voz que me hable y yo no tenga que escribir más nunca
a ChatGPT. Porque si yo creo una obra de arte con Dali3, pues yo quiero hablarle. Quiero generar
arte con mi boca, porque asà somos vagos. Con estos prompts tan largos no pido menos. Y nada,
chicos, chicas, era este el directo. Era esto, era un poco hacer este unboxing con vosotros. Me voy
contento, me voy sorprendido, menos sorprendido que cuando vi Dali2, porque Dali2 fue realmente
espectacular. Fue el momento wow, fue el comienzo de toda esta revolución de la generación de
imágenes, pero contento porque se haya hecho este movimiento. Y nada más, nos despedimos. Tenéis
vÃdeos, tenéis un montón de contenidos, por cierto, aprovecho y os lo cuento. Tenéis el vÃdeo que
subà a este canal la semana pasada, 28 minutos, hablando del futuro de la inteligencia artificial.
Tenéis vÃdeos en el canal nuevo, porque hay un canal nuevo, no sé si lo sabéis, donde probamos
todas estas herramientas y donde probaremos Dali3 cuando salga. Tenéis un vÃdeo sobre clonación
de voz en diferentes idiomas y también de stable audio, el stable diffusion de audio, probándolo.
Y tenéis dos directos, este de hoy, y tenéis el directo de la semana pasada con Andrés Torrubia,
que fue un directo bastante chulo, de tres horas hablando y profundizando sobre muchos de los
conceptos que si os gustó el vÃdeo del pasado domingo, en aquella conversación salieron muchos
temas interesantes y se profundizaron incluso aún más. Asà que si estáis en el gimnasio
levantando hierro, si estáis pasando por la calle, si estáis trabajando y queréis que vuestra
cabeza vuele y explote, pues tenéis esa conversación por ahÃ. Chicos, chicas, 800 mil seguidores. Me
acaba de recordar alguien en el chat. Muchas gracias por estar ahÃ, muchas gracias por el apoyo que
está recibiendo el canal nuevo, el DotCCV Lab, y nos vemos en un próximo directo o en un próximo
vÃdeo con más más información. ¡Os quiero!