🔴 OpenAI anuncia DALL-E 3!!! (Primeras impresiones)

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

results.

Mention graph

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Salta la noticia. Hola chicos y chicas ¿qué tal estáis? Bienvenidos a un directo improvisado
porque si lo estáis viendo bien en pantalla, tenemos un nuevo juguetito. OpenAI, la empresa
que revolucionó el mercado y la industria de la generación de imágenes con inteligencia
artificial con la salida de Dali2 en abril de 2022, acaba de sacar la tercera versión del
modelo sin que nadie la esperara. No se esperaba nada, no se esperaba nada de OpenAI. Yo ya estaba
bajando la persiana de mi trabajo y estaba aquí grabando vídeos para vosotros. Ya he ido a descansar
un poquito, me he sentado ahí en el sofá y digo a ver si ha pasado algo en Twitter. Miro y me sale
tweet de Sam Almond, 20 segundos. Pues eso, que nada, que ahí está Dali3. Confirmadme si se oye bien,
qué tal, qué tal, se oye bien, se ve, se oye bien. Necesito saber esta información y arrancamos. No
he mirado nada, ¿vale? No he mirado nada, puede que se oiga con eco, puede que se escuche un poco con
eco porque la habitación la tengo con mala acústica ahora mismo. Perfecto. Dali3, no he abierto nada
porque he querido hacer el unboxing de todo esto con vosotros. Todavía no hay modelo, es decir, no se
puede probar, pero podemos ver todo lo que han sacado. Lo único que he visto es esta imagen de
aquí que han publicado. Tenemos el tweet de OpenAI, pues quiero que lo veáis bien, aquí se ve. Dice
nuestro siguiente modelo de texto a imagen Dali3 puede traducir peticiones en imágenes que son
precisas y detalladas respecto al prompt que le estamos pidiendo. Pronto llegará a ChatGPT Plus
y Enterprise, ¿vale? Dentro de poco vamos a tener dentro de ChatGPT Plus el acceso al modelo de
Dali3, lo cual también te va a permitir ayudar, o sea, te va a ayudar a crear prompts increíbles
que llevarán tus ideas a la realidad, ¿vale? Esta imagen de aquí ya no da muchas pistas de lo que
podemos esperar de Dali3 y esta imagen acaba de pasar en cuestión de minutos a la historia de las
imágenes de la misma forma que en el pasado imágenes como la silla en forma de aguacate, de ahí el meme,
como sigue evolucionando el meme dentro de OpenAI, pues me hace mucha gracia. La silla en forma de
aguacate fue la primera demostración técnica que más se popularizó cuando salió Dali1, cuando era
sólo un proyecto de investigación y el año pasado la recuperaron con la salida de Dali2, pues
demostraron cómo había sido la evolución, de antes podíamos hacer esto, ahora tenemos esta calidad y
nos sacaron la silla en forma de aguacate. Entonces ahora con esto lo que nos están demostrando es
lo siguiente, hey, sí, podemos hacer aguacates, podemos hacer sillas, podemos tumbar el aguacate
en una silla porque está en una terapia con una cuchara que es su psicólogo y además el texto,
el prompt, o sea el texto que le han puesto en el prompt para que se genere y lo ha generado
bastante bien es I just feel so empty inside y lo ha clavado, ¿vale? Lo ha clavado. Entonces aquí
parece que la cosa se ve interesante. ¿Podéis confirmarme que está todo correcto? ¿Sí? ¿Todo
bien? ¿Todo bien? ¿Por qué me decís palta? ¿Por qué me decís todo palta? No entiendo nada. Vamos para
dentro, vamos a leer el artículo, vamos a ver qué novedades nos trae y vamos a ver cómo está la
cosa. Pensemos que en la industria de generación de imagen, Dali 2 generó la granola, generó el
impacto, el tsunami, pero rápidamente fue adelantado por otros competidores. Al mes de salir Dali 2,
Google sacó sus proyectos, Google imagen, sacaron Party, sacaron Fennaky, si no recuerdo mal. Meta
también sacó Make an Image, es decir, muchas empresas se unieron a esto y poco a poco empezó
a aparecer ahí otra empresa que generaba ruido, no sé si os suena, Mid Journey, que poco a poco
fue generando cada vez más modelos, mucho más potentes, más interesantes que a mi punto de vista,
yo creo que al de todos, a día de hoy supera con creces a Dali 2. Entonces es interesante cómo una
empresa que tuvo la iniciativa se ha quedado muy atrás respecto a sus competidores y no hablemos
de Stable Diffusion que ha generado toda la ola y toda la repercusión que ha tenido en el mercado
open source. Entonces Dali 3 nos tiene que traer algo bueno, nos tiene que traer algo potente para
poder empezar a funcionar. Entonces vamos a ver qué vemos aquí, pues Dali 3 entiende significativamente,
bueno voy a traducir la página si la podemos traducir, ahí está. Dali 3 comprende mucho más
matices y detalles que nuestros sistemas anteriores, lo que le permite traducir fácilmente sus ideas
en imágenes excepcionalmente precisas. Y nos muestran aquí cuatro imágenes de las cuales,
pues mira aquí tenemos el prompt, que lo estabais preguntando. Una ilustración de un aguacate sentado
en la silla de un terapeuta diciendo, me siento tan vacío por dentro con un agujero del tamaño
de un hoyo en el centro. El terapeuta una cuchara garabatea notas. Y ya está. Se lo das a Dali 3
y le dices, trabaja, genera, work for me. Y te hace esta pedazo de ilustración. Bastante bastante
decente, bastante bastante decente. De hecho de las cuatro imágenes que veo aquí son muy bonitas
todas, pero esta es la que más me impresiona. ¿Qué tenemos aquí? Vemos una animación en dos dimensiones
de una banda de música folclórica compuesta de hojas otoñales antropomorfas. Cada una tocando
instrumentos tradicionales de bluegrass en medio de un entorno de bosque rústico salpicado de la
suave luz de una luna llena. Y para mí creo que es la imagen perfecta. Responda el prompt, perfecta.
No está teniendo que especificar detalles. Al estilo de tal o este estilo concreto. Le das
todos los elementos, le dices que quieres una animación 2D y te lo hace. Vamos a ver esto en
tamaño grande. 1024x1024. Estoy arriba viendo la resolución de lo que genera. Vamos a ver de cerca
algunos detalles. Veo que hay detalles fino que está bastante bien hecho. Pues los brazos están
bien hechos. Todo en general está bastante bien hecho. Lo único que noto son aquí imperfecciones,
pero que puede ser incluso del propio estilo 2D que están que están aplicando. Entonces,
bastante bastante decente. Aquí hay algún fallillo en el ojo, pero así visto en grande
no está nada mal. Por aquí quizás veo algún artefacto extraño, pero bueno, ¿qué más tenemos?
Madre mía. Frente a un fondo negro intenso, una figura de mediana edad con su piel tóngana,
rica y brillante. Esta es la traducción. Es capturada en medio de un giro con su cabello
risado flotando como una tormenta detrás de ella. Su atuendo parece un torbellino de fragmentos de
mármol y porcelana. Iluminada por el brillo de los fragmentos de porcelana esparcidos,
creando una atmósfera de ensueño, la bailarina logra parecer fragmentada,
pero mantiene una forma armoniosa y fluida. Esta sería la imagen que ha generado.
¿Visto la longitud de estos prompts? Wow, bastante guapa la imagen.
A ver esas manos, ¿cuántos dos tiene? Una, dos, tres, cuatro...
Vale, visto la longitud de los prompts, tiene todo el sentido el tema de chat GPT de por medio.
Y este de aquí, foto de una silla esférica inspirada en el litchi, no hemos perdido la silla en forma
de aguacate, con un exterior blanco lleno de baches y un interior lujoso contrastada con un
papel tapiz tropical. Y aquí lo tenemos. Es muy fuerte que en el pasado, y cuando digo en el pasado,
digo en 2016, si tú haces suma a esto, esto podría ser una imagen de lo que ella generaba hace tres
años. Generaba este tipo de imágenes, tal cual, este tipo de patrones repetidos y ahora pues tenemos
esto. Entonces, visto esto, vamos a seguir bajando a ver qué más sorpresas nos deparan.
Yo en su momento, y no lo estoy viendo, así que sospecho que no, en su momento dije que creía que
Dali3 iba a tirar por el 3D. O sea que iba a tener por primera vez un modelo generando 3D,
y creo que no va a ser el caso. Dali3 es mucho mejor que Dali2 a la hora de crear imágenes que
siguen de cerca indicaciones complejas. Por ejemplo, Dali3 puede representar con precisión una escena
con objetos específicos y las relaciones entre ellos. Algo que se le criticaba mucho a Dali2
respecto a su inteligencia, al que no pudiera ordenar los elementos en una escena. Dali3 ofrece
mejoras significativas sobre Dali2 al generar texto dentro de una imagen y en detalles humanos
como manos. Bien, Dali3 crea imágenes atractivas de forma predeterminada sin necesidad de hacks
ni ingeniería rápida. Se encuentra en versión preliminar, investigando y estará disponible pronto.
Esto no va a llevar un ratito, pero no tenéis tiempo, estáis cómodos aquí conmigo. Los
sistemas modernos de conversión de texto-imagen tienden a ignorar palabras o descripciones. Esto
es cierto. Lo que obliga a los usuarios a aprender ingeniería rápidamente. Esto es una mala traducción
de prompt engineer. Eso lo hemos visto, tú haces un prompt que es muy largo y alguna palabra se le
olvida. Si tú le pides quiero un león con gafas de sol haciendo surf sobre una ola tropical, a lo
mejor te pone el león surfeando pero no le pone gafas de sol, por ejemplo. Dali3 representa un
salto adelante en nuestra capacidad de generar imágenes que se adhieran exactamente al texto
que proporcionas. Oye, que en el prompt le he pedido que ponga un sidewalk lleno de gente que
está disfrutando de la noche. Pues mira, te lo hace. Que quiero que aparezca la luna brillando
en el fondo, te lo mete. Que quiero que haya un vendedor que tenga cara de gruñón, alto,
sofisticado, que está llevando un traje, bla bla bla. Te pone todos los elementos que le pidas.
Parece que se están centrando mucho en esto, en la comprensión del prompt por parte de dali3.
Qué raro se me hace decir dali3, se me hace muy raro. Pero parece que es esto. El gran avance
respecto a dali2, además de la mejor calidad, son prompts mejor entendidos. Aquí están estas
comparaciones, me encantan. Incluso con el mismo prompt dali3 ofrece mejoras significativas sobre
dali2. Ahí está. Este prompt, una expresiva pintura al olio de un jugador de baloncesto
haciendo un mate, representado como la explosión de una núvolos nebulosa, dali3 te consigue hacer
esto. Cuando dali2 te podía hacer esto de aquí. Entonces sí hay una mejora significativa. La cosa
es que estamos muy mal acostumbrados con stable diffusion xl y mid journey. Esta imagen yo la veo,
pero ya no me genera ese efecto wow de una i ha creado esto porque ya estamos mal acostumbrados
por las otras ias que son bastante potentes. Y esta imagen era muy guapa. Y me acuerdo que
me flipaba porque tiene el estilo como si estuviera pintada con cera. Y tiene un estilo
muy chulo pero que luego aprendí a reconocer que era un estilo característico de todas las
imágenes de dali2. No es que tuviera estilo de cera sino que todas las imágenes incluso las
realistas tenían un efecto, una textura rara. Que aquí no la estoy viendo por cierto. ¿A cuánto de
vosotros os gusta más la de la izquierda? ¿A cuánto de vosotros os gusta más la de la derecha? Decidmelo,
ponedlo ahí abajo. Seguimos. Dali3 está construido de forma nativa en chat gpt. ¡Ojo! Vale, vale,
vale, vale, vale, vale, vale, vale, vale, vale, vale, vale, vale. Ojo que le acaba de crecer una
cabeza a chat gpt. Ojito que se viene la ia multimodal. ¡Ojito que se viene la ia multimodal!
Si recordáis en el último vídeo hablamos de multimodalidad ¿vale? Una inteligencia artificial
que puede aceptar diferentes tipos de datos como input y que puede generar diferentes tipos de
output como salida. Dali3 está integrado dentro de ChatGPT lo que significa que
ChatGPT va a ser la parte lingüística, la que puede generar el texto y Dali3 va
a poder generar las imágenes. Ojito, ojito, ojito, que se viene la multimodalidad no
sólo en input sino también en output. Y esto mola porque seguramente en
noviembre, que va a ser el evento de developers de OpenAI, van a sacar algo
más tocho. Van a sacar, no sé, no sé si van a tirar ya por la parte de visión
por computador, es decir que también acepte, sí seguramente es que lo vamos a
ver, si están sacando la multimodalidad de salida van a sacar la multimodalidad de
entrada casi seguro. Si es que no lo sacan antes. Imaginaos en un futuro un
ChatGPT que sea el cerebro, el GPT-5, lo dije en el último vídeo, que tenga
input de imágenes, salida de imágenes, que tenga input de texto, salida de texto y
que tenga input de audio, whisper integrado y que tenga como salida
generación de audio. Que tú le hables, le des una foto o le metas texto y te
pueda responder y hablarte de una foto, generar tu imagen, todo eso, todo eso va
a llegar. Y parece que OpenAI se está moviendo ahí. Esto me gusta, esto me, esto
me pone. Dali3 en ChatGPT. Cuando se le solicite una idea, ChatGPT generará
automáticamente indicaciones detalladas y personalizadas para Dali3 que darán
vida a su idea. Si te gusta una imagen en particular que no queda del todo bien,
puedes pedir a la ChatGPT que haga ajustes con sólo unas palabras, ¿vale? Parece que
tiene esto de generar prompt de instrucciones para modificar una imagen
de forma nativa, ¿vale? Es decir, tú generas la imagen, me invento, ¿no? La del
deportista, ¿no? Saltando a la canasta y le dices, oye, muy guay, muy chula, 10 de 10,
crack ya, pero ponme el 23, ¿vale? No quiero el 21, quiero el 23, you know. Entonces te lo podrá
modificar, entiendo. Dali3 estará disponible para los clientes de ChatGPT+, los que
pagamos GPT4 y Enterprise a principios de octubre, es decir, en dos semanas, dos, tres
semanas. Están buscando GPUs, están ahí moviéndose por Silicon Valley a ver si
encuentran H100 y bueno, cuando las tengan enchufadas ya no dejan acceso. Al igual que
con Dali2, las imágenes que cree, me lo he saltado, me he puesto a mirar aquí el chat y me he despistado.
Al igual que con Dali2, las imágenes que cree con Dali3 son suyas para usar y no
necesita nuestro permiso para reimprimirlas, venderlas o comercializarlas. Para vosotros,
jugadores. Y tenemos un vídeo. Esto me encanta, esto va directo a YouTube. Vamos para allá. Aquí
vemos ChatGPT que le han puesto el punto final en referencia a .csv, evidentemente, y ahora
esto refuerza mi idea de llamar Yepeto a ChatGPT. Pero bueno, el vídeo hace lo siguiente.
Vale, dice mi hija de 5 años nos deja de hablar de un super duper Sunflower. ¿A qué se parece eso?
¿A qué se parece un Sunflower, un girasol, un erizo de girasol? Ahí está ChatGPT pensando.
Vale, ha dicho se llama Larry tal, no sé qué. Entonces le ha generado una versión con el
nombre, con el texto. Y la calidad de la imagen que genera, muy muy chula, muy muy chula.
O puedes mostrarme a Larry siendo kind hearted, siendo pues eso. Y ahí está el erizo. Vamos a
mirar una cosita súper interesante. Vamos a mirar si hay coherencia en Larry. Vamos a ver si Larry
se parece entre imágenes, porque esto es una cosa que se persigue mucho con mi journey y todas estas
guías. Porque imagínate que tú estás ilustrando, me invento una novela infantil como esta de aquí.
Claro, tú quieres que Larry mantenga coherencia entre las páginas, no que vaya siendo un
personaje diferente. Entonces vemos que Larry, pues algún atributo, las cejas. Tiene cejas,
tiene las manitas. Vamos a ver a Larry antes. Tiene cejas, tiene manitas. Creo que modifica
un poco. Creo que no es exactamente igual Larry, pero más o menos se parece. Y luego le dice...
Podrías hacerme unos cuantos stickers. Te hacen los stickers. Muy buena calidad. Se aproxima mucho
a mi journey. Bueno, no, se aproxima, no. O sea, lo iguala. Y en algunos casos, bueno, habría que probarlo.
Habría que testarlo bien.
¿Vale? Podrías crear ahora una novela... Madre mía. Madre mía, cuando empiezas a ver las piezas juntas,
o sea, aunque sabemos que va a llegar, cuando empiezas a ver las piezas juntas... Mola, ¿vale?
Porque aquí lo que estamos viendo es, bueno, ¿puedes crearme una novela infantil? Entonces,
ChavGPT, con su inteligencia, te va a hacer una novela infantil que te va a ilustrar de golpe.
Larry ha cambiado. Este Larry no es nuestro Larry. Este no es mi Larry. Larry era diferente,
amigos. Larry ha cambiado. Esto lo tienen que arreglar. Estoy mirando todos los detalles. Quiero
ver si hay artefactos raros. Pues aquí veo un pétalo que no toca. Veo aquí algo extraño,
una estrella fuga un poco rara. Hay brochazos raros en el cielo, pero en general está bien.
Una cosa que tenemos que entender es que esto... Qué guapo, Dali3, que me gusta. Esto que estamos
viendo aquí realmente no es 100% nuevo, porque quien haya trabajado con BingChat, que sabéis que
BingChat no deja de ser GPT-4 en cierta forma, en cierto sabor, BingChat ya tenía acceso a
un generador de imágenes que era un Dali2 vitaminado. La gente sabía que ese era un
Dali2 más avanzado. Entonces, no hay un salto tan claro, sino que ha sido algo más paulatino si
has pasado por ese punto. Si has trabajado con BingChat generando imágenes. Pero bueno,
para muchos es algo nuevo. Un enfoque en la seguridad. Esta no nos gusta. Bueno,
no os gusta a vosotros, que os quejáis mucho. Al igual que las personas anteriores,
hemos tomado medidas para limitar la capacidad de Dali3 de generar contenido violento para
adultos u odioso, bajo los criterios de OpenAI. Recordemos que el año pasado una de las polémicas
que tenía Dali2 era que no te permitía generar imágenes donde en el prompt apareciera la palabra
Ucrania. Dali3 prevenir generaciones dañinas. Dali3 tiene mitigaciones para rechazar solicitudes
que soliciten una figura pública por su nombre. Mejoramos el desempeño de seguridad en áreas de
riesgo como la generación de figuras públicas y secos dañinos relacionados con la representación
excesiva e insuficiente, para ayudar a informar nuestras evaluaciones de riesgos y esfuerzos de
mitigaciones en áreas como propaganda y desinformación. Que tienen controlado todos
los temas éticos que están relacionados con estos sistemas. Probas internas. También
necesitamos investigar las mejores formas de ayudar a las personas a identificar cuando se
creó una imagen con IA. Estamos experimentando con un clasificador de procedencia. Esto me gustaría
ver cómo es en inglés la traducción. ¿Cómo puedo deshacer la traducción de Google? A ver cómo se
llama esto. Provenant classifier. A new internal tool that can help us identify whether or not
the image was generated. Vale, bueno que están trabajando con sistemas de detección de imágenes
que sabemos que es uno de los grandes problemas que se viene con todo esto de la IA generativa.
Tanto en texto como en imágenes pues nos vamos a encontrar con esto. Con problemas de contenido
en internet que no vamos a saber diferenciar si es real o no. Ya está pasando. Ya todo el mundo ha
volcado en internet. Algún vídeo, bueno el vídeo todavía se detecta, algún texto que no ha sido
escrito por un humano sino por una IA. Entonces eso es un problema. Control creativo. Esto me mola.
Dali3 está diseñado para rechazar solicitudes que soliciten una imagen al estilo de un artista
vivo. Ojo, interesante. Esto es una de las grandes polémicas. Artista vivo además. Esta es una de
las grandes polémicas que tuvo stable diffusion originalmente. Que todo el mundo usaba en los
prompts. Quiero que me hagas una imagen al estilo de Greg Rukowski. Por ejemplo, era un prompt
super típico. Esto lo que generó fue que Greg Rukowski, que es un artista vivo, dijera what the fuck
que está pasando aquí porque todo el mundo está pirateando mi estilo. Si es que un estilo se puede
piratear. Pero es cierto que es un tema delicado, éticamente delicado y estoy de acuerdo en que se
haga esto porque si quieres conseguir un estilo de un artista semejante, al menos mojate el culo.
La expresión de si quieres pese mojate el culo, pues mojate el culo para intentar aprender qué
estilo está representando y reflejalo en el prompt. Los creadores ahora también pueden excluir sus
imágenes del entrenamiento de nuestros futuros modelos de generación de imágenes. Han puesto
un sistema, un formulario, por lo que estamos viendo aquí, para hacer lo que se denomina un opt-out.
Un opt-out es esto. Tú dices, hola soy el artista de tal y quiero que me saques del dataset porque
no me parece ético ni legal. Lo cual es delicado también porque la cosa es que un artista no
debería de tener que pedir permiso para que le quiten un dataset, sino que la empresa debería
de pedir permiso para usar ese dataset. Ese es un poco también un debate que está ahí sobrevolando
y que es interesante que conozcáis. Entonces, vamos a ver unas cuantas imágenes que tenemos por
aquí. Vamos a estar analizándolas. No tenemos prisa, nadie tiene prisa. Dice, quiero la silueta
de un piano de cola con vistas a un paisaje urbano oscuro visto desde un ático en el último piso,
representada con el estilo audaz y vívido de un cartel de viaje antiguo. Y te das una imagen
muy guapa. Te das una imagen muy muy guapa. Veo muy pocos artefactos. Veo, por ejemplo, detallitos
aquí, veo cosillas aquí, pues las ventanas, pero es que hasta casi casi lo podemos achacar al estilo
de esto. Si te acercas sí se nota. Si te acercas sí hay más fallos, pero visto desde lejos,
en términos generales está bastante bien. Está bastante bien. Me decís que tiene tres patas.
Desconozco si un piano tiene que tener cuatro patas. Podría tener tres. Mi mesa, la que estoy
apoyado ahora tiene tres patas. La silla. La silla la vemos mal. Os parece que está mal. Me parece
que está mal la sombra de la silla. Esto de aquí no coincide con esto de aquí. Pero entendedme,
respecto a Dali 2 ha mejorado. Ha mejorado bastante en cuanto a fallos. Pero sí, sí es cierto que si
te vas fijando empiezan a aparecer cosillas. Pero la imagen es esta. La imagen es esta. ¿Qué más
tenemos? Vamos a ver. Ojo, la calidad es muy buena. La calidad, señoras y señores, es muy buena.
Si os fijamos en el patrón del suelo, que excepto en esta zona, más o menos se respeta. Son como los
patrones repetidos que se empieza a liar. Aquí, por ejemplo, si se ve algo más raro. El plátano
está genial. Todo esto, el sillón en forma de plátano. La cortina como cae y como se apoya. La
iluminación que entra por aquí. Fijaos que aquí hay como un glow por encima de la ventana. La sombra
que proyecta por la pared tiene bastante sentido. Es decir, yo veo esta imagen en general y la veo
bien. De hecho, lo único que no me gusta es el cuadro este. Este cuadro está mal hecho, Dali.
Deberías de recurrentemente llamar a Dali 3 para generar un cuadro dentro de tu cuadro.
¿Qué más? Dios, qué desagradable. Cuánta carne. Un vasto paisaje compuesto íntegramente de
diversas carnes se extiende ante el espectador. Tiernas y suculentas colinas de roast beef,
muslos de pollos, ríos de tocino y cantos rodados de jamón crean una escena surrealista pero
apetitosa. El cielo está adornado con sol de peperoni y nubes de salami.
Vale, está todo bien pero las nubes no son de salami.
Esto, además de que me van a desmonetizar yo creo el vídeo por tanta carne así puesta
junta. Esto no es salami, amigos. Pero bueno, está bastante bien. ¿Qué más? Artesanía en
papel representa a una niña dándole un suave abrazo a su gato. Ambos están sentados entre
macetas con el gato ronroneando. Está muy guay que respeta mucho esto, la composición de la
escena. Ambos están sentados entre macetas con el gato ronroneando contento mientras la niña
sonríe. La escena está adornada con flores y hojas de papel hechas a mano. Muy bien.
Esta está guapa, Dios. Ojo, aquí difícil esta, esta es complicada.
A ver, un diorama en minimapa de una cafetería adornada con planta de interior,
lo tenemos, vigas de madera se entrecruzan arriba y se destaca una estación de preparación de
cerveza fría con pequeñas botellas y vasos. ¿Qué es esto? Lo de Cold Brew que comenta.
Entonces está bien, pero el texto aquí falla un poco. Aquí tendrías que retocarlo, sin ninguna
duda, en algún software. Pero se ve muy guapa. La imagen en general, si te empiezas a fijar en
los detalles, falla, como siempre. La perspectiva aquí es un poco rara. Y esta vea aquí,
o sea, la perspectiva falla. Esta vea aquí no se corresponde, no debería estar. Esta vea aquí
no toca, pero en general está muy bien. Vale, ¿qué más tenemos? Esta me gusta.
Pequeños reyes de la papa con coronas majestuosas sentados en tronos supervisando
su vasto reino de la papa lleno de súbditos y castillos de papa. Son papas, son papas con
ojos. Papas con ojos sonrientes. Este tiene el ojo aquí arriba. Qué bueno. Castillo de la papa.
Greg Brockman está lanzando más ejemplos por Twitter. Ahora los miramos. Ahora vamos para ella.
Vamos con una que tenga texto. Esta de aquí. Un cartel de viaje antiguo de Venus en orientación
vertical. La escena muestra las espesas y amarillentas nubes de Venus con la silueta
de un antiguo cohete acercándose. Aquí está. Formas misteriosas insinúan montañas y valles
debajo de las nubes. El texto inferior dice, explora Venus, la belleza detrás de las nieblas.
Explore Venus. Ojo, que está el texto entero. Dice, explore Venus behind the mist, detrás de la
niebla. Y aquí el texto se pierde un poco. Aquí ya esto se lo inventa, pero esto, esto y esto está
bien. Vale, ojo, que esto lo haya clavado sí que sorprende bastante. Que esto lo haya clavado es
bastante guapo. Más, más cosas, más cosas. Otro contexto. Ilustración de un corazón humano hecho
de vidrio translúcido colocado sobre un pedestal en medio de un mar tormentoso. Los rayos del sol
atraviesan las nubes iluminando el corazón y revelando un pequeño universo en su interior.
¡Ala! Mira que bonito. La cita encuentra el universo dentro de ti. Está grabada en mégrita en el
horizonte. No está en el horizonte, te equivocaste. Find the universe within you. No está en el
horizonte, pero está. Lo cual es interesante. Y la imagen de nuevo, muy guapa, muy guapa.
Madre mía, la gente, la perspectiva está mal. Mist se escribe con una S. No me impresiona,
esto lo hago con el paint. Me parece correcto. Vale, otra imagen. Esta imagen, o sea, es que
nos acostumbramos tan rápido a las cosas que esta imagen hace un año nos hubiera volado la cabeza.
Hace dos la hubiéramos tachado de imposible, hubiéramos dicho, la tecnología no está ahí. No te
flipes. Una inteligencia artificial haciendo esto, imposible. Y aquí está. Vale, más, más, más. Estoy
abriendo las que más me impresionan visualmente, que son bastantes. Esta está muy guapa. Una
representación 3D de una taza de café colocada en el alféizar de una ventana durante un día
tormentoso. La tormenta fuera de la ventana se refleja en el café, con relámpagos en miniatura
y olas turbulentas dentro de la taza. La habitación está poco iluminada, lo que contribuye a la
atmósfera dramática. Sí, pero no. Es decir, yo creo que lo que se estaban imaginando aquí eran
truenos cayendo sobre la taza. Y no es lo que estamos viendo, pero la imagen está guapísima.
O sea, la imagen está brutal. No nos engañemos. Más, más. Esta, que es fotorrealista. Esta imagen,
señores. O sea, esta imagen, fijaos en los detalles. Fijaos en los detalles. A ver, esta resolución,
¿cuánta es? Esta es 3200. Esta es 1792 x 1024. Ojito, esto es más de lo que estamos acostumbrados.
Esta es más grande. Esta es igual de alta, pero más ancha. Y tenemos pues un bonito cangrejito
ermitaño dentro de su casa. Y vemos que la foto le cubre la espuma del mar y además tiene como
un poco de, cuando dejas el tiempo de exposición, un poquito más tiempo y se ve como el agua con
poquito de forma de seda. Bastante chula, ¿no? Dice, fotografía en primer plano de un cangrejo
ermitaño enclavado en arena húmeda con espuma de mar cerca y los detalles de su caparazón y la
textura de la arena acentuados. Muy guapo. Muy guapo. Muy, muy guapo. No sé. O sea, realmente la
respuesta la sabíamos por mid-journey, pero sí, la inteligencia artificial puede crear cualquier
tipo de imagen. Puede crear cualquier tipo de imagen. O sea, si le ponemos en un prompt cualquier
cosa, te lo genera y te genera infinitas versiones, infinitas versiones de esa imagen. Y eso para mí
siempre ha representado algo muy importante porque una imagen no tiene ninguna característica
diferenciadora con respecto a otro tipo de datos. Es decir, una canción es un dato diferente una
imagen. Efectivamente, una tabla de datos es un tipo de datos diferente una imagen. Un vídeo
tiene dimensión temporal, lo entendemos, pero son datos. Y si la IA puede modelizar los datos de
esta forma, para mí esto demuestra que la inteligencia artificial puede modelizar cualquier
tipo de datos y podrá generar canciones espectaculares, podrá generar vídeos espectaculares,
podrá generar audios espectaculares, podrá generar todo de manera espectacular. Y lo único que nos va
a dejar limitados a ese futuro hipotético que ya sabemos que va a llegar es la computación. O sea,
ahora mismo si tuviéramos computación infinita, pues podríamos dejar entrenando a Dalí 8 si
quisiéramos, pero no lo tenemos. Increíble, increíble. Bueno, estas imágenes de aquí. Me gustan
mucho las fotorrealistas en general. Un edificio de arquitectura moderna con grandes ventanales de
cristal situado sobre un acantilado con vistas a un sereno océano al atardecer. Pues vale. Y esta
por aquí. Vale, aquí hay detallillos que están mal. Vamos a verlo más de cerca. Esto es como una silla en
forma de calabaza, por lo que dicen. Y nada, veo aquí como detalles de la mesa un poco raros. Veo sofás
que tienen una estructura rara. Vale, aquí sí veo ya cositas a las que me tiene más acostumbrado mi
Journey to Stable Diffusion. Fondos donde las cosas fallan. Pero en general, como imagen, es bonita y está bien.
Tenemos algo más. Veo aquí créditos. No tenemos nada más. No tenemos nada más. En serio, ya está, ya está.
Bueno, no tenemos ni un paper. Nada, nada. Bueno, no tenemos nada más. Es que nos mal acostumbraron,
porque con Dali 2 el artículo que enseñaron era mucho más completo en cuanto a que también
había funcionalidades nuevas. Había el tema de los in-paintings, que también sorprendió muchísimo,
porque era la primera vez que veíamos una herramienta de esa calidad generando in-paintings.
Había más cosillas. Por ejemplo, también el generar imágenes similares a otras imágenes. El poder
darle una imagen como input y que te generara variaciones. Aquí solamente es un generador de
imágenes con una calidad superior integrado en chat GPT. Esto es muy interesante y es la
nueva versión de Dali 3. Vamos a ver qué nos han puesto en Instagram si hay alguna imagen nueva,
sólo por curiosidad. Ahí está. La del aguacate es brutal. Esta es historia de las imágenes ya.
Y me estabais diciendo que en Twitter el señor Greg Brockman, que va a aparecer por aquí yo creo,
a ver, vamos a buscar. Estamos todos hablando ahora de Dali 3. A ver, Dali 3, Dali 3. Estamos todos,
todos Dali 3. Vale, vale, vale, vale. Carpathy, compañía. Genial, genial.
Y esto no, no. More good openAI fine-tuning developer news, team just enabled fine-tuning,
existing fine-tuning models. Todo esto por cierto, esto que estamos hablando de,
estamos hablando de que hay fine-tune. No, esto es como fake, no? Esto te coña yo creo,
porque aquí pone vía openAI. No entiendo nada lo que me estés diciendo. Que, que nada,
que esto tiene sentido que esté pasando hoy porque mañana Microsoft va a tener un evento
donde van a presentar cosas y seguramente parte de lo que quieran presentar mañana va a estar
integrado con lo que openAI va presentando hoy. Y esto es una cosa a la que nos tienen acostumbrados,
pasó igual con GPT-4. Primero salió GPT-4 y al día siguiente Microsoft hizo un evento donde
integraba parte de eso en sus herramientas. Entonces no es de extrañar que mañana pueda
haber alguna noticia interesante, alguna novedad interesante y si eso ocurriera pues lo estaremos
contando aquí en el canal. Voy a buscar esto rápido a ver si tenemos algún ejemplillo más
que nos pueda interesar. Vamos a ver, señor Brockman. Vale, me interesan sobre todo imágenes
como ésta, que tengan texto y que me sorprendan un poco. Entonces dice el señor Greg Brockman,
Dali3 está listo y es capaz de entender pequeños detalles y seguir los program con más talento.
Entonces, générame una imagen que ponga Dali y te das una imagen como ésta.
La integración con chatgpt es realmente especial. Para generar esta imagen lo único que le pedí
a chatgpt fue que me hiciera un cartón que fuera gracioso y me vino con este concepto y
escribió el prompt detallado para Dali3. Ojito. Vale, fijaos cosas interesantes. El texto te lo
genera, pero no te lo genera a la perfección. Esto le pasa también a otros modelos como éste,
ideogram. Este modelo que sale de un equipo de gente que trabajó en Google y luego se fueron,
fijaos que también genera imágenes bastante espectaculares. De hecho, podría parecer también
lo que hemos visto, quizás un poquito por debajo de este Dali3, bueno, un poquito no,
hay bastantes fallos, pero una cosa que tiene es que te genera el texto bien. No,
we want delete option, bla bla bla. Pero no siempre acierta, no siempre acierta. Hay errores,
a ver si encontramos alguno que se vea. Pero bueno, el texto lo hace bien. You are on the
90 list, the retro attic. Pero a veces te mete alguna letra de más o se equivoca con alguna
letra. Suele ser normal con la forma de funcionar de estos modelos. Ahora, ¿qué pasa con esta imagen?
Que me parece más interesante todavía, además de que el portátil no se apoya en ningún lado.
Que hay humor, hay humor en esta imagen. Y esto es curioso, porque diría que hasta ChatGPT,
la parte del humor, todavía se la traganta. Entonces ChatGPT ha dicho, vale, quiere un cartón,
un cartón normalmente suele ser gracioso. Como es gracioso, voy a pensar una situación graciosa y
aquí lo curioso sería, claro, con los modelos multimodales ya no sabemos si la idea se genera
en un espacio latente común o si la idea surge el humor, el concepto de humor está modelizado
en la parte de texto, pues empieza a decir, vale, algo gracioso podría ser que un programador esté
en situación inverosímil en la playa, trabajando. Y esto podría acompañarlo con el texto tal.
Entonces te genera el prompt y luego dale I3, haz el trabajo o que el humor esté codificado en la
parte visual, que sería algo más loco, pero tenemos que empezar a pensar un poco en clave de
esta forma, donde está modelizado el concepto del humor, por así decirlo, y es súper curioso.
¿Qué más? ¿Qué más me cuentas? Note that the text is much better than previous system,
but still not always perfect on first try. Claro, que el texto falle no es problemático,
porque según dicen tú vas a poder pedirle instrucciones a ChatGPT para decir, oye,
edítame esto para que corrígeme el texto. Vuelve a intentarlo, pero corrigiéndome el texto,
y debería generarte una imagen igual con esa corrección. Entonces es curioso.
Como otro ejemplo, o sea, a modo de otro ejemplo, aquí le he preguntado a ChatGPT hazme un meme
gracioso. Tiene que ser poco parecido a cualquier cosa que hayamos visto antes,
y entonces con esto, prompteo a Dalí con la frase un pingüino en el desierto con una mochila que
está confundido. Y entonces dice, con un texto que dice, creo que he reservado el vuelo al lugar
equivocado. Y está bien. Excepto esto que está mal escrito. Dice que no está Cherry Picket,
es decir que le ha dicho ponme un meme gracioso y le ha salido esto de la primera, y está bastante
guay. De nuevo, aquí por lo que parece es ChatGPT el que se ocupa de eso. Otra cosa que hay que
pensar es que a lo mejor dentro de la multimodalidad que estamos hablando, como no hay paper,
no lo vamos a poder saber. Esto es una cosa que vamos a criticar de nuevo en alto y es,
maldita sea OpenAI, dónde están los papers, dónde están los papeles, dónde están los
artículos científicos para entender un poco más cómo funciona esto. A lo mejor la multimodalidad
en este caso no la están construyendo como tal, es decir, no están haciendo un entrenamiento de
de cero, y es lo más probable, donde se está entrenando la parte de texto y visual, sino que
directamente están conectando a Dali3 con la parte de texto de ChatGPT. Lo cual tiene sentido,
por ejemplo, de cara a eficiencia al consumo energético, al consumo de computación. Tiene
sentido para una empresa que va a abrir esto a millones de usuarios. Pero bueno, es curioso.
Podemos utilizar Dali3 para hacer algunas visualizaciones interesantes. Por ejemplo,
un procesador que pone Ignite your creativity with Dali3. Esta imagen está guapa, excepto
porque hay distorsión en el detalle fino que le falla, pero está guapa. Vista de lejos está
bastante bien. Y creo que este es el último post. Quiero saber vuestras impresiones. Quiero
saber vuestras impresiones sobre la tecnología que hemos visto hoy. OpenAI de la nada aparece
con este bombazo, sin avisar. A mí nadie me ha avisado de esto, pero bastante chulo, bastante
impresionante ver que al menos siguen trabajando en esta línea, porque yo sí notaba que la habían
dejado muy abandonada. El producto de Dali3, la marca de la casa de OpenAI, estaba quedándose
muy atrás frente a la competencia y al menos con esto igualan la puesta y en algunos casos la
mejoran. Yo creo que está a la par con midjourney y mejoran la parte de texto y quizás alguna parte
de comprensión del prompt. Han hecho un muy buen trabajo. Vuelve a ser atractivo al generador de
imagen de OpenAI. Entonces, es una muy buena noticia y nos habla mucho de hacia dónde se está
moviendo OpenAI, que es centralizar en una única herramienta, que parece ser ChatGPT. Pues todo.
GPT4 es ChatGPT. Dali3 estará conectado a ChatGPT. Por favor, Whisper. En la aplicación lo tenemos,
pero no están conectados. Quiero que Whisper esté dentro de ChatGPT. Y por favor, que creen
ya un generador de voces, un sintetizador de voz que me hable y yo no tenga que escribir más nunca
a ChatGPT. Porque si yo creo una obra de arte con Dali3, pues yo quiero hablarle. Quiero generar
arte con mi boca, porque así somos vagos. Con estos prompts tan largos no pido menos. Y nada,
chicos, chicas, era este el directo. Era esto, era un poco hacer este unboxing con vosotros. Me voy
contento, me voy sorprendido, menos sorprendido que cuando vi Dali2, porque Dali2 fue realmente
espectacular. Fue el momento wow, fue el comienzo de toda esta revolución de la generación de
imágenes, pero contento porque se haya hecho este movimiento. Y nada más, nos despedimos. Tenéis
vídeos, tenéis un montón de contenidos, por cierto, aprovecho y os lo cuento. Tenéis el vídeo que
subí a este canal la semana pasada, 28 minutos, hablando del futuro de la inteligencia artificial.
Tenéis vídeos en el canal nuevo, porque hay un canal nuevo, no sé si lo sabéis, donde probamos
todas estas herramientas y donde probaremos Dali3 cuando salga. Tenéis un vídeo sobre clonación
de voz en diferentes idiomas y también de stable audio, el stable diffusion de audio, probándolo.
Y tenéis dos directos, este de hoy, y tenéis el directo de la semana pasada con Andrés Torrubia,
que fue un directo bastante chulo, de tres horas hablando y profundizando sobre muchos de los
conceptos que si os gustó el vídeo del pasado domingo, en aquella conversación salieron muchos
temas interesantes y se profundizaron incluso aún más. Así que si estáis en el gimnasio
levantando hierro, si estáis pasando por la calle, si estáis trabajando y queréis que vuestra
cabeza vuele y explote, pues tenéis esa conversación por ahí. Chicos, chicas, 800 mil seguidores. Me
acaba de recordar alguien en el chat. Muchas gracias por estar ahí, muchas gracias por el apoyo que
está recibiendo el canal nuevo, el DotCCV Lab, y nos vemos en un próximo directo o en un próximo
vídeo con más más información. ¡Os quiero!