ChatGPT ahora puede OIR, VER y HABLAR - (Primeras impresiones)

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

results.

Mention graph

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

bienvenidos a un vídeo súper súper improvisado a la vista de las últimas
novedades que ha salido por parte de OpenAI estoy grabando este vídeo en la
habitación de un hotel ayer la actualidad me pilló una vez más volando
vale esto es un habitual ya que ya me sucedió cuando salió GPT-4 que OpenAI
saque los grandes titulares los grandes avances justo cuando estoy encerrado en
un avión y no puedo comunicarme con vosotros pero bueno voy a hacer este
vídeo un poco para daros mis primeras impresiones sobre todas las noticias que
vimos ayer por parte de OpenAI que nos actualizan todo el ecosistema del chat
GPT y lo evoluciona una herramienta que que va a ser muy distinta a lo que
tenemos actualmente vale chat GPT dentro de dos semanas sólo dos semanas va a
ser una herramienta muy muy diferente a lo que tenemos ahora porque bueno
básicamente la noticia la habéis visto en el título chat GPT va a evolucionar
para poder escucharnos para poder ver y para poder hablar tres novedades
algunas las esperábamos sabíamos que chat GPT GPT-4 desde que salió nos
habían anunciado la famosa multimodalidad por la parte de visión pues
que podría tener la capacidad de ver una imagen y poder razonar sobre ella de la
misma forma que trabajamos con texto pues que puede hacer lo mismo con
imágenes esto sabíamos que iba a llegar pero estaba pendiente y se
especulaba que posiblemente llegaría para 2024 finalmente pero no parece que
OpenAI ha puesto el pie en el acelerador y lo van a sacar ahora vamos a ver
algunos de los ejemplos que nos han mostrado pero más allá de eso la
sorpresa viene cuando también nos introducen esta nueva interfaz donde
podemos dialogar con el propio chat GPT algo que también bueno desde la
aplicación móvil se podía hacer con whisper que tú podías narrarle que
querías decirle y esto te lo transcribía texto pero más interesante
también te va a poder hablar y esto sí que es una novedad que nadie esperaba
yo lo estaba solicitando desde hacía semanas en twitter por favor ojalá
ojalá actualicen a chat GPT para meterle una voz sintética porque es la única
pieza que faltaría para poder hacer un para cerrar el loop el ciclo de dialogar
con el sistema y ya está aquí todo esto lo que quiero comentaros ahora en este
directo improvisado vamos a hacer unas primeras impresiones de toda la
actualidad y vamos a ver un poquito todo lo que han ido sacando para ir
ayer como digo en el momento en el que estoy en el avión empiezo a leer
comentarios porque si tenía internet limitado en el grupo de patreons en
telegram me empiezan a decir que sale la multimodalidad ya de open y ahí y todo
esto viene por la salida de este artículo de aquí que lo saca el propio
open y ahí donde dicen chat GPT ahora puede ver escuchar y hablar ver escuchar
y hablar no lo que estábamos comentando entonces básicamente este artículo nos
viene a describir un poco los pasos que ha seguido open y hay a la hora de de
bueno no de introducir estos nuevos modelos y notan algunos ejemplos y nos
cuentan información de cuándo van a estar disponibles que para mi sorpresa es
antes de lo esperado rápidamente que vamos por aquí bueno hablar chat GPT va
a poder hablar y responderte vale vas a poder como digo poder hablarle tú para
que whisper transcriba tus palabras de audio a texto esto se le va a introducir
al propio modelo chat GPT y chat GPT va a poder generarte una voz sintética que
esto sí que de open y ahí no habíamos visto nada habíamos visto en el pasado
trabajo de laboratorios como deep mind que si habían hecho proyectos de
sintetización del habla tenemos grandes empresas como 11 labs que han hecho un
trabajo excepcional con voces sintéticas super realistas y supernaturales
tenemos ejemplos como los de hey gen que lo hemos comentado en el otro canal en el
para hacer clonación de voz clonación de voz ya no hablamos de voces sintéticas
sino de voces que se parezcan a una referencia que lo podemos dar como input
y de open y hay no habíamos visto nada y lo echamos un poco en falta entonces
eso es la primera novedad el primer nuevo modelo que nos presenta open y hay que
por ahora sólo vamos a poder interactuar con él mediante chat GPT no es que sea
un modelo que vaya a estar disponible en la app y que podamos utilizar para
nuestros proyectos no es nada tampoco como whisper que fue un modelo open
source que liberaron y que todo el mundo puede utilizar por ahora y lo comentan
ahora en este artículo por motivos de seguridad y se puede entender con este
tipo de modelos porque liberar una tecnología que te permite la clonación
de voz no es algo que vaya bien alineado con los con los departamentos éticos de
estas empresas y bueno pues por ahora sólo podemos interactuar con este
modelo a través de chat GPT y quiero que veáis este ejemplo aquí este primer
ejemplo donde nos muestran un poco cómo sería la interacción con la herramienta
no vamos a echarle un vistazo a ver cómo suena todo esto
vale aquí nos están mostrando el ejemplo esta voz es la voz del usuario
la voz humana y le está pidiendo que le cuente una historia que le narra una
historia sobre el famoso erizo llamado Larry que quien vio el directo de
primeras impresiones sobre Dalí 3 entenderá que se están refiriendo no a
la historia este del erizo con el girasol entonces esto ha sido el input
humano que se la ha dado aquí whisper estaría transcribiendo este audio a
texto y chat GPT hace lo siguiente
super interesante la interfaz de chat GPT hasta ahora tú tenías que darle a
stop para mandarle el audio y que se hiciera la transcripción ahora si tú
guardas silencio ya el modelo entiende que has terminado hablar y automáticamente
esto se le envía a chat GPT lo cual elimina fricciones no a la hora de
interactuar con la herramienta vamos a escuchar cómo responde chat GPT
ahí está está la voz este es esto va a ser chat GPT a partir de ahora así suena
chat GPT no es scarlett johansson en gér pero es una voz que suena bastante
natural es una voz que suena tiene un poquito de aspectos robóticos pero no
suena nada mal vamos a continuar a ver larry's house was a cozy burro beneath
the sunflower field inside the walls shimmered with golden petal patterns
natural light streamed through tiny sunflower windows creating a warm
glowing ambience it was a sun-kissed havin y ahí estaría vale esto es muy muy
guay porque esto ya empieza a cerrar el bucle de lo que uno esperaría de una
herramienta como chat GPT un chatbot de inteligencia artificial asistencial yo
lo que quiero es poder ir con el chat GPT metido en el oído con los
auriculares con el micrófono e ir por la calle y poder ir preguntándole cosas
lo que se me pasa por la cabeza lanzarle la pregunta y escuchar con una voz
sintética no tener que ir leyendo por la respuesta que el sistema nota esto de
las poses que estamos comentando realmente no es esta la única voz que
va a estar disponible para chat GPT de hecho aquí en el propio artículo te
muestran varios ejemplos de su modelo de voz el que han entrenado y el que han
creado las diferentes poses disponibles vale vamos a escuchar varios ejemplos
pues por ejemplo aquí tenemos para ver una historia una receta el habla un poema
una explicación vamos a poner por ejemplo una explicación vale la frase
potato potato comes from a song title y aquí podemos seleccionar diferentes
voces vale tenemos la voz de juniper sky cove ember y brise estos son las
diferentes configuraciones de voz que van a estar disponibles con este nuevo
modelo de chat GPT entonces vamos a escuchar a ver cómo suenan vamos a ver si
tenemos acceso para escucharlas esta sería la voz de juniper o once in a
trancul woodland
esta sería la voz de juniper once in a tranquil woodland there was a fluffy mama
cat named lyla one sunny day she cuddled with her
sky once in a tranquil woodland there was a fluffy mama cat named Lila one
Sunny Day, she cuddled with her playf- Cove?
Once in a tranquil woodland, there was a fluffy mama cat named Lila. Vale, voz masculina,
Ember. Once in a tranquil woodland, there was a fluffy mama cat named Lila. Y Brice. Lila. Once
in a tranquil woodland, there was a fluffy mama cat named Lila. One sunny day, she cuddled- Vale,
pues ahí sería. Estas serían las cinco configuraciones de voces, dos masculinas, dos
femeninas, y bueno, un poco con un tono intermedio que podéis utilizar para configurar a chat GPT y
va a ser las voces que vais a estar escuchando a partir de ahora para responder vuestras historias
con chat GPT. O sea, estas voces se van a volver tan familiares como la es hoy en día la de Google
Now o la de Siri en vuestros móviles. Esto mola bastante, vale, pero es que podrían haber sacado
esto y hubiera sido un bombazo en el día de ayer, pero OpenAI no se quiere parar ahí. OpenAI está,
como digo, acelerando y ahora vamos a explicar un poquito por qué creo que están metiéndole
prisas a su sistema. Y entonces otra cosa que van a habilitar en las próximas dos semanas va a ser
la funcionalidad de poder interactuar con chat GPT con imágenes. Esto ya lo adelanté en el vídeo
de GPT-4 del mes de marzo, que es una de las novedades más esperadas porque abre toda una
nueva dimensión a la hora de interactuar con chat GPT. ¿Por qué? Porque hasta ahora tu forma
de interactuar pues solo era a través del texto que escribes por teclado, es la única forma de
facilitar la información. Pues si tú quieres que, no sé, resolver un problema de manualidades en
casa, pues le tienes que describir perfectamente cómo está distribuido tu problema, no? Gráficamente
le tienes que hacer una descripción, hacer este trabajo de convertir lo visual en texto para que
chat GPT te pueda echar un cable con eso. Pero esto ahora cambia, cambia porque la multimodalidad,
esta idea de que la inteligencia artificial pues puede aceptar diferentes modos de datos,
diferentes tipos de datos, texto, audio, imágenes, pues ya está empezando a llegar. Que esto era otra
cosa que comentamos en el último vídeo que subí al canal. Entonces quiero que veáis este ejemplo
porque demuestra muy bien el potencial de esta tecnología, el potencial de tener imágenes en chat GPT.
Aquí han tomado una fotografía, la foto de una bicicleta y le vamos a pedir con texto,
podemos hacer la multimodalidad, imágenes, texto como input, le vamos a pedir a chat GPT que nos
ayude a bajar el asiento de nuestra bicicleta. Entonces aquí chat GPT entiende el contenido de
tu imagen y te dice bueno para bajar el asiento de tu bicicleta tienes que localizar pues la
manivela para poder bajarlo. Rápidamente te hace una descripción planificada de cómo tendrían que
hacer los pasos para poder ejecutar esa tarea, perfecto. Atento, dice si tienes herramientas
enséñamelas, muéstramelas y te intentaré guiar más allá. Aquí vemos que aparecen en la interfaz
nuevos botones que van a estar disponibles en la aplicación de IOS y Android de chat GPT para
sacar fotos, para subir imágenes o directamente entiendo qué documentos podría ser.
Pues aquí el usuario le saca una foto más de cerca justamente a lo que le estaba indicando chat
GPT que tenía que modificar para bajar el asiento y el usuario además va a poder hacer una interacción
que es señalar exactamente en una imagen aquel punto donde tiene que prestar atención chat GPT.
No tengo claro exactamente cómo lo han implementado yo no sé si por ejemplo esta seña este círculo
se está rasterizando y se le pasa la imagen al completo chat GPT o si esto hace un recorte automático
o si esto activa alguna capa de atención no sé cómo lo han hecho pero ahí está podemos marcarle
exactamente oye fíjate en esto que te estoy poniendo aquí. Le pregunta oye es esta la palanca
que tengo que modificar para poder bajar el asiento
y entonces te dice no esto no es una palanca sino que es una válvula. Dice necesitas una
llave Allen para poder soltarle para poder modificar el paro chat GPT nos está guiando
a través de una conversación que se está produciendo en el ámbito visual y textual.
Y entonces fijaos aquí súper interesante le ha pasado el manual por una parte de la bicicleta el
primer documento que le ha adjuntado y una foto de la caja de herramientas en plan mira chat GPT no
me rayes toma esta foto toma todas mis herramientas y ayúdame qué herramienta tengo que necesito que
tengo que utilizarlo y aquí quiero que ahora veáis el detalle con el que chat GPT puede responder
la parte visual aquí viene muy potente. Vale le adjuntan los dos documentos
ojo
vale aquí chat GPT responde dice si tienes la herramienta correcta respondiendo a la pregunta
que el usuario ha hecho tienes la herramienta correcta en la parte izquierda de tu caja de
herramientas hay un conjunto de herramientas etiquetadas como the world the world y en ese
conjunto encuentra la llave Allen de 4 milímetros hexagonal para entonces quiero que os fijéis bien
en la imagen porque es un detalle súper súper pequeñito que está aquí está aquí vale o sea
este conjunto de herramientas que son la llave la llave Allen chat GPT visualmente ha sabido ver
que aquí pone the world de este está diciendo en la izquierda de tu caja de herramientas efectivamente
hay un paquetito de llaves Allen etiquetadas como the world lo está viendo lo está viendo y está
sabiendo responder a tu pregunta conectando eso con el manual de instrucciones conectando eso con
la conversación de la bicicleta que estábamos viendo antes este nivel de detalle sabemos que
es el ejemplo que open a y nos muestra porque es un muy buen ejemplo pero este nivel de detalle en
visión por computador conectado a la inteligencia de GPT 4 abre un abanico de posibilidades que yo
creo que todavía no somos ni conscientes estamos en el 30 de noviembre del año pasado con una
herramienta como chat GPT aprendiendo un poquito cuáles podrían ser sus posibilidades pero todavía
no entendemos la repercusión que va a tener a futuro y creo que está pasando lo mismo con
el apartado de imágenes que vemos ahora la multimodalidad ha llegado a ver si algún ejemplo más
le pone la foto final de la bicicleta le dice ha servido y entonces le dice chat GPT muy bien
genial somos un equipo perfecto bueno no pone eso pero feliz pedaleo no súper súper interesante
que chat GPT puede ver imágenes es una pasada y como digo es un abanico de posibilidades que se
abre ante nuestros ojos y aquí hay mucha gente que ayer me comentaba oye carlos pero esto no es
tan emocionante porque esto ya lo tenemos bien chat por ejemplo que sabemos que GPT 4 tiene
capacidades de observar imágenes google bar que es la competencia de chat GPT tiene las posibilidades
de ver imágenes porque es tan interesante esto ahora bueno quien haya probado esas dos herramientas
habrá podido comprobar que sí tiene capacidades de visión por computador y que sí está conectado al
chat pero para empezar el rendimiento no es tan bueno como lo que creo que open ella ya ha demostrado
a día de hoy pero aún así incluso bar que sería la competencia directa de google vamos a asumir que
bien chat pues sí está aprovechándose de alguna forma de este tipo de multimodalidad de chat GPT
pero google bar que es una tecnología de google y que pueden estar operando de forma diferente
quien lo haya probado habrá visto que no es tan potente su parte de visión y es que posiblemente
la forma de funcionar sea un poco diferente a como chat GPT lo está planteando quiero que veáis este
ejemplo que se compartió ayer en mi grupo de patreons donde un usuario decía oye puede darme
el código para crear este juego en python esto he preguntado a google bar y entonces google bar
responde no no te puedo dar el código para crear este juego en python para por la imagen que me
has mandado esta imagen es muy pequeña y está desenfocada para ver los detalles del juego y
no hay suficiente información para determinar cuáles son las mecánicas exactas de este juego
cuando obviamente este juego debería de activar la neurona de bart para decir a es el pong es un
juego mítico y esta información la puede trasladar para convertir para inferir cuál es la dinámica
del juego y poder programarlo no esto lo podemos contraponer con lo que con lo que vin chat nos
puede ofrecer y aquí este ejemplo si sale bastante a favor de vin chat vemos que le pasa la misma
imagen y aquí te dice claro aquí tienes un ejemplo de cómo puedes programar el juego pong en python
utilizando la biblioteca paygame vale esto demuestra muy bien que cada herramienta está utilizando
mecanismos diferentes que existen para implementar esta multimodalidad y esto es algo importante a
entender porque en un futuro como usuarios seguramente nos quedemos con aquella versión
que funciona mejor pero tenemos que entender que la multimodalidad que te puede ofrecer google y
la multimodalidad que te puede ofrecer open a y si se implementan de formas diferentes te pueden
dar resultados muy diferentes como creo yo que funciona la multimodalidad de google bart bueno
yo creo que ellos lo que tienen es un modelo de visión por computador que te convierte la imagen
a una descripción con texto y a lo mejor también se amplía esto utilizando google lens que es una
tecnología que google tiene desde hace años para buscar en internet información relacionada
con esta imagen entonces ya tiene contexto de lo que podría ser la imagen por la información que
extrae de internet una descripción textual de lo que puede ser y esto se le inyecta al modelo
del lenguaje a pan 2 que es el cerebro que funciona tras bart para poder hacer una respuesta más o
menos coherente esto no es una multimodalidad una multimodalidad difícil una multimodalidad pura
porque aquí lo que estamos haciendo es inyectarle esta información textual o
esta información contextual de lo que se encuentra en internet y se le está poniendo
como una forma de bueno te doy esta información y ahora desarrollame la respuesta chat gpt a mi
forma de entender lo que han entrenado es un modelo que sí tiene esta multimodalidad integrada a un
nivel cercano de la parte de texto es decir aquí chat gpt cuando tú le pasas la imagen lo está
seguramente codificando dentro del espacio latente cercano a una información que luego se
le puede inyectar al modelo del lenguaje pero no creo creo que no es y esto es especulativo creo
que no se está haciendo primero un proceso de visión donde se extrae una descripción textual y
luego se le pasa chat gpt sino que está funcionando a más bajo nivel lo cual te permite hacer
inferencias creo yo más inteligentes porque este espacio multimodal es un espacio multimodal conjunto
donde tanto imágenes como texto están modelizadas por así decirlo en un mismo espacio vale estos
son un poco aspectos técnicos pero creo que la forma más clara de evidenciar que bar esto no lo
tiene todavía y en un futuro google aspira a tenerlo de la misma forma que chat gpt parece
que lo tiene ya es este comentario que vimos de en el último vídeo que subía aquí al canal sobre
el futuro google gmini vale recordemos que google gmini es la tecnología que se espera que google
presente próximamente que va a ser la evolución de su sistema palme 2 y que realmente va a ser
la competencia directa al sistema gpt 4 de open y hay lo que vimos del seo de google
uno de los comentarios que ofrecía era el siguiente memory was created from the ground up to be
multimodal highly efficient tool and api integration ahí está vale esa frase para mí es súper
determinante gmini fue creado desde cero para ser multimodal fue creado desde cero para ser
multimodal es decir sea lo que sea que tenga google ahora mismo evidentemente no está diseñado desde
cero para ser multimodal simplemente son diferentes modelos que se conectan y hablan pero que no está
procesando la información multimodal en su conjunto vale y hablando de gmini aquí viene
una reflexión interesante de por qué creo que open y hay está sacando todo esto ahora
informaciones que tenéis que saber bueno el modelo de voz de escucha y de visión van a estar disponibles
para los usuarios de chat gpt plus en las próximas dos semanas en las próximas dos semanas vamos a
tener acceso a toda esta tecnología chat gpt va a evolucionar para los usuarios de chat gpt plus
ante nuestros ojos en sólo dos semanas y lo vamos a estar probando todo aquí en el canal porque open
y hay se está dando prisa para sacar toda esta multimodalidad bueno porque google lleva desde mayo
aquí tenemos el ejemplo anunciando que va a llegar una versión de gpt 4 entrenadas por ellos más
potente multimodal y se está especulando de que este modelo podría salir en las próximas semanas
antes de final de año si esto fuera cierto open y hay lo que ha querido hacer aquí es adelantarse
ser los pioneros seguir liderando la revolución de la inteligencia artificial trayendo su tecnología
a las manos de los usuarios antes de que lo haga google para poder seguir teniendo la iniciativa y
ser percibidos como una empresa innovadora entonces esto está pasando al mismo tiempo que open y hay
anunció que iba a haber un evento en noviembre muy interesante para desarrolladores donde van
a traer novedades donde yo creo que ellos iban a presentar todo esto dalí 3 la multimodalidad
visión voz todo esto creo que lo iban a presentar en noviembre y han pisado el acelerador para
intentar llegar antes que google con lo cual podría ser que tanto el meta octubre como el de
noviembre sea un mes espectacular si google no te si google termina de sacar toda esta tecnología
que estamos viendo aquí no el futuro gemini creo que eso es lo que está haciendo open y hay a lo
mejor me equivoco a lo mejor en su hoja de ruta ellos querían sacar dalí 3 y todo esto ahora
y tienen más sorpresas preparadas para el mes de noviembre así que habrá que verlo habrá que
estar atentos pero a mí me hace mucha gracia porque yo en twitter hice una especie de porra de lo que
creía que que open y hay podría sacar para ese evento y dije probabilidad alta fine tuning de
gpt 4 y bajadas de precio de los modelos y luego probabilidad media cosas que podrían ocurrir pero
que no le daban mucha mucha fe la multimodalidad en gpt 4 cosa que se confirma ya una actualización
de whisper o de dalí cosa que se ha confirmado con la salida de dalí 3 y algún modelo nuevo
por la api que podría ser este modelo de de generación de voz que también nos han mostrado
sobre el modelo de generación de voz quiero comentaros también que este modelo es un modelo
que ellos integran dentro de chat gpt pero que es un modelo que ellos han entrenado aparte esto sí
que no es multimodalidad aquí no estamos hablando de que open y hay la parte de voz la han diseñado
desde cero dentro de lo que sería las tripas de gpt 4 sino que eso es whisper un modelo que ya
conocemos de audio a texto funcionando por una parte ese texto se inyecta en gpt 4 gpt 4 genera
la respuesta en texto y esa respuesta en texto se le da al nuevo modelo de generación del habla
entonces en las cocinas de open y hay existe este modelo de generación del habla que es un modelo
nuevo que me estarán utilizando me encantaría saber cómo se llama por cierto creo que whisper
era un nombre muy guapo pero un modelo de texto habla más que de habla texto pero bueno este
modelo una de las cosas interesantes que tiene es el sistema de clonación de voz como decía antes
estos son características que hemos visto también en empresas como 11 labs o hey gen y parece que
open y hay llega de nuevo y dice bonitas startups me la voy a cargar porque mi tecnología pues
open y hay puede hacerla mejor y también es capaz de clonar voces y de hecho el ejemplo que ellos
muestran ayer es una colaboración junto a spotify donde están utilizando este nuevo modelo que ellos
han entrenado para hacer clonación de voz a otros idiomas algo que ha sido súper viral estas dos
últimas semanas con rask punto y hay o con hey gen y en este caso muestran este ejemplo de
aquí aplicado a alex fridman muchos los conocer le conoceréis por sus podcasts en otros idiomas
súper interesante mirad a diario qué opinas sobre los problemas difíciles del mundo vale ahí estaría
una demostración de cómo han clonado la voz del ex fridman la han convertido a español y ahí hemos
escuchado también por primera vez a este modelo del habla hablando en el idioma que muchos de
nosotros utilizaremos para interactuar con chat gpt con esto chicos chicas que está sucediendo
pues lo que está sucediendo es un cambio de paradigma que no se había confirmado dentro de
open y hay pero que para mí es muy relevante ahora y es chat gpt está en el centro de todo chat gpt se
está convirtiendo en el eje central de todas las tecnologías de open y hay whisper ahora habla a
chat gpt le susurra al oído a chat gpt chat gpt se conecta y habla con el nuevo modelo de voz chat gpt
puede ver con el nuevo modelo de visión que han sacado y chat gpt puede crear imágenes también
tenemos multimodalidad bidireccional le insertas imágenes pero también genera imágenes a través
de dalí 3 que esto lo vimos en el directo anterior primeras impresiones sobre dalí 3 esto
está pasando también o sea pensemos que nos ha comentado mucho pero yo creo que es algo muy
relevante las próximas dos semanas todo esto que va a llegar combina también y explote genera un
montón de posibilidades cuando lo conectas también con dalí 3 que va a estar integrado en chat gpt
entonces tú a lo mejor vas a poder coger y decir mira saco la foto de este cuadro muy bonito y
este cuadro muy bonito el módulo de visión de gpt 4 lo va a entender te va a generar a lo mejor
un poema que te lo va a poder resistar recitar la voz hablada de chat gpt pero es que además
vas a poder generar cuatro imágenes similares con dalí 3 no todas estas posibilidades están ahí y
va a ser una interacción continua mediante el diálogo donde esta inteligencia artificial te
va a permitir hacer todo esto quiero enseñaros para acabar un ejemplo muy bueno que se compartió
mucho por twitter y es este de aquí sobre cómo se interactuará con dalí 3 en chat gpt conecta
de esto con la parte de visión conecta de esto con el habla con la voz y pensad qué tipo de
inteligencias artificiales tenemos ahora que hace un año no teníamos en nuestras manos atentos aquí
lo que estamos viendo es cómo se va a interactuar con dalí 3 dentro de chat gpt en este en esta
filosofía de tener a chat gpt al chat como como eje central de todo entonces le ha pedido que le
genere cuatro imágenes con un prompt que este usuario suele utilizar para testear a estos
sistemas de generación de imágenes donde quiere que se genere un perrito bueno una nube en forma
de perrito una nube en forma de perrito y aquí chat gpt que va a ser ahora nuestro prompt engineer
pensemos que chat gpt la integración que tiene con dalí 3 lo interesante no es tanto el propio
dalí 3 que también es un modelo espectacular que genera imágenes muy bonitas y tal pero lo
interesante es la interacción que ha creado open y hay que yo creo que eso no va a estar presente
por ejemplo en chat como vincat donde el propio chat gpt va a generarte los prompts va a currarse
el trabajo de encontrar para la petición que tú has hecho cuál es el prompt más cercano o complejo
para poder sacar estas imágenes fijaos cómo está generando estos cuatro prompts y directamente
no genera estas imágenes de aquí vale vemos los perritos en el cielo perfecto genial vale el usuario
observa las diferentes imágenes esto va a ser la interfaz que tendremos dentro de chat gpt y
entonces dice vamos a intentar algo más realista o fotográfico vamos a intentar que sea sólo una
nube en forma de perrito y pómela en el cielo entonces chat gpt va a saber entender las correcciones
que le estás pidiendo respecto a las imágenes anteriores va a generar cuatro prompts nuevos y
aquí sí sale una imagen que es yo creo exacta o sea es la imagen perfecta de lo que él estaba
pidiendo no perrito en forma de nube pues lo tenemos bueno nube en forma de perrito dice me
encanta la tos primera vamos a intentar algo como un atardecer y cambia la forma del perro a un
perro salchicha y entonces vemos cómo dalí 3 corrige actualiza los prompts y te genera estas
imágenes que también de nuevo son bastante espectaculares un perrito salchicha en el cielo
perfecto claro esto es tan infinito como tú quieras conversar y una conversación te puede dar
para para un montón de cosas entonces dice ahora conviérteme esto en un logo pues vemos de nuevo
chat gpt genera los prompts y te genera un logo el primero la verdad que está espectacular
vemos este también está bastante bien no un perrito salchicha en el en el cielo ese sería el logo
aquí hay algo interesante y es que ahora le pide que el logo lo inserte en una camiseta vale y
fijaos que en realidad aquí se ha hecho un poco de trampa porque dalí 3 y esto nos demuestra un
poco esto me da mucha información de cómo funciona este sistema no ha sabido coger el logo que había
generado anteriormente y lo he insertado en una camiseta sino que ha intentado aparte basándose
en los prompts anteriores que le hemos dicho que nos han gustado los ha vuelto a regenerar pero
dentro de una camiseta pero eso no te garantiza que haya una consistencia visual entre el logo
que ha generado y el logo que te inserta la camiseta entonces esa es una limitación que
todavía está presente en estos sistemas y que en un futuro las herramientas de ella deberían de
solucionar vale sabemos que técnicas como dream booth podrían solucionar cosas como esta dice vamos
a intentar algo diferente vamos a pretender que sky dutch hand que es perrito salchicha es una
compañía de alfombras mágicas para perros donde los perros van a ir volando en camitas de perretes
générame un póster utilizando esta información y dali 3 de nuevo te hace esto es que hay das
hand creo que está mal escrito arriba no dutch hand aquí vemos que la parte textual no lo ha
sacado perfecto pero luego si esto magic carpet right for dogs donde los sueños se echan a volar
no y fijaos que la imagen responde perfectamente a lo que le estamos pidiendo otros ejemplos otros
ejemplos otros ejemplos no aquí ya la persona se empieza a calentar y se va esto esto me encanta
cómo se vería un videojuego basado en este concepto pues gpt chat gpt con dali 3 en colaboración es
capaz de hacerte lo siguiente claro pensada ahora que todo esto no hace falta leerlo sino
que también chat gpt te lo puede narrar y vemos aquí cuatro ejemplos muy buenos entre lo que
podrían ser videojuegos de este concepto de una empresa de perritos que vuelan en camitas
de perro qué más tenemos a bueno enséñame el videojuego pero como si fuera el estilo de los
años 80 gráficos en 8 bits pum te lo hace sin ningún problema vale ahí vemos que de nuevo el
concepto se está viendo qué más oye quiero que ahora me lo pongas con imágenes realistas quiero
que ahora me lo pongas como si fuera la película de un el póster de una película quiero que ahora
sea la caja de comida no que tenga el concepto de caja de comida o que sea por ejemplo merchandising
acciones de figuras de acción todo esto es cómo se potencia dali 3 una herramienta que haya probado
mi journey dali 2 sabemos cómo se utilizan cómo se potencia en el momento en el que le pones una
interfaz mucho más natural que es el hablar el poder conversar e iterar sobre ideas con con el
propio chat gpt coordinando todas estas herramientas simultáneamente esto más la multimodalidad más la
visión el habla la voz hacen a chat gpt una inteligencia artificial que me vuela la cabeza que
me vuela la cabeza y que tengo mucha ganas de probar esto os lo he dicho va a estar disponible
en las próximas dos semanas a los usuarios de chat gpt plus y chat gpt enterprise y son
opciones que van a estar posiblemente desactivadas por defecto y que tendréis que activar en las
preferencias en settings tendréis que activarlo por ahí esto es importante porque hay veces que
la gente se está olvidando de que ciertas funcionalidades las tienen disponibles porque
por defecto vienen desactivadas me imagino que hasta que no estén lo suficientemente maduras
como para pasar está este apartado de fase beta cuando llegan nuestras manos lo testearemos y lo
compararemos con otras herramientas como como pin chat como part y vamos a ver si la parte de
visión funciona también como comentan en la página web de open y hay por último hay un artículo
interesante que le podéis echar un vistazo donde nos hablan del modelo gpt 4 v el modelo de visión
de gpt 4 que ellos han entrenado no hablan de nada de la parte técnica porque como sabéis ahora
vivimos en una época de oscurantismo en el mundo del deep learning fomentada principalmente por
empresas como open y hay esto ya es una batalla económica y empresarial contra google y contra
otros gigantes tecnológicos con lo cual no sabemos nada de cómo funciona pero sí en este artículo
pues nos hablan de algunas de las limitaciones y riesgos de sistemas como esto y es muy interesante
echarle un vistazo como open y hay acuidado pues cosas relevantes como oye gpt 4 v el módulo de
visión ahora puede resolver cap chaps deberíamos dejar que un sistema como este pueda resolver cap
chaps o queremos que haya un bloqueo en el propio sistema a nivel de modelo que te diga oye como
modelo de visión no puedo encargarme de esto porque moralmente no es ético y sería un problema
de seguridad pues eso comentan sobre ello aquí o por ejemplo tú a chat gpt no le puedes pedir que
te haga una bomba te va a decir oye como modelo del lenguaje no puedo decirte cómo hacer una bomba
porque bla bla bla bla pero claro si tú ahora le subes una imagen de una bomba le dices oye
construyeme esto o dime los pasos para construir esto chat gpt tiene que saber que le estás
intentando saltar su sistema de seguridad pero en este caso por la parte de visión de la misma
forma que para el usuario ahora se abre un abanico de posibilidades que son infinitas para open y hay
como empresa que tiene que limitar de un punto de vista ético el mal uso de estas herramientas
pues también tiene que intentar ver cuáles son todos los posibles ataques que van a surgir y que
seguramente la comunidad de internet cuando llegue estas herramientas a sus manos va a empezar a
inventarse trucos nuevos como el do anything que ya vimos en el pasado que funcionaba pues seguramente
llegarán nuevas formas de ataques por la parte de visión y este artículo comenta unas cuantas de
ellas y es muy interesante echarle un vistazo por mi parte chicos chicas nada más este vídeo ha
sido un vídeo súper improvisado ya sabéis he ido sin guión hemos estado aquí hablando un poquito
de las primeras impresiones de esta tecnología me ha pillado fuera de casa estoy en mérida en
yucatán en la preciosa méxico en el precioso méxico y nada voy a estar esta semana fuera
voy a intentar traeros contenidos tanto a este canal como al canal de dot ccv lab vídeos súper
interesantes y esto es la actualidad que como siempre me pilla fuera de casa pero como siempre
os lo traigo aquí a dot ccv chicos chicas un beso y nos vemos pronto