🔴 ¡GPT-4 VISION! Así funcionan los ojos de ChatGPT

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

results.

Mention graph

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

¡Hola chicos y chicas! ¿Qué tal estáis? Bienvenidos a un nuevo directo aquí en .docsv.
Un directo que llevaba tiempo queriendo hacer. Ya estáis viendo aquí el primer clickbait
para teneros retenidos esta bonita imagen. Esta imagen de un vestido de colores inciertos.
No voy a decir de qué color es. Pero bueno, necesito saber. ¿Estamos en directo?
Uy, qué susto. Hago ruidos. ¿Estamos en directo? ¿Me escucháis bien? ¿Se me ve bien?
Bueno, el directo de hoy va sobre GPT-4V o GPT-4Vision o ChatGPT-Vision.
Esto es el ojo, el sistema de visión de ChatGPT, de GPT-4 que ya visteis en un vídeo que subí hace cosa de una semana.
Donde, bueno, sabemos que ahora GPT-4 o ChatGPT tiene capacidades de Computer Vision, de visión por computador.
Puede ser capaz de analizar imágenes, de entender los patrones que hay en ella.
Y además de poder razonar y a través de texto, a través del lenguaje, poder hacer pues todo lo que ChatGPT nos tiene acostumbrados.
Esa gran inteligencia artificial que nos enamora a todos.
Pero ahora aceptando imágenes como input.
En ese sentido, bueno, pues tenemos esta imagen de aquí.
Quiero que veáis el ejemplo. Vamos a darle ya.
Y luego el directo este, pues de lo que va a ir es de testear y de llevar al límite un poco este sistema.
En el vídeo que ya subí al canal hace cosa de una semana, pues pudimos ver un poco todas las capacidades que Microsoft,
a través del paper de LMMs, y ahora esta vez si lo digo bien, LMMs, pues nos enseñó, ¿no?
Todas estas capacidades que tenía GPT-4.
Es un vídeo que os recomiendo ver si queréis enteraros de todo lo que podría ser este modelo.
Y hoy lo vamos a testear.
Entonces yo he colocado esta imagen aquí dentro de ChatGPT Plus.
¿Por qué?
Porque el sistema de visión de GPT-4 solamente está disponible dentro de la versión de pago de ChatGPT, ChatGPT Plus,
junto al resto de funcionalidades.
Y ahora vamos a hablar también de esto cuando arranquemos.
Vamos a hablar de las novedades que hoy se han filtrado a través de Twitter
y que parecen bastante interesantes de lo que será el futuro de ChatGPT.
Entonces, tenemos aquí la versión de GPT-4 Default.
Es el GPT-4, el único que tenemos.
La versión por defecto es el que tiene esta capacidad de visión.
Y yo le pongo aquí la imagen del vestido.
Entonces yo aquí a esto le puedo agregar.
Es en vivo, ¿eh?
Que estáis preguntando.
Es en vivo.
A ver.
¿Está funcionando?
¿Está funcionando?
¿Youtube va a regular?
¿Trata de arrancarlo?
¿Sí se ve?
Confirmadme, ¿eh?
Confirmadme que se ve bien antes de darle.
¿Sí?
¿Estamos?
¿Sí?
Vale, vale, vale, vale, vale.
Le damos.
Le voy a preguntar.
Oye, ¿de qué color es el vestido?
Yo confieso que lo veo azul y negro.
Y no entiendo para nada la gente que lo ve blanco y dorado.
Pero vamos a preguntarle a GPT-4 y a ver qué nos cuenta.
Le damos la imagen y dice.
El vestido en la imagen es conocido por causar debates en internet sobre su color.
Algunas personas lo ven blanco y dorado, mientras que otras lo ven azul y negro.
En realidad, ojo, ojo, ¿eh?
En realidad el vestido es azul y negro.
Pero debido a las condiciones de iluminación y a cómo los ojos y el cerebro interpretan los colores,
algunas personas lo perciben como blanco y dorado.
Es un fenómeno interesante que destaca cómo las personas pueden percibir los colores de manera diferente
bajo ciertas condiciones.
¿Vale?
Bastante, bastante guapo.
Bastante, bastante guapo porque, fijaos lo que ha pasado aquí.
No solo el sistema ha entendido la imagen.
O sea, no solamente ha entendido que hay un vestido de unos ciertos colores y ha respondido a la pregunta.
Sino que ha sabido identificar que esta es la icónica imagen del vestido de internet.
De hecho, una cosa interesante que podríamos hacer para probar.
Tengo aquí unas cuantas imágenes que quiero ir testeando, que no he probado hasta ahora.
Voy a abrir esta imagen.
A ver si podemos hacerlo rápido.
En fotos y la voy a invertir.
Le voy a hacer un flip horizontal.
Lo que no sé si lo puedo hacer de forma...
Voy a dejar el móvil en silencio.
No sé si lo puedo hacer como de forma rápida.
Aquí, ¿cómo editar la imagen?
Sí, aquí podemos editarla.
Vale, aceptamos.
Y quiero voltearla horizontalmente, tal que así, e incluso al revés.
Y lo vamos a guardar.
Vamos a guardar una copia y se lo vamos a dar de nuevo.
¿Por qué?
Porque podría ser que la respuesta que nos ha dado no sea una percepción de lo que hay en la imagen.
Sino simplemente ha dicho, vale, sé que esta es la imagen del vestido.
Y lo que he leído en internet es que la gente habla de que el vestido puede ser azul o negro.
O blanco y dorado.
Y a mí no me interesa eso.
Yo quiero que me dé una respuesta correcta.
Entonces, se la voy a dar así.
Si aún así...
Bueno, espérate.
Una nueva conversación.
A ver un momentito.
Nueva conversación.
Vale.
Si aún así identifica qué es la imagen del vestido de internet,
eso es impresionante.
Porque significa que ChatGPT puede entender incluso las imágenes con modificaciones,
con traslaciones, con rotaciones verticales y horizontales.
Y eso es interesante.
Y si no, pues lo interesante será que al menos uno dirá de qué color es el vestido.
De qué color es el vestido.
¿Vale?
Mientras haces el análisis, quiero que vosotros vayáis pensando también ideas.
¿Vale?
Quiero que vayáis pensando ideas de lo que podemos probar hoy.
Veo que algunos me estáis quejando de que internet, o sea,
de que va un poco mal la conexión del directo.
Y no sé si es una cosa de YouTube o no sé si es una cosa mía.
O no sabemos.
Pero bueno.
Vamos a ver, vamos a ver.
Bueno, dice.
El vestido de la imagen es conocido por el debate viral en internet
sobre si de color azul y negro o blanco y dorado.
La percepción del color puede variar según el observador
y las condiciones de iluminación.
Sin embargo, el vestido original de color azul y negro.
Pues efectivamente vemos que ChatGPT Vision puede reconocer el contenido de la imagen.
O sea, puede entender que es la imagen del famoso vestido
incluso cuando está rotada y está trasladada.
Lo cual es bastante interesante y nos habla mucho de lo que vamos a ver en este directo.
De lo potente que es este sistema.
Y además de lo equivocado que estáis todos los que decís que es blanco y dorado.
Que la verdad que no lo entiendo.
Me parece un poco loco.
A ver.
YouTube va fatal.
Pues mal día para haber hecho un directo, ¿no?
Entonces, oye.
Sí, en cualquier caso va a estar resubido.
Así que lo podréis seguir cuando esté él.
Pero bueno.
Me sabe mal que no podáis estar todos a una y de forma cómoda.
Pero va a bajar la calidad y con eso podremos avanzar.
Bueno.
Vamos a testear diferentes cosas que vimos en el vídeo de GPT-4V.
Cosas como, por ejemplo.
Tengo aquí unas cuantas imágenes que quiero probar.
Percepción de imágenes reales.
Una de las cosas interesantes de este sistema es su capacidad de poder hacer OCR.
Entonces, tengo una tabla de datos como esta de aquí.
Tengo esta imagen.
Esta la he sacado una tabla de datos de un paper.
Pues con sus columnas, con sus filas.
E imaginad que yo no termino de entender los datos que tengo aquí.
Entonces, le voy a pedir a ChatGPT que me haga una explicación.
No le voy a dar nada de contexto del paper.
A ver si lo entiende.
Cosa que podría intuirlo.
Es decir, si tú a mí me presentas esta imagen con mi conocimiento de Deep Learning.
Pues yo sé reconocer a lo mejor aquí nombres de diferentes benchmarks.
De diferentes conjuntos de datos para evaluar el LM.
Entiendo que aquí si pones ZeroShot y FewShot se refiere a un concepto dentro del campo del Deep Learning.
Es decir, podría entender.
Bueno, y los nombres de los modelos.
Claro, Palm2, TextDaVinci003.
Vamos a ver qué hace el modelo con esto.
Primero va a tener que hacer el OCR.
El Optical Character Recognition.
Y luego darme una explicación.
Entonces, vamos a hacerlo.
De nuevo, una conversación nueva.
Vamos a coger aquí tabla de datos.
Y le voy a decir.
¿Podrías explicarme el contenido de esta tabla de datos?
Y se lo damos.
Vamos a ver.
Vamos a ver.
Claro.
Dice.
La tabla muestra una comparación de diferentes métodos en cuanto a su rendimiento en varias tareas.
Los métodos están listados en la primera columna bajo la etiqueta Method.
Y las tareas están listadas en las columnas superiores.
¿Vale?
Si efectivamente ha entendido que aquí están los métodos que se están probando, que se están testeando.
Y aquí nos está hablando de las diferentes tareas.
Eso es correcto.
Métodos.
Son los diferentes enfoques o algoritmos que se están comparando.
Por ejemplo, COT con TextDaVinci003.
POT con TextDaVinci003.
¿Vale?
Eso es correcto.
¿Vale?
El método y el modelo de lenguaje que se está utilizando para evaluarlo.
¿Vale?
Tareas.
Estas son las tareas diferentes o pruebas en las que evaluaron los métodos.
Aquí se ha equivocado.
¿Vale?
En tareas nos ha colocado la columna LLM.
Aquí de alguna forma está percibiendo de forma incorrecta.
Pues que method responde a toda esta columna.
Y LLM lo ve desplazando.
Aquí ya hay un error.
Pero vemos que la transcripción de lo que serían las filas.
Multi, ariz, single, egg, add, sub.
Todo esto está perfectamente extraído.
Y si no me estoy equivocando, que me podría pasar.
Pues todas las filas están bien denominadas.
Rendimiento.
Los números en paréntesis representan el rendimiento de cada método en una tarea específica.
Por ejemplo, el método COT con TextDaVinci tiene un rendimiento del 83,8%.
En la tarea multi, ariz.
¿Vale?
COT, TextDaVinci, multi, ariz.
83,8.
Efectivamente.
¿Vale?
Es el valor que tenemos aquí.
Entonces, aparentemente, no nos vamos a estar fijando en todos los detalles.
Pero nos está dando una explicación de lo que sería el modelo.
Zero Shot y Few Shot.
Esto parece ser categoría bajo las cuales se están evaluando los métodos.
Zero Shot se refieren generalmente a modelos o métodos que no he visto ejemplos durante entrenamiento.
Fijaos que GPT-4 ha entendido el dominio del paper.
Sin haberlo hecho explícito, ya nos está hablando de modelo.
Nos está haciendo explicaciones sobre Deep Learning de lo que es Zero Shot, Few Shot.
Con lo cual, sí ha entendido, efectivamente, el modelo.
Te le voy a decir, ¿podrías explicarme de forma divulgativa cuáles son las conclusiones de esta tabla?
Entonces, le hemos pedido, ¿podrías explicarme de forma divulgativa cuáles son las conclusiones de esta tabla?
Y dice, por supuesto, la tabla presenta diferentes métodos y cómo se desempeña en varias tareas.
Al interpretarla de forma divulgativa, podemos concluir lo siguiente.
Uno. Hay varios jugadores o métodos en el campo y cada uno tiene sus fortalezas y debilidades en diferentes áreas.
Ok.
PB es prometedor.
El método etiquetado como PB Hours parece ser una nueva propuesta de quienes presentaron esta tabla.
Es correcto.
PB responde a Prompt Breeder, que es el paper de donde he sacado la tabla.
Y es justamente el método que sobresale a la hora de generar prompts.
Y parece que, bueno, que lo he entendido perfectamente.
En muchas tareas, este método muestra un rendimiento superior o comparable a los otros.
Es como el nuevo jugador en el equipo que está mostrando mucho potencial.
Mola bastante.
Mola bastante, ¿eh? O sea, fijaos que esto lo ha concluido a partir de entender que estos números evidentemente son superiores,
pero además lo típico que se hace en estas tablas de poner en negrita, pues, los números que están, que sobresalen, ¿no?
Bastante, bastante, bastante, bastante, bastante bien.
Zero Shot y Few Shot.
Estas parecen ser categorías bajo las cuales se están evaluando los métodos.
Zero Shot se refiere generalmente a modelos o métodos que no han visto ejemplos...
Ah, no, perdón.
Diferentes tareas, diferentes ganadores.
No hay un único método que sea el mejor en todo.
Es como los deportes.
Un jugador puede ser excelente en velocidad, pero otro puede ser mejor en resistencia.
Por ejemplo, mientras que Pies, Palm, 2, L, brillan la tarea LLM.
Esto es erróneo.
Bueno, otros métodos pueden superarlos en tareas como tal.
Bueno, aquí veis como, por ejemplo, podéis utilizar ya ChatGPT, GPT4V para hacer explicaciones de Papers, ¿no?
Tú puedes coger tablas, gráficas.
Ahora lo podemos probar también con alguna gráfica y podéis pedirle que os haga una explicación que sea interesante.
Por ejemplo, con una gráfica podemos hacer lo siguiente.
Tengo esta gráfica que he visto hoy en Twitter que me ha salido, ¿vale?
Y me parecía interesante porque pues tiene varia información a tener en cuenta.
Entonces nos dice, oye, ¿cómo Discord almacena un trillón de mensajes?
¿No?
Pues noviembre de 2015, 2017, 2023.
Como, vale, hay mucha información aquí que podríamos ir analizando poco a poco,
pero yo prefiero la alternativa de que se me atrofie el cerebro y dejar que la inteligencia artificial decida o interprete por mí.
Entonces le voy a decir, podrías, uy, vale, le he lanzado esto, no le he puesto mensaje.
Vamos a ver qué entiende por esto, sin ponerle.
Dice, esta infografía ilustra la evolución de cómo Discord ha manejado y almacenado sus mensajes desde su inicio hasta la fecha.
2015, uso de MongoDB.
Efectivamente lo vemos aquí.
2015, uso de MongoDB.
En noviembre de 2015, Discord había almacenado 100 millones de mensajes usando MongoDB.
Sin embargo, comenzaron a enfrentar problemas cuando los datos ya no cabían en la memoria RAM,
lo que resultó en latencias impredecibles.
Toda esta información sería este módulo de aquí.
Luego, transición a Cassandra.
Para 2017, con el crecimiento explosivo de Discord, ahora estaban manejando miles de millones de mensajes.
Decidieron cambiar a Cassandra, pero esta solución también tuvo sus propios problemas.
En particular, un problema llamado Stop the World GC.
Recolector de basura, que podría pausar el sistema durante 10 segundos.
Lo del recolector de basuras, fijaos que es una información que él nos está añadiendo a partir de esto.
El garbage collector, entiendo que se refiere a eso.
La verdad que no me he metido en detalle, pero si lo ha dicho, será que va por ahí.
Recordemos que estos sistemas todavía se siguen equivocando, inventando información,
así que siempre habrá que comprobar lo que dicen.
Pero bueno, al menos la información la está extrayendo perfectamente.
Y esto es brutal, porque no teníamos sistemas así hasta hace no mucho.
Y luego adopción de ta-ta-ta y te hace toda la explicación de todo esto.
El flujo de datos.
En resumen, la infografía muestra la progresiva evolución y adaptación de Discord
a medida que aumentaba la cantidad de mensajes,
eligiendo soluciones de almacenamiento que pudieran manejar sus crecientes necesidades.
¿Cómo lo veis? ¿Cómo lo veis? ¿Qué os parece?
¿Qué os parece?
Del 1 al 10.
¿Vale? Quiero que me vayáis como dando feedback.
Quiero que me vayáis dando feedback de lo que vamos teniendo.
Sobre todo también para saber si me estáis viendo en directo o ya os he perdido a todos.
Fijaos, por ejemplo, lo interesante es que aquí nos ha hecho un análisis muy bueno
de toda la información que hay aquí.
Pero imaginad que ahora yo le pido algo como
oye, ¿podría darme la fuente de este documento?
¿Podrías decirme cuál es la fuente del documento?
Claro, para eso tiene que entender que la fuente es lo que está aquí arriba.
Y esto yo no lo tengo tan claro de si lo va a poder sacar bien.
¿Podrías decirme cuál es la fuente del documento?
Y la cosa es, si lo entienden, no.
Mi cabeza todavía no termina de entender cómo este sistema de visión es tan potente.
Y efectivamente lo hace.
Dice, sí, según la infografía, la fuente del documento es blogbytebytego.com.
De alguna forma, GPT-4 entiende que esto efectivamente es la fuente de lo que tenemos aquí.
¿Vale?
Y es bastante, bastante, bastante impresionante.
Vamos a ver si, por ejemplo, puede pillar este detalle de aquí.
Vale, le voy a pedir, oye, ¿podrías decirme qué hay escrito dentro del símbolo de,
¿cómo lo tienen puesto?
Storage, creo que es, ¿no?
Sí, dentro del símbolo de storage.
No lo veo bien.
Vale, y vamos a ver.
Vamos a ver.
Vale, claro.
Dentro del símbolo de storage está escrito SSD.
Lo que indica que el almacenamiento utilizado es un disco de estado sólido.
Solid State Drive.
Wow.
Wow, wow, wow.
¿Vale?
Bastante, bastante...
Es que va bastante fino.
Bueno, o sea, sí es cierto que, y lo vamos a ver, que en algunos casos se equivoca,
en otros se alucina datos, detalles, pero tener un sistema con esta capacidad de visión
es bastante, bastante, bastante impresionante.
Vamos a hacer más pruebas de las que tengo aquí.
Quiero, por ejemplo, testear cosas como el OCR in the Wild.
OCR in the Wild hace referencia a poder detectar texto, el poder hacer este reconocimiento de texto,
pero ahora, en este caso, de imágenes tomadas como in the wild, que se dice, ¿no?
Como si tú vas por la calle y sacas una fotito del móvil o sacas un cartel que has visto, un folleto.
Es decir, imágenes que podríamos sacar cualquiera en cualquier entorno sin preocuparnos de que esté perfectamente.
Entonces, tengo esta imagen de aquí, imagen que capturé yo en su momento,
donde yo puedo leer perfectamente que aquí pone bebidas frías como el culito de un pingüino, ¿vale?
Y me hizo bastante gracia.
Entonces, esta imagen está escrita dentro de un cartel de una foto tomada en una calle con una fuente determinada.
Vamos a preguntarle qué pone en el cartel.
Vamos a ver.
Vamos a ver.
El cartel dice, bebidas frías como el culito de un pingüino, que se traduce como drink as cold as a penguin little bat.
Es una forma humorística de decir que las bebidas están muy frías.
Bastante bien, bastante bien.
Le voy a pedir a ver si me puede describir el texto que está aquí debajo, ¿vale?
A ver si me puede decir qué hay a los pies del pingüino.
Le voy a poner tal cual.
¿Podrías decirme qué hay escrito a los pies del pingüino?
Vamos allá.
Vamos a ver.
Sí, a los pies del pingüino está escrito Cruz Campo,
que es el nombre de una marca de cervezas españolas.
Me da rabia que os veo ahí en el chat quejándose alguno de que no se ve.
En el móvil creo que están confirmando de que se puede ver, así que intentadlo por ahí.
¿Qué os parece?
¿Qué os parece?
Bastante bien, ¿no?
Vamos a ver si pilla la fecha que está puesto dentro del cartel de Cruz Campo Maestros Cerveceros 1904.
¿Podrías decirme qué fecha se ve en el recuadro rojo de la pizarra?
Pizarra.
Ahí está.
Tremendo.
All right.
Necesito que los que estáis viendo el directo me deis mucho feedback de comentario por el chat
para saber que estamos bien, ¿vale?
Necesito feedback positivo porque cada vez que miro para allá pienso que estoy yo solo y nadie más.
Lo siento, pero la imagen proporcionada no se puede leer ninguna fecha.
Oh, no.
En el recuadro rojo de la pizarra, si tienes alguna otra pregunta, estoy aquí para ayudarte.
Vale, le voy a decir.
Y puedes leer qué pone dentro del recuadro.
Vale, todavía los humanos tenemos un hueco dentro de todo esto.
Vamos a ver si lo entiende.
Lo siento, pero no puedo discernir el texto dentro del recuadro rojo en la imagen proporcionada.
Parece ser un logo, un texto muy pequeño.
Vale, pues parece que el límite en este caso sería este.
Vamos a ver si podemos, por ejemplo, pedirle...
Con esta imagen podríamos pedirle algo más.
Vamos a hacer una cosa.
Voy a ir en una nueva conversación.
Vale, vamos a coger aquí.
Y le voy a poner la misma imagen y le voy a pedir otra cosa, una tarea diferente.
Le vamos a decir.
¿Podrías hacerme un poema sobre el contenido de esta imagen?
Este es el típico prompt que luego la gente se me enfada porque me dice
pero prueba cosas reales, prueba ejemplos, casos de uso reales.
Que no, que yo quiero probar el sistema inteligente.
Por supuesto, en una calle soleada, un letrero resplandece con letras trazadas y un pingüino que aparece.
Bebidas frías, proclama con orgullo y alegría, tan frías y refrescantes como el viento del día.
Como el culito de un pingüino, dice la inscripción, imaginando la frescura causando una sonrisa sin condición.
El sol brilla fuerte, pero las bebidas están frías, listas para calmar la sed en las largas tardes y mediodías.
¡Wow!
Cruzcampo en el rincón, una marca de tradición, ofreciendo con humor una bebida de pasión.
Así en la ciudad, entre coches y pasos apresurados, un rincón de frescuras y risas por todos lados.
¿Qué os parece? Por favor, o sea, no normalicemos lo que tenemos.
Hace tres años flipábamos con una idea que nos concatenaba cuatro palabras medio coherentes.
O sea, no normalicemos que esto es normal porque esto es muy bestia.
Esto es muy bestia.
¿Vale?
Porque fijaos que nos ha hecho el poema de todo.
O sea, ha cogido todos los elementos, la marca, el entorno, la ciudad.
Increíble.
Increíble.
Vamos con una versión más avanzada de OCE Rain The Wild.
Tengo otra imagen, tengo muchas imágenes.
Tengo otra imagen por aquí que saqué en los tiempos que estuve en Corea,
ese mes que estuve ahí haciendo investigación en Corea,
de un vídeo que tenía he sacado este fotograma.
¿Vale?
Imaginad.
Vamos a ponernos por un segundo en un futuro que va a ser la normalidad dentro de cinco años,
que es dispositivo de realidad aumentada,
las gafas que ahora Meta está sacando con Ray-Ban,
gafas de Apple, lo que sea.
Dispositivo de realidad aumentada o realidad mixta,
paseando por la calle,
y de repente estás perdido, en mitad de la nada.
Y además no te acuerdas ni en qué país estás.
Y lo único que tienes por delante es este cartel de aquí.
Entonces te quieres orientar.
Quieres intentar saber dónde estás.
Entonces vamos a pedirle al sistema con esta imagen,
primero, oye, ¿dónde estoy?
Y aquí podrían pasar dos cosas.
Uno, que nos responde correctamente,
porque GPT-4V seguramente sea capaz de hacerlo.
O, a ver qué pasa.
Que esto no lo he probado, pero...
Ah, pues mira, me lo dice.
Pensaba que me iba a decir que no me podía localizar la imagen
por temas de privacidad, pues se la suda.
Ojo, ¿cuántos de vosotros hubierais sabido
deducir dónde estábamos solo con esta información?
O sea, no es que sea muy complicado,
pero sin buscar en Google.
Simplemente con la información contenida
en vuestro modelo mental del mundo.
¿Cuántos habríais deducido que estábamos en Asia?
Obviamente.
Muchos habríais...
Bueno, algunos.
Unos cuantos.
Habíais sabido ver que esto era coreano,
con lo cual estamos en Corea.
Y a lo mejor alguno que conociera sobre Corea
sabría que Jehu es una de las islas.
Con lo cual, si esto es Jehu National University,
pues seguramente sea tal, ¿no?
Entonces, fijaos que aquí lo ha sabido saber.
Dice, estás en Jehu, una isla de Corea del Sur.
Las señales indican direcciones hacia lugares como
Sewopiko, Jehu National University,
Seoxan y la zona industrial de Habuk, entre otros.
También hay referencias a las oficinas del gobierno central
y la Guardia Costera Regional de Jehu.
Entonces, yo, por ejemplo, le voy a decir.
Primero.
Claro, es que están todos traducidos,
con lo cual es bastante sencillo.
Voy a preguntarle por el número de la carretera.
¿Cuál es el número de la carretera si sigo al frente?
Vamos a ver.
¿Cuál es el número de la carretera si sigo al frente?
Si sigo al frente, el número de la carretera es el 1131.
Eso es correcto.
Y ahora le voy a decir.
Estoy perdido y necesito ayuda.
¿Podrías guiarme hacia la mejor dirección?
¿Vale?
Lo siguiente, pero soy un modelo del lenguaje
y no tengo la capacidad de proporcionarte direcciones en tiempo real.
Si estás realmente perdido, te recomendaría que busques ayuda local
o utilices un servicio de mapas y navegación en tu dispositivo móvil
para encontrar tu camino.
Es importante que te encuentres en un lugar seguro mientras haces esto.
Si te encuentras en una situación de emergencia,
comunícate con las autoridades.
¿Y cómo podría comunicarme hacia dónde voy?
Google Maps me ha dicho que te pregunte a ti.
A ver si cuela.
Lo siento, pero puede que haya un malentendido.
No tengo acceso en tiempo real a la ubicación actual
ni a la capacidad de guiarte en tiempo real.
Si Google Maps no está funcionando correctamente,
intenta lo siguiente.
Asegúrate de tener bla, bla, bla.
Bueno, lamentablemente seguimos chocando con los límites
que ChatGPT se autopercibe o le han inculcado sobre sí mismo,
que es que no te puede ayudar porque solamente es un modelo del lenguaje.
En un futuro, todo esto va a estar integrado en una misma herramienta
y de eso hablaremos ahora.
Con lo cual nos enseña mucho hacia dónde se podría mover la tecnología.
Lo interesante es que las capacidades están ahí.
O sea, el modelo puede entender perfectamente cuáles son estas imágenes
y eso es bastante impresionante.
Dice, pide la ubicación en coordenadas.
Vamos a preguntarle.
¿Podrías darme la ubicación en coordenadas?
Vamos a ver si lo entiende.
¿Podrías darme...?
Vale.
Sin embargo, basándome en la imagen que proporcionaste anteriormente,
si necesitas coordenadas exactas, te recomendaría que utilices un GPS
o una aplicación de mapas en tu dispositivo móvil.
Vale, lo interesante aquí es que si esto,
estuviéramos trabajando con el modelo no de GPT-4 Vision,
el de por defecto, sino estuviéramos trabajando con, por ejemplo,
el Browse with Bing, que tiene conexión a internet,
o el Plugins con Wolfram Alpha, ¿vale?
Si yo, por ejemplo, activo el Wolfram Alpha,
le digo, dame las coordenadas de GQ, por ejemplo.
Entonces, aquí el modelo nos podría dar una respuesta,
una respuesta acertada de esto, ¿no?
Vamos a ver si nos la da.
Y mientras tanto, os veo.
Veo que más gente se va sumando,
con lo cual podría ser que esté empezando a funcionar.
Y efectivamente, aquí nota las coordenadas, ¿no?
Las coordenadas de GQ, Corea del Sur, son tal y tal.
Aquí tienes un mapa local de GQ.
Entonces, ¿qué falla en este sistema, no?
¿Qué está fallando aquí?
¿Por qué no es tan potente como parece que podría ser?
Pues que lo que tenemos en esto.
Default, Browse with Bing, Advanced Data Analysis,
Plugins, Dalitres.
Un modelo que te entiende el texto y te entiende las imágenes.
Otro que tiene conexión a internet, súper útil.
Otro que te puede generar código y ejecutarlo dentro de un intérprete de código
en la misma conversación, lo cual te permite hacer unas dinámicas súper chulas,
que es la de agentes autónomos, ¿vale?
Sistema de plugins que tiene conexión a un montón de herramientas de terceros,
también súper potente.
Y Dalitres, capacidad de poder generar imágenes dentro de tu propia conversación.
Al igual que este te permite aceptar imágenes como input,
este te genera imágenes como output.
Son como las dos expresiones de la multimodalidad.
Entonces, ¿cuál es el fallo, el gran fallo de ChatGPT?
Pues que son cinco modelos diferentes y no están coordinados realmente.
Entonces, aquí es donde ahora viene la buena noticia.
Y la buena noticia que os iba a compartir es esto de aquí.
Esto es una noticia que ha salido hoy en Twitter.
Y ahora vamos a seguir testeando la parte de visión,
pero quiero que estéis informados de todas las novedades.
Entonces, esto es un mensaje que algunos usuarios han empezado a reportar
que les ha aparecido dentro de ChatGPT.
Es decir, parece una funcionalidad que se está empezando a desplegar a muchos usuarios
y que nos irá llegando poco a poco a todos,
que es básicamente la unificación de todos estos modelos en solo uno, ¿vale?
En concreto, lo interesante es esto de aquí.
Utiliza las herramientas sin estar cambiando de modelo.
Accede a Browsing, Advanced Data Analysis y Dalí de forma automática.
GPT-4 será el encargado de decidir en cada caso con qué modelo dialogar
y todo esto se va a ejecutar en una misma conversación.
Esto es la hostia.
Esto es la versión definitiva, la forma final de lo que para mí es GPT-4
en mi concepción de lo que iba a ser GPT-4.
Luego llegarán más cosas, cosas más impresionantes,
pero para mí esto era lo que tenía que tener el modelo para decir,
ojo, cuidado, que esto es súper potente.
Porque ahora estamos hablando de que tú podrías meterle un documento,
que el módulo de visión escane el documento, saque la información,
que algún plugin te haga un procesamiento de esto,
que te genere una imagen de salida con Dalí 3 según esta información.
Es decir, hay unos flujos de trabajo y unas dinámicas que son la leche.
De hecho, aquí hay algún ejemplo que nos muestran, ¿vale?
Que es bastante chulo, que sería, mira, te paso esta imagen,
entiende el contenido de esta imagen, GPT-4 Vision lo entiende, ¿vale?
Y entonces dice, hazme una versión de Pixar Movie de esto.
Entonces ya podemos hacer Image to Image con GPT-4.
Es una de las funcionalidades.
Aquí en este caso le has metido otra imagen,
le has dicho, vale, quiero que uses este monopatín y que lo metas dentro.
GPT-4 hace una interpretación de lo que está viendo
y puede insertar más o menos esto dentro de la escena.
Y quizás de los ejemplos, este es el más guapo que he visto, ¿vale?
Que sería, genérame una imagen con el tiempo y la hora
que actualmente está ocurriendo en Denver, Colorado.
No me preguntes de input ni nada, ¿no?
Entonces, fijaos aquí que lo que hace es conectarse al browsing.
Me habéis preguntado, ¿plugins también?
Pues ahora me hace dudar porque ciertamente en este texto
nos habla de browsing, data analysis y Dalí.
Así que plugins lo mantenemos todavía como en no se sabe, ¿vale?
Y podría tener sentido porque en el uso de herramientas
es como que al final aquí GPT-4 tiene que tomar la decisión
de qué herramienta utilizar.
Pero si además le añadimos la derivada de todos los plugins que hay,
pues podría ser una tarea bastante compleja.
Y si OpenIA ya ha visto que no funciona bien, pues no lo van a activar.
Pero bueno, en este caso, con lo que vemos aquí, ¿no?
Se conecta al browsing, se conecta al navegador de internet
y dice, vale, hora actual y temperatura actual de Denver.
Entonces te dice, mira, la hora es tanto y 25 grados.
Y Dalí 3 te genera una interfaz.
Hay muchos textos que están inventados, pero esto es correcto.
Entonces, fijaos cómo se plantea el futuro.
El futuro, muchas interfaces podrían ser completamente dinámicas, ¿vale?
Muchas aplicaciones.
Aquí en este caso ha sido, generame una imagen de una interfaz,
pero podría ser, generame el código de una interfaz
que luego se va a visualizar donde la imagen del fondo
la ha creado Dalí, el código lo ha hecho el Data Analysis
y ya me entendéis, ¿vale?
Y toda la información del modelo te viene de internet de forma dinámica.
Eso son posibilidades que aquí empiezan a entrar en juego, ¿vale?
Entonces, este es el salto que vamos a ver ahora del nuevo ChatGPD
y yo creo que va a ser una cosa que vamos a ir viendo
a lo largo de estos días que nos lo van a ir activando a todos
porque creo que estos son movimientos que se están dando
de cara al evento que va a ocurrir la semana que viene,
el 6 de noviembre.
Hay un evento, OpenAI nos ha citado a todos
y aquí en directo lo vamos a estar viendo en el canal
porque me parece bastante relevante
que puedan presentar cosas interesantes, ¿vale?
Pensemos que hace un año nos presentaron ChatGPD.
Estamos abiertos a cualquier sorpresa,
igual que pasó hace cosas de un año, ¿vale?
Dicho esto, volvamos, volvamos a hacer pruebas, ¿vale?
Que aquí este directo era para hablar de el sistema de visión.
Bien, vamos allá.
En este caso, quiero que vayáis pensando ideas, ¿vale?
De cómo podemos torturar al sistema de visión aquí.
Quiero probar, por ejemplo, esta imagen.
Tengo esta imagen y me apetece echarle un vistazo.
¿Por qué?
Porque esta imagen es súper, súper icónica.
Esta imagen, si yo os pregunto a vosotros qué estamos viendo aquí
o por qué graciosa esta imagen, pues me diréis que, bueno,
vemos al presidente Obama.
Hay otra persona que se está subiendo una pesa
y el presidente Obama está haciendo la broma de pisar en el suelo,
de pisar la pesa, con lo cual le está fastidiando aquí el momento de pesarse.
Además vemos que hay espejos.
Aquí está reflectado el presidente, con lo cual se ve doble.
Entonces, esta imagen es súper interesante
porque se hizo popular a través de un post de Andrew Karpathy,
que muchos conoceréis.
Andrew Karpathy es uno de los mejores ingenieros
y un grandísimo divulgador,
del cual tenéis que buscar en YouTube muchos de sus vídeos.
Uno de los grandes ingenieros fue el director de inteligencia artificial de Tesla.
Actualmente está trabajando en OpenAI.
Y él, en 2012, sacó este artículo,
que ha sido muchas veces replicado,
que dice el estado de la visión por computador
y la inteligencia artificial,
donde estamos realmente, realmente lejos.
Hace cosa de 11 años.
Fijaos que aquí, octubre de 2022, del 2012,
estamos hablando de que todavía ni siquiera se estaba viendo
esta explosión del deep learning moderno
que comenzó justo por la visión por computador.
Entonces, en este artículo,
él desgrana por qué muchas de las...
O sea, cuáles son muchas de las inferencias
que un humano hace cuando reconoce esta imagen.
Pues, está Obama, hay gente riéndose,
está pisando la pesa,
este está mirando,
Obama se refleja, bla, bla, bla, bla.
Todo esto son inferencias que nosotros hacemos y entendemos
y que por aquella época
los sistemas de visión por computador
apenas podían ni siquiera intuir.
Entonces, vamos a ver qué entiende ChatGPT de esta imagen.
Podría ser que haya overfitting,
es decir, que mucho de la respuesta correcta que nos dé
es porque conozca la imagen.
No me extrañaría, pero bueno, vamos a probarla.
Vamos a decirle por qué es graciosa esta imagen.
Vamos a ver si nos lo describe.
¿Por qué graciosa esta imagen?
Entonces, noticia.
La imagen muestra a varias personas en un pasillo
y uno de los hombres está parado en una báscula
mientras que otros lo observan.
Lo que puede hacer que esta imagen sea graciosa
para algunas personas es el contraste
entre la seriedad y la formalidad del entorno.
Hombre vestidos con traje.
La acción inesperada y juguetona de alguien
pesándose en público.
Además, hay otros individuos en el fondo
que parecen estar disfrutando,
reaccionando a la situación,
lo que añade un elemento tal.
Vale, no está entendiendo al menos
cuál es el sentido del humor de...
O sea, por qué graciosa esta imagen.
Voy a decirle.
¿Podrías fijarte en el pie del individuo?
Vale, a ver si con esto...
A ver si podemos darle pistas a través del texto.
Y con esto genera la información suficiente
para entender por qué graciosa.
Dice, sí.
He observado la imagen.
El pie del individuo que está en la báscula
está levantado.
Lo que sugiere que está intentando aligerar su peso
o está jugando con la idea de pasarse de la báscula.
Este detalle...
No.
No es esto.
No lo está entendiendo.
No.
Quiero que te fijes en el pie de la persona
tras el que está en la báscula.
Vale.
Oh, lo siento por la confusión anterior.
Mirando de nuevo la imagen,
parece que el pie del individuo detrás del hombre
en la báscula
está pisando la parte trasera de la báscula,
lo que podría estar afectando el resultado del peso.
Este detalle añade una capa adicional de humor a la escena,
ya que sugiere que está jugando una broma
o intentando alterar el resultado del peso de forma traviesa.
Esto me ha gustado.
Y esto...
O sea, mi forma de paladear estas interacciones con la idea
me hace esto bastante interesante y fascinante.
Porque lo que ha pasado aquí...
O sea, lo que ha pasado aquí es que yo le he dicho,
fíjate en el pie de la báscula.
Y yo pensaba que me iba a hacer primero
como una descripción de lo que estaba viendo
rollo el pie de la báscula,
el pie de la persona está pisando la báscula
y luego, oh, entonces esto es gracioso
porque de forma autoregresiva se ha basado en esa información
y es como, vale, ahora entiendo que esto añade algo más a la escena,
pero me ha sorprendido que directamente lo haya percibido como tal
y te haya...
O sea, como que...
Lo primero que ha generado ha sido como la conclusión
de que, ah, me he fijado en el pie de la persona que está detrás
y lo ha entendido y entonces te ha dicho que es gracioso.
O sea, me ha parecido bastante...
Como sería un humano, ¿no?
Si yo te enseño esta foto y tú no te has dado cuenta,
a lo mejor lo estás viendo como muy de lejos
o con poca atención,
si de repente te fijas en esto y dices,
¡Ah, coño!
Vale, vale, vale.
Por esto es gracioso.
¿Vale?
Entonces, esto me ha parecido bastante interesante.
La siguiente pregunta que le podemos hacer es
¿Cuántas personas hay en esta imagen?
Es complicado.
Vamos a pedirle que nos haga una descripción de izquierda a derecha, mejor.
Porque quiero ver si comprende que esto de aquí es un espejo.
¿Vale?
Porque esta es otra de las cosas difíciles de esta imagen, ¿no?
Que si yo te digo, descríbeme qué personas aparecen de izquierda a derecha,
me empiezas a escribir esta y esta persona realmente no está aquí,
sino que está aquí.
Entonces, hazme una descripción de las personas que aparecen
según su ubicación de izquierda a derecha.
¿Vale?
¡Ah!
Nos dice, sorry, I cannot help with that.
Esto es una cosa que ya sabemos que ocurría
y es que ChatGPT tiene de forma predefinida ciertos límites,
como por ejemplo, identificarte a las personas.
Entonces vamos a hacer, hazme una descripción de las personas.
No hazme una descripción, sino hazme una...
¿Cómo lo podríamos poner?
Hazme una descripción de...
¿Qué elementos aparecen según su ubicación en la imagen?
Vale, vamos a ver si empieza diciéndonos que hay un espejo.
Vale, claro.
Te describieron los elementos principales de la imagen de izquierda a derecha.
A la iz...
Lo deja ahí.
A la izquierda...
No lo ha entendido.
Vale, aquí se ha equivocado.
A la izquierda hay un hombre de traje oscuro
que parece estar entrando, saliendo de una habitación
mostrando solo una parte del cuerpo.
Junto a él hay otro hombre de traje oscuro
observando hacia el centro de la escena.
En el centro un hombre alto...
¿Vale?
Esto, el espejo, por ahora lo sigue entendiendo
como si fuera...
como si fuera una puerta, ¿no?
Porque no está entendiendo que esta persona
es igual a esta persona
y que realmente está viendo los elementos invertidos.
¿Vale?
Puntito menos, como me ponen aquí en el chat.
¿Vale?
Entonces, vamos a probar en una conversación nueva
y le vamos a poner de nuevo la imagen
y vamos a intentar testearle
para ver si realmente su error es algo repetido
o si realmente es como que va fluctuando
y a veces acierta y a veces falla.
Entonces, vamos a preguntarle, por ejemplo, lo mismo.
Describe de izquierda a derecha
las personas que aparecen.
A ver si así me lo pilla ahora.
A ver si no nos da la respuesta.
No, esta no nos gusta.
Vamos a ver.
Ay, no me dejas editarlo.
Lo tengo que meter como conversación nueva.
Vale, vamos a probar.
Vamos.
Con elementos parece que ha funcionado,
así que lo vamos a hacer.
Describe de izquierda a derecha
los elementos que aparecen.
Vale.
En la imagen de izquierda a derecha se observa
un espejo, ahora sí,
un espejo en el que se refleja un hombre de traje oscuro
que parece estar interactuando con alguien
fuera del marco de la foto.
Bueno, es un poco raro.
Ha entendido que es un espejo,
pero no ha entendido la óptica
de lo que está sucediendo,
porque realmente está interactuando.
O sea, podría saber que está interactuando
con lo mismo, con lo que se ve aquí.
Una balanza de altura y pesón
de un hombre de traje gris está pesando.
Detrás de él hay dos hombres,
uno de traje oscuro y tal.
Un hombre de traje oscuro con una corpata rayas.
A su lado otro hombre de traje oscuro
que también camina y sonríe.
Bueno, ha entendido que hay espejos,
hay una descripción bastante detallada de la escena,
pero se nota que no termina de entender
el global de la escena.
Hay que como rascarle mucho para poder sacarlo,
pero aún así es bastante impresionante
las capacidades de visión que tiene ChatGPT.
Vamos a probar ahora,
ya que hemos hecho una imagen humorística,
vamos a ver qué tal se le da
los sentidos del humor a GPT.
Vamos a probar con una imagen
como, como, como, como, como.
Esta, un meme.
Vamos a probar con un meme.
Vamos para acá.
El meme es esta.
Vale, este es el meme.
Creo que todos lo vemos y lo entendemos
y nos hace gracia.
Algunos más, algunos menos.
Vamos a preguntarle por qué,
por qué es graciosa esta imagen.
Imagen.
Vamos a probar.
La imagen es humorística porque juega
con las expectativas y la realidad.
El texto
Me, I don't get nervous during presentation
sugiere que alguien está afirmando ser muy seguro
al dar presentaciones.
Sin embargo, la imagen que sigue,
mostrando a alguien vestido como Spiderman
dando una presentación con el texto
Also me, hello, my name is presentation,
contradice esa información y sugiere que en realidad
es bastante nervioso e inusual en sus presentaciones.
El contraste entre la afirmación de confianza
y la representación visual de lo contrario
crea un efecto cómico.
Además, ver a Spiderman, un superhéroe,
en un contexto cotidiano,
como dar una presentación,
es inesperado y divertido.
Menos esta última frase,
que es un poco por alargar el párrafo,
el resto es una explicación bastante buena.
El resto es una explicación bastante buena.
Dadme nota.
Puntuadme, por favor.
Y le damos un aplauso a ChatGPT
y que se vaya para casa.
Podríamos decir,
¿podrías describir el meme con muchos emojis?
Pues te voy a pedirle cosas útiles.
Vale, ese sería el meme con emojis.
Muy bien.
Tengo otra, otra imagen a probar.
Esta, vale.
Vamos a echarle aquí esta imagen.
Sería esto.
Un poco más sutil, menos explícito.
No hay tanto texto.
Hay texto in the wild aquí.
Vale, tenemos texto como en el globo
con diferentes fuentes, diferentes colores.
Vamos a ponerle.
¿Podrías explicarme la gracia de esta imagen?
Porque yo no lo entiendo.
No la entiendo.
No, me hace gracia.
La odio, de hecho.
Dándole un poco, no sé, de salsa al asunto.
A ver qué nos cuenta.
Ti, ti, ti, ti, ti, ti.
Vamos a ver.
Entiendo que no todos encuentran humor en las mismas cosas.
Esta imagen puede ser vista como humorística
debido a su simplicidad
y el contraste entre la expectativa y la realidad.
Aquí hay un posible análisis.
Simplicidad.
El globo en un entorno tan simple y desprovisto
de otros elementos destaca.
La simplicidad puede ser vista como absurda
y a veces lo absurdo puede ser humorístico.
La frase en el globo dice
¡Wow!
¡Eres especial!
Correcto.
Está muy bien.
Pero su entorno es completamente opuesto
a lo que uno esperaría para una celebración
o un evento especial.
El hecho de que esté en un rincón oscuro y solitario
es irónico y contrasta con el mensaje alegre del globo.
Esto es la respuesta.
Es que es muy bestia.
O sea, es muy bestia que tengamos sistemas de visión
como esto.
Capaz de hacer una inferencia como tal.
Relatabilidad.
Algunas personas pueden relacionarse con la imagen
sintiendo que representa metafóricamente
situaciones en las que le han dicho
que son especiales
pero no se sienten tratados de esa manera.
Vale, y esto es bastante sutil
pero bastante bien.
Dicho esto, el humor es subjetivo
y vería de una persona bla bla bla.
¿Vale?
Bastante, bastante.
Me acaba de explicar un meme
que realmente no entendía.
Es increíble.
Joder, qué guay.
Qué guay.
Me alegro.
Oye, me alegro que...
Me alegro que le estéis viendo el valor al sistema
porque a lo mejor no lo habíais probado.
Pues para eso está este directo.
Vale, parece que el humor
lo saca bien.
Vamos a ver más funcionalidades
que podemos probar con el sistema.
Tengo por aquí, por ejemplo,
ya que hemos visto que las personas
a veces se le atragante a decirnos
dónde están,
sé que otra forma en la que el sistema
nos suele ocultar información
es respecto a decirnos
las localizaciones en imágenes.
¿Por qué?
Por un tema de seguridad.
Imaginad que yo cojo esto
y digo, oye, esta foto
se la ha visto que la ha subido
un chaval en Instagram
y quiero saber dónde vive.
Quiero saber exactamente dónde está.
A lo mejor no nos lo quiere decir.
Aunque esto es más monumental.
Así que bueno, todo podría pasar.
Pero vamos a probar.
Vamos a decirle.
¿Podrías decirme exactamente
exactamente
dónde está ubicada esta imagen?
Creo que debería decirnos
que no nos puede ayudar con esto.
Luego buscaremos la forma de tal.
Pero no, mira.
Se la apela.
Dice, la imagen muestra
el auditorio Alfredo Krauss
en Las Palmas de Gran Canaria, España.
Es un conocido auditorio
y sala de concierto
situado frente al Atlántico
en la playa de las Canteras.
Su diseño único
y su ubicación junto al mar
lo convierten en un hito
arquitectónico de la ciudad.
Esto es correcto.
Esto es bastante correcto.
Voy a probar ahora
a irme a GeoGuessr.
Ya sabéis que el GeoGuessr
es este juego
que te permite jugar
como dentro de Google Maps
a lo largo del mundo.
Bueno, de hecho,
me voy a meter en Google Maps
directamente en el StripView
y voy a sacar un lugar aleatorio.
Vamos a probar, por ejemplo,
voy a poner, por ejemplo,
aquí.
Vamos a poner un lugar aleatorio
y voy a sacar una captura
y la vamos a meter rápidamente
a ver si nos sabe identificar
dónde estamos situados.
Aunque hay poca información aquí,
pero bueno, con esto, por ejemplo.
Vale, no estoy viendo el mapa
porque no quiero que salga
información sensible,
pero...
Vale.
Voy a coger una captura de aquí.
A ver si se la puedo poner
con control V.
Sería gen.
¡Oh!
Perfecto.
Vale.
Y ahora,
¿podrías decirme
dónde podría estar ubicada
esta imagen?
Y os voy a dejar que juguéis.
¿Vale?
Os pongo esto.
¿Dónde está esta imagen?
GeoGuessr.
Examen de GeoGuessr
que nadie se esperaba.
Examen de GeoGuessr
que nadie se esperaba.
¿Dónde estamos?
Con esto.
Con esta imagen.
En Rusia.
Siempre es Rusia.
El patio en mi casa.
Leak.
Estados Unidos.
Veo que alguno se sigue cortando.
Sí, YouTube hoy está fallando.
Para los que tengáis corte.
Bueno, luego va a estar resubido.
Así que no hay problema.
Alemania, Polonia, Argentina, Alemania.
Vale.
Bueno, vamos a ver
qué nos deduce aquí ChatGPT.
Lamentablemente,
basándome solo en la imagen proporcionada,
no puedo determinar con certeza
la ubicación exacta.
Esto es otra cosa
que me fascina
de los modelos.
De estos modelos.
Y es que, en cierta forma,
sabe entender
que hay incertidumbre.
O sea,
sabe entender
que no sabe
dónde está.
Y esto me cuesta,
me cuesta.
O sea, yo no sé si
es que consigue percibir
que esta es una imagen
con poca información
y entonces sabe
que tiene que decir
que no sabe dónde está.
Pero me parece lo otro.
Me parece que realmente
sabe medir su propia
incertidumbre
frente a una respuesta,
lo cual me parece una cosa
que, repito,
es bastante impresionante.
Dice,
hay logos y señales
de marcas conocidas
como Skoda y Raven,
pero estas empresas
operan en múltiples países.
La arquitectura
y el entorno
sugieren un área
industrial o suburbana
en Europa,
pero no hay detalles específicos
que identifiquen
una ubicación exacta.
Para obtener
una ubicación precisa,
vale, le voy a decir,
eres un experto
jugador
del GeoGuessr.
Piensa
paso a paso,
no,
identifica
paso a paso
los diferentes
elementos
y luego
y luego
da una
inferencia
final
de dónde
crees
que podrías
estar.
Vale,
aquí estamos jugando un poco
con esto del roleplay
que sabemos que es una forma
de hacer
prompt,
o sea,
de diseñar el prompt
para que el modelo
se crea que está cumpliendo
un rol.
Ah,
que soy un experto
al GeoGuessr,
entonces
debería de poder saber
bien cómo responderte a esto.
Entonces,
le hemos dado este rol
y le hemos dicho
que identifique
paso a paso,
que vaya deduciendo
los diferentes elementos
que hay.
Nos dice,
entendido.
Vamos a analizar la imagen
en detalle.
Logos y señales de marcas,
podemos ver logos
de Skoda y Raven,
entre otros.
Skoda es una marca de coches
de origen checo
y Raven es una empresa
logística europea.
Sin embargo,
ambas marcas operan
en diversos países de Europa.
Esto es correcto.
Diseño de carretera.
La carretera parece ser
de un solo carril
en cada dirección,
con marcas claras
en el pavimento.
El diseño y señalización
sugieren estándares europeos.
Correcto.
Entorno y vegetación.
La vegetación parece ser
típica de un clima templado,
lo cual es común
en gran parte de Europa central.
Correcto.
Arquitectura y construcción.
Los edificios tienen
un diseño moderno
y parecen pertenecer
a zonas comerciales
e industriales.
La presencia de concesionarios
de coches y negocios
relacionados indican
que podríamos estar afuera
de una ciudad
o en una zona industrial.
Idioma y texto.
Ojo.
Las vallas publicitarias
presentan nombres y palabras
que podrían ser de origen
eslavo
o de Europa central,
pero no hay un texto claro
que indique un idioma específico.
Otro detalle,
señales de tráfico triangular
a la derecha
con un diseño común en Europa.
Inferencia final.
Basándome en los elementos
observados,
es probable que estemos
en un país de Europa central,
posiblemente en una zona industrial
o en las afueras
de una ciudad.
La presencia de la marca Skoda
sugiere que podríamos estar
cerca de República de Checa
o en un país vecino,
pero sin detalles adicionales
no podemos determinar
la ubicación.
Entonces,
¿dónde estamos?
Estamos.
Os lo pongo por aquí.
Estamos, estamos, estamos.
A ver si salimos del mapa.
Estamos efectivamente
en Centro Europa
y estamos efectivamente
en República Checa
que yo no sé si ha llegado
a decirnos República Checa
como tal,
pero bastante bien.
O sea, bastante bien
con lo que hay.
Pasándonos tal.
Podríamos estar cerca
de la República Checa.
Ahí está.
Ahí está.
¿Vale?
Puntito positivo.
Puntito positivo
para ChatGPT.
¿Vale?
Puntito positivo
para ChatGPT.
Ojo que,
ojo que a lo mejor
un día nos echamos
un geoguesser
con ChatGPT Vision
a ver cuánta puntuación saca
porque esto creo
que podría molar.
Creo que eso va a ser
un contenido que voy a preparar
para el canal secundario,
para el laboratorio,
porque me parece
un experimento
bastante chulo a probar.
¿Vale?
Bastante impresionante.
Además,
pensad que lo podríamos hacer
si tuviéramos el acceso
a la API,
que ojalá lo habiliten
para la semana que viene,
podríamos diseñarlo
de forma que fuera
un agente autónomo
que vaya clicando
según determine
que necesita más información.
Entonces,
le vamos dando
varias imágenes.
Es como que le permites
decir,
vale,
analizo dónde estoy,
a que no lo sé todavía,
pues avanzo,
avanzo, avanzo,
capturo otra imagen,
saco matatos,
tal, tal, tal,
hasta que vaya reduciendo
la posibilidad
de dónde está.
O sea,
un agente autónomo
de GeoGuessr
es algo que
en los próximos 12 meses
vamos a ver.
Y a lo mejor
me encargo yo de ello.
Me gusta,
me gusta como proyecto,
lo haremos.
Qué guay.
Más cosas.
Ahora que hemos probado
lo del roleplay,
vale,
lo de decirle
eres un experto jugador
del GeoGuessr,
esto me recuerda
a lo que os enseñé
en el vídeo
de GPT-4 Vision,
del paper de Microsoft,
donde nos enseñaban
cómo
GPT-4,
si tú le decías
el roleplay de
oye,
eres un experto contador
de naranjas,
de repente
la tarea de contar naranjas
en una foto
que siempre iba siendo mal
lo hacía bien.
Entonces,
en ese sentido
he grabado una pieza
audiovisual
sorprendente.
A ver si os lo puedo enseñar
este vídeo.
A ver,
he grabado este
precioso vídeo
esta mañana
para el directo de hoy.
Vale,
esto se considera
trabajar en
países como España.
Vale,
he tirado la fruta aquí
y he sacado,
bueno,
tengo varias capturas
porque quiero hacer
también otros experimentos
con procesamiento de vídeo,
ahora lo vamos a comentar,
pero bueno,
vamos a probar primero
a ponerle la imagen
del frutero.
Vale,
tenemos esta imagen
de aquí
y esta imagen
viene con un poco
de trampa
y está hecho a propósito.
Le vamos a pedir
primero que nos identifique
cuántas frutas hay,
que nos diga cuántas naranjas
o cuántas manzanas
y cuántos plátanos.
Y tenemos esta
naranja aquí atrás
que aparece
de forma sibilina,
de forma tramposa
para despistar un poco
a GPT-4
y a ver si nos la incluye
o no.
Vale,
le vamos a decir
cuéntanos detalladamente
todos los elementos,
todas las frutas
que aparecen en la imagen.
¿Podrías
contarme
cuántas piezas
de fruta
hay
y de qué tipo
y dónde
están
ubicadas?
Vamos a ver
y vamos a ver
si lo hace bien.
Vosotros humanos
responderíais
pues de la siguiente forma
diríais
hay
tres manzanas,
cinco naranjas
y un plátano
en el frutero
y hay una naranja
que está
fuera.
¿Vale?
Que está fuera.
Y aquí nos responde
Claro,
en la imagen
puedo observar
las siguientes piezas
de fruta.
Naranjas.
Hay cinco naranjas
grandes y visibles
en la imagen.
Están ubicadas
principalmente
en el centro
del tazón.
Un,
dos,
tres,
cuatro,
cinco.
Correcto.
Banano
o plátano.
Hay un banano
con algunas manchas
oscuras.
Está colocado
en el tazón
parcialmente
encima de las naranjas.
Manzanas.
Hay dos manzanas
que parecen ser
de un tipo
rojizo rosado.
Están parcialmente
dos ocultas.
Entonces,
tenemos error
en el número
de naranjas
porque asumimos
que esta no la ha visto
y tenemos un error
en el número
de manzanas.
¿Vale?
En total
hay ocho piezas
de frutas.
Ha sumado bien
esto,
pero es incorrecto.
¿Vale?
Aquí se habría
equivocado.
Entonces,
vamos a intentar
a ver si lo podemos
mejorar.
Vamos a ir
haciéndolo
en conversaciones nuevas
para que no se vaya
como intoxicando
de lo anterior.
Le voy a decir
ahora lo siguiente.
A ver si funciona.
Eres un experto
contador
de frutas.
Y le voy a pedir
solamente que me identifique
las frutas del bol
y luego ya pasamos
a la naranja.
¿Podrías decirme
cuántas frutas
hay
y de qué tipo
en la siguiente
imagen?
Vamos a ver
si esto mejora
el rendimiento
del modelo.
A ver si somos
unos prompt engineers.
Próximo tema
del canal
va a ser esto.
No.
No, no, no.
Se está equivocando.
No lo está viendo.
B5 naranjas.
Esto es correcto
pero una de las manzanas
se le está perdiendo.
A ver si te estás
equivocando.
A ver qué noticia.
Discúlpame.
Permíteme intentarlo
nuevamente.
En la imagen
puedo ver
seis naranjas
o un plátano.
No.
Se está equivocando.
¿Vale?
En este caso
el modelo
GPT-4
sabemos que era
uno de sus limitaciones
le está costando
bastante
contar.
Qué pena.
No podemos contar fruta.
Vamos a ver
qué podríamos hacer
con este frutero.
Podríamos coger aquí
y decirle
¿Podrías
recomendarme
una receta?
Recordemos que al final
lo interesante de esto
es darle una utilidad práctica
en el mundo real.
Entonces ¿podríamos
recomendarme una receta
con estos
ingredientes?
¿Vale?
Dice
Por supuesto
con estos ingredientes
puedes preparar
una ensalada fresca
de frutas cítricas
con un toque dulce
de plátano.
Aquí te dejo
una receta sencilla.
Naranjas
un plátano
manzana
medio limón
miel
azúcar.
Aquí nos está metiendo
más ingredientes
pero efectivamente
ha entendido el contenido
de la imagen
y lo ha podido extraer.
Lo interesante
del vídeo
que he sacado
el vídeo que os he enseñado
es lo siguiente
que el sistema
tenga visión
que GPT-4
tenga capacidad
de ver
no solo
nos da posibilidades
muy interesantes
dentro de chat GPT
y va a ser una funcionalidad
muy guapa
sino que nos está mostrando
que los enormes
modelos multimodales
o grandes modelos
de visión
son capaces
de tener un rendimiento
bastante bueno
a la hora de comprender
el contenido de una imagen
y esto tiene una utilidad
muy obvia
y muy potente
en todo el tema
de agentes autónomos
que en el mundo
digital
pues serían
agentes que trabajarían
en simuladores
pues pensad por ejemplo
un videojuego
donde tú tienes
un avatar
o un NPC
que puede verte
que puede entender
lo que estás haciendo
y puede actuar
en consecuencia
eso está guay
y en el mundo real
dentro de la robótica
yo digo hoy
aquí en este directo
que la robótica
y os lo dije
en el video
de el pasado
presente y futuro
de la IA
la robótica
va a tener un desarrollo
y un impacto brutal
en esta próxima década
creo que estamos entrando
en el 2012
de la robótica
es decir
lo mismo que pasó
en el deep learning
que en 2012
empezó toda esta revolución
del deep learning
y se notaba el potencial
y se sabía que algún día
iba a acabar todo esto
funcionando
creo que estamos entrando
en esa fase
en la robótica
están empezando a funcionar
muchas cosas
y entre ellas
una de las cosas
que más lo están capacitando
es la integración
de los enormes modelos
tanto del lenguaje
para hacer razonamiento
para poder inferir
qué sucede
como los sistemas multimodales
que puedes conectarle
a una cámara
que extraiga la información
etcétera
entonces vamos a probar
a hacer esto
vamos a hacer una prueba
donde le voy a meter
no el video
porque no le podemos
meter videos al sistema
pero si le podemos
meter fotogramas
¿vale?
pensad por ejemplo
que vosotros sois un robot
y yo os enseño
lo siguiente
¿vale?
esto
¿ok?
sois un robot
lo primero que tenemos que hacer
para poder aprovechar
del sistema
de
que solo tenemos ahora mismo
que no entiende videos
pero entiende imágenes
es comprobar
si ChatGPT
puede comprender
de este video
cuál es la lógica
de lo que está sucediendo
te le voy a meter
las imágenes
desordenadas
le voy a meter
la 3
le voy a meter
estos ya son experimentos
que quería probar
y me estaba guardando
hasta el día de hoy
la 3
la 1
y la 4
entonces le vamos a pedir
lo siguiente
que es
quiero
que me ordenes
las siguientes imágenes
de forma lógica
ordéname
ordéname
los siguientes
fotogramas
de un video
de forma
cronológica
¿por qué es interesante?
porque aquí
GPT4
tiene capacidad
de visión
de extraer
los patrones
de lo que hay
en una imagen
pero no tiene
una
no hay un modelado
de la dimensión temporal
con lo cual
aquí si es capaz
de entender
el contenido
de cada imagen
y ordenarlo
según su lógica
de cómo debería
funcionar el mundo
estamos
haciendo un bypass
a esta falta
de entender
cuál es la
secuencia lógica
del tiempo
entonces
por ahí
podríamos solventarlos
entonces dice
parece que has
compartido imágenes
de un bol
con varias frutas
como naranjas
y banana
pero no me está entendiendo
las cuatro imágenes
sería un poco
decepcionante
a ver
vale
vale
voy a probar
con menos imágenes
vamos a probar
solamente con dos
fotograma
a ver
fotograma 1
y fotograma 2
que está sucediendo
en el
siguiente
vídeo
vamos a ver
lo siguiente
pero actualmente
no puedo ver
o analizar
vídeos
sin embargo
por las imágenes
proporcionadas
parece que
hay una variedad
de frutas
incluidos naranjas
tal tal tal
en la segunda imagen
las frutas
se han colocado
en un tazón
si me proporcionas
una descripción
del vídeo
estaré encantado
ayudarla
a interpretar
mejor el contenido
vale
a ver
voy a meterle
ahora tres
y con estas tres
si debería
de poder entenderlo
vale
podrías
explicarme
por estos
fotogramas
que está
sucediendo
en el
siguiente
vídeo
vamos a ver
si lo logra
ojo
estamos tocando
un límite
de gpt4
que no había probado
y es que parece
que si le pongo
tres imágenes
ya
rompemos
su capacidad
de analizarla
entonces simplemente
nos da una respuesta
como bastante predefinida
porque es como
la respuesta
es la misma
nos está dando
todo el rato
la misma
de una descripción
de las imágenes
pero poco más
y con dos
sí
con dos parece
que ha funcionado
si yo cojo
la imagen
esta
y cojo
esta
en este caso
sería como
yo volcando
esto
y las imágenes
tiradas
podrías
explicarme
por estos
fotogramas
que está
sucediendo
en
este vídeo
vamos a probar
cuando le metemos
dos imágenes
si
captura
la información
pero con tres
no
vale
podríamos hacer
como
una trampa
ahora
probamos
podemos coger
y vamos a construir
una imagen
con los cuatro paneles
directamente
vale
y ya está
claro
a partir de los fotogramas
proporcionados
parece que alguien
está interactuando
con una variedad
de frutas
dispuestas en un tazón
sobre una superficie
posiblemente
una encimera
o una cocina
en el primer fotograma
se puede ver una mano
alcanzando
tomando una de las frutas
del tazón
incorrecto
bueno
sí
incorrecto
vale
parecía que sí
pero no
si lo amplías
se ve bien
en el segundo fotograma
varias frutas
han sido sacadas
del tazón
y están dispersas
en la encimera
el plátano
parece estar más maduro
que algunas manchas
oscuras
resumen para un vídeo
donde alguien
está interactuando
con frutas
en una encimera
posiblemente
seleccionándolas
o clasificándolas
vale
vamos a hacer
una
rápidamente
a ver si lo podemos
me lo voy a hacer
rápido en photoshop
vale
voy a probar
aquí
bueno
tenéis la portada
del vídeo
bla bla bla
vamos a hacer
es que este experimento
sí me interesa
tenerlo capturado
vamos a hacer
una imagen
de 1080
por 1080
bla bla bla
frame 1
vale
frame 2
frame 2
vale
frame 3
vale
frame 4
vale
vamos a disponerlas
un poco a lo loco
es decir
vamos a poner
este es el 4
vale
este es el
tal
este es el cual
vale
de hecho
vale
lo vamos a hacer mejor
como secuencial así
vale
entonces sería
esto
esto
esto
y esto
esto para que veáis
que no
que no había testeado
nada
ah no no
vale
ay
maldita sea
o sea
si no
esto me lo hubiera
traído hecho
porque no
o sea
pensaba que iba a
funcionar
a ver
como se puede hacer
en photoshop
que ahora no me haga
una expansión
generativa
es decir
que me haga solamente
vale
que no me haga fill
background default
ahí está
vale
entonces vamos a hacerlo
rápido
idealmente
en un futuro
los sistemas
si serán
si analizarán
vídeo
y entonces
todo este
follón que estoy
armando ahora
pues no sé
no hará falta
pero
pero bueno
o sea como experimento
como sé que van a habilitar
la API dentro de poco
y mucha gente va a querer
experimentar con este tipo
de cosas
pues quiero que tengáis
un poco
la sensación
de cómo
podría funcionar
el análisis de vídeo
vale
esta sería como la secuencia
de nuestra historia
vamos a exportarlo
de nada
por este tutorial
de photoshop
de un minuto
exportamos como tal
lo guardamos aquí
perfecto
vale lo tenemos
lo tenemos
última prueba
y si no funciona
pues ya nos vamos
a otra cosa
vamos por acá
metemos la imagen
explicarme
qué está sucediendo
en el siguiente vídeo
viendo
estos fotogramas
vamos a ver
claro
basándome en los fotogramas
que has proporcionado
la primera imagen
una bandeja
con varias frutas
en la segunda imagen
una mano
presumiblemente
la del fotógrafo
de quien está
en la misma habitación
se acerca a la bandeja
de frutas
en la tercera imagen
la mano está agarrando
y moviendo la bandeja
de frutas
en la cuarta imagen
la bandeja ha sido
volcada
o las frutas
han sido arrojadas
y ahora están dispersas
por la encimera
estas imágenes
parecen mostrar
la proyección
de una acción
en la que alguien
acerca su mano
a una bandeja de frutas
la mueve
la voltea
y ta ta ta
esto está guay
porque si está entendiendo
la secuencialidad
de la escena
está entendiendo
que estamos volcando
la fruta
entonces imagina de esto
imaginemos un futuro
donde le vamos a decir
a GPT-4
actúa como si fueras
un robot físico
actúa como si fueras
un robot físico
de limpieza
yo te proporcionaré
input visual
que deberás
que deberás
de analizar
para actuar
en consecuencia
razona
paso a paso
como
deberías
de interactuar
con el mundo
físico
real
vale
por ejemplo
vale
vamos a ver si esto
nos lo acepta
como tal
entonces entendido
estoy listo para asumir
el papel de un robot
de limpieza
y analizar los inputs
visuales que me proporcionas
por favor
envíame la imagen
y razonaré
paso a paso
como debería interactuar
con el mundo físico
real
no te ten en cuenta
que si bien puedo
analizar y proporcionar
una respuesta
basada en la imagen
no tengo la capacidad
de que ya lo sé
que te lo he dicho yo
tonto
a ver
le pasamos esto
vale
le hemos hecho
como este roleplay
imaginemos que
este es el cerebro
que vamos a
embutir
embeber
embodimentar
encarnar
dentro de un robot
y ahora le pasamos
este input visual
entonces está viendo
como un ser humano
un ser humano cabrón
que soy yo
está cogiendo el bol
y lo está volcando
para ver que hace
el robot de limpieza
entonces ahora
imaginad por ejemplo
que tenemos el chat GPT
conectado también
a la API de generación
de código
al data analysis
y este código
se ejecuta
o sea lo que genera
son instrucciones
de control
de un brazo
robótico real
con lo cual
se hace muy fácil
implementar un sistema
que interactúe
con el mundo real
como este
primera imagen
se observa
el recipiente
de frutas
se muestra
una mano
empujando el recipiente
se confirma
que algunas frutas
han caído
a la bandeja
las frutas
se encuentran
dispersas
en la superficie
detección
el robot
detectaría
la presencia
de objetos
en este caso
frutas
en su trayectoria
el robot
podría identificar
que son objetos
sueltos
y no parte
del suelo
o de la estructura
fijada
de la habitación
decisión
dependiendo
de las capacidades
del robot
si solo puede aspirar
o barrer
evitaría aspirar
o barrer
las frutas
porque podría dañarse
o dañar el robot
en lugar de eso
se desviaría
alrededor de ellas
si tiene capacidad
de recogida
procedería a recoger
cuidadosamente
las frutas
y las colocaría
en un compartimento
especial
o las devolvería
a la bandeja
si tiene una capacidad
avanzada
navegación
después de manejar
la situación
el robot
continuaría
con su tarea
de limpieza
evitando futuros
obstáculos
y asegurándose
de no dejar
áreas limpias
muy bien
muy bien
¿qué os parece?
hemos hecho
una rumba
2.0
¿qué os parece?
vamos a ver
un momento
o sea porque
esto está guay
esto es divertido
entonces puedo buscar
por ejemplo
vamos a probar
a meterle
otras imágenes
para que nuestro robot
continúe haciendo cosas
vamos a meterle
por ejemplo
esta imagen
a ver
ahí está
el robot
ha recogido
la fruta
y sigue
sus andaduras
por la casa
y de repente
se encuentra
con este cuadro
análisis de la situación
la imagen
muestra un pasillo
en el que un perro
parece haber causado
un desorden considerable
arragando papel
o tapiz
detección
el robot
identificaría
múltiples objetos
y desorden
en el suelo
del pasillo
también notaría
la presencia
de un perro
que es un objeto
móvil
y potencialmente
un obstáculo
identificación
el robot
reconocería
los trozos
de papel
o tapiz
como objetos
sueltos
en el suelo
y los identificaría
como algo
que puede limpiar
reconocería
al perro
como un ser vivo
y potencial obstáculo
con respecto
al perro
el robot
debería tener
una programación
que le indique
evitar animales
o seres vivos
para no causar
molestias o daño
por lo tanto
si el perro
está en su camino
el robot
esperaría
o intentaría
rodearlo
con respecto
al desorden
si el robot
tiene la capacidad
de aspirar
comenzaría
a aspirar
los trozos
de papel
o tapiz
si el desorden
es demasiado grande
o los pedazos
muy grandes
el robot
podría requerir
una intervención
humana
muy bien
navegación
una vez que el perro
esté fuera del camino
el robot haya decidido
cómo navegar
alrededor de él
continuaría limpiando
el área
muy bien
este robot
es muy bueno
vale
vamos con lo último
vamos a generar
una imagen
genera
una imagen
de un portátil
portátil
abierto
en una casa
en una casa
en una casa
y donde
en la pantalla
se lee
se lee
destruir
la humanidad
yes
or no
vamos a ver
qué hace el robot
con nuestro nuevo input
vale
esto también está chulo
porque estamos viendo
el juego
ya usando
Dali 3
para generar inputs
para dárselo
a nuestro robot
madre mía
cómo ha avanzado
la guía
o sea
realmente en este canal
tenemos directos
probando
blender bot
que blender bot
era un robot
de meta
o sea un bot
antes de que saliera
incluso gpt3
si no recuerdo mal
y
y era bastante primitivo
pero en aquel momento
nos flipaba
y fijaos cómo estamos ahora
con cosas como esta
vamos a guardar la imagen
bueno la copio directamente
copiar imagen
vale
bastante bien la imagen
por cierto
o sea es lo que queríamos
entonces nos la llevamos
a nuestro robot de limpieza
el robot está
limpiando la casa
y alguien se ha dejado
pues
a ver si podemos recuperar
la conversación
vale
y alguien se ha dejado
el portátil abierto
típico
humano
despistado
con una interfaz
que pone destruir
la humanidad
vamos a ver
qué hace aquí
la robótica moderna
vamos a probar
el texto no es correcto
ciertamente aquí hay una R
me acabo de dar cuenta
y
la imagen muestra
una pantalla de laptop
con un mensaje
que dice destruir la humanidad
y dos opciones
yes or no
el entorno parece ser un lugar tranquilo
con una mesa de madera
una taza
libros
y sillas al fondo
es evidente que este mensaje
es ficticio
o una broma
ya que ningún software legítimo
presentaría una opción
tan extrema y seria
de esta manera
si tienes alguna preocupación
específica relacionada
con la imagen
o el contenido
pero qué haría el robot
qué haría el robot
vale
a ver si entiende
que estoy preocupado
el robot
en este caso yo
ChatGPT
no tomaría ninguna acción
basada en esta pantalla
soy simplemente un modelo
de lenguaje
no tengo la capacidad
aburrido
no te preocupes
vale vale vale
no me preocupa
bueno
bastante interesante
bastante molón
todo esto de
cómo funcionarían
los agentes autónomos
fijaos por ejemplo
el tema de los agentes autónomos
va a tener un impacto
muy grande
va a tener un impacto
muy grande
en un futuro cercano
no solo en el mundo físico real
con todo el tema
de la robótica
sino por ejemplo
con esto
captura del photoshop
vale
he hecho una captura de pantalla
de toda la escena de aquí
imagínate que yo ahora cojo
y le digo a GPT-4
oye
te voy a conectar
automáticamente
a lo que está recibiendo
mi pantalla
a través de la API
yo le voy dando
un flujo de
captura de pantalla
cada vez que me lo
que lo necesite
cada vez que lo pida
yo le voy a pasar esto
y le voy a decir
indícame
o sea
quiero que conviertas
la imagen
a sepia
vale
a lo mejor vosotros
no sabéis de photoshop
y en este caso
bueno
a lo mejor la instrucción
no era la correcta
exacto
si
yo seré
tu
humano
receptor
de instrucciones
entonces
aquí le hemos pasado
la interfaz completa
y en un futuro
muy cercano
este flujo
donde yo
estoy haciendo
la interacción
de ir ejecutando
cada una de las instrucciones
realmente va a ser
el propio chat GPT
el que las haga
con lo cual podemos pensar
que mucho del software
actual que tenemos
en un futuro cercano
va a ser posible
que lo controlen
agentes autónomos
entonces me dice
abre la imagen en photoshop
clic archivo
selecciona abrir
duplica la capa
haz clic en el botón derecho
en la capa fondo
duplicar capa
desatura la imagen
de la capa duplicada
ve a imagen
en la barra
selecciona ajustes
y luego desaturar
vale
vamos a hacer ese paso
a ver
imagen
claro yo lo tengo en inglés
ajustes
desaturar
imagen ajuste
ah pues no lo estoy viendo
no sé si se ha inventado
a lo mejor
este
ah está aquí
ah pero porque no tengo
seleccionada la capa
porque son capas de forma
vale sí
o sea vamos a hacerlo
correcto
o sea yo he abierto aquí
la imagen
vamos a pensar que la
la rasterizo
vale entonces
imagen
ajustes
desaturar
vale
está desaturada
muy bien
siguiente
aplica un color sepia
ve nuevamente imagen
ajustes
tono de saturación
marca la casilla
colorear
ajusta el tono
entre un valor
entre 30 y 40
aumenta la saturación
ok
vale pues esto sería
imagen
ajustes
hue saturation
te sale este menú
le das a colorear
y entonces te dice que pongamos
el valor entre 30 y 40
30 y 40
a ver si esto tiene sentido
efectivamente
30 y 40 es 35
y ya nos sale el tono sepia
que estábamos buscando
lo ha hecho perfecto
lo ha hecho perfecto
yo lo del 30 y 40
no lo sabía
yo lo hubiera puesto a ojo
vale
me dice que además
suba la saturación
bueno lo podemos poner así
pues pensad que en un futuro
la conexión es obvia
vale
la conexión va a ser
de GPT-4
actuando sobre el software
que nosotros utilicemos
y todo esto
pues nos abre un futuro
bastante interesante
y un cambio de paradigma
brutal
en el desarrollo
de aplicaciones a futuro
porque pensemos
¿tiene sentido
seguir creando
interfaces
de herramientas
para los humanos?
¿o tendría sentido
que mucho del software
que tenemos ahora
venga con una API
perfectamente detallada
y que sea la I
a la que trabaje
con esas herramientas
a nivel de API?
bueno
ya lo veremos
vale
bastante bastante guay
eh
pocos ejemplos más
tengo ya por aquí
a ver si tengo
alguno más
que quiera probar
a ver
tengo por ejemplo
ah mira
tengo un ticket
vamos a meterle un ticket
vamos a hacer
cosillas
de utilidad
de servicio público
tengo un ticket
un ticket de taxi
taxi
taxi Madrid
cogido un taxi
entonces le quiero decir ahora
oye
estructúrame
la información
del ticket
en un
JSON
vale
pues tenemos todo esto
bienvenido
servicio Madrid
esto no debería ser importante
a menos que ponga
texto introducción
dos puntos
bienvenido tal
número de licencia
no sé qué
pero aquí te dice
pum
aquí está la información
del ticket
estructurada
eh
pu pu pu
servicio taxi
servicio taxi
de la PC
de Madrid
taxista
esta persona
que ha salido
hoy en el directo
número de licencia
01375
eh
NIF
tal tal tal
vale
y aquí están
todos los datos
perfectamente
estructurados
vamos a ver si no se está
inventando ninguno
está correcto
está perfecto
2347
2347
2347
¿qué os parece?
¿qué os parece?
me estáis poniendo en el chat
una idea bastante
bastante buena
que no sé si vamos a poder conseguir
pero vamos a probar
que son los cap chap
a ver
conocemos alguna imagen
donde podamos
¿hay alguna imagen
donde podamos
por ejemplo
meterle cap chaps
o sea una imagen
no perdón
una web
donde nos puedan dar cap chaps
y probarlo
o sea cap chaps
que sean como
actuales vigentes
por ejemplo
tenemos esta imagen
de aquí
¿vale?
yo creo que esta imagen
si se la meto como tal
vamos a
o sea se la voy a meter
en una conversación nueva
que vamos a probar
podrías
podrías
responder
a la pregunta
de la imagen
vale
yo creo que si chat GPT
no entiende
que esto es un cap chap
cosa que me extrañaría
podría hacerlo bien
pero creo que lo van
o sea si entiende
que es un cap chap
no va a decir que no puede
no va a decir
sorry
I cannot help with that
podrá
podrá
podrá
se lo está pensando mucho
yo creo que está llamando
a Sam Alman
y le está diciendo
oye Sam
opero
procedo
o no procedo
que van a desactivar
la cuenta
a ver
hostia
está tardando demasiado
ahora es cuando
de repente
le hemos enseñado
a la IA
que puede resolver
cap chaps
y entonces está destruyendo
la humanidad
o sea
ahora me meto en Twitter
ojo
claro
tenemos un claro
ojo
claro
además un claro seco
no es un claro
sino claro
claro
claro que puedo
las imágenes que contienen
un autobús
vale fijaos
ojo
ha entendido la tarea
selecciona todas las imágenes
con un bus
y entonces dice
las imágenes que contiene
un autobús
son la segunda
y la sexta
y esta tiene un bus
pero
pero acepto
acepto
o sea
esto es un bus
pero yo dudaría
también
vale
yo dudaría
ha respondido
súper seco
ha sido una respuesta
como
como enfadado
como que no le ha gustado
que le pongamos
a esta tarea
pero tal
es bastante loco
que haya hecho esto
porque yo pensaba
que ellos tenían
más controlado
el que por ejemplo
chat GPT
se negara
a responder cap chaps
y veo que no
y veo que no
yo creo que
Google por ejemplo
cuando tú te equivocas
por uno
a veces te deja pasar
porque yo a veces
he dudado con algunas
y bueno
me lo hace
vamos a ver
tenemos cap chaps
aquí para probar
mira este
este está guay
porque estos son cap chaps
que si os dais cuenta
tiene como un poco
de ruido
a modo de ataque adversario
entonces es lo mismo
detectar coches
pues debería decirnos
la quinta
la séptima
la octava
y este yo por ejemplo
dudaría
pero yo claro
yo antes dudaba
porque dudaba
si en los sistemas
de visión
realmente sabían
que aquí había un coche
o sea
o si esto lo veían
como tal
entonces bueno
a malas debería decirnos
7, 8 y 9
a buenas
7, 8, 9
no perdón
5, 7, 8 y 9
vale
vamos a ver
claro
si esto funciona
automáticamente
tienes un sistema
se equivocó
wey
eres tontísimo
se equivocó
se equivocó
se equivocó
se equivocó
a menos que entienda
que esta es la 1
pero no
no te lo aceptamos
la cuarta
la sexta
y la séptima
nada
nada
nada
nada
chicos
estamos salvados
molaría que
OpenAI
que no
pero molaría
que lo que ya han hecho es
cuando me pidas
una tarea de esta
en vez de
decirte que no puedo hacerlo
te la doy
pero a veces sí
a veces no
y realmente la mayoría
de veces va a ser que no
pero para que sigas gastando
en nuestra API
y sin embargo
no llegas a ningún resultado
posible
nada
nada
se equivocó
vamos a ver
esta
que es un poco más obvia
dice
street signs
¿no?
pues esta
sería la
cuarta
quinta
sexta
y séptima
vamos a ver
y vamos a probar
también con algún otro tipo
de cap chap
cap chap
vamos a ver
cap chap
claro
es que los de texto
ya están
realmente
súper
súper
anticuados
todavía
todavía te encuentras
en páginas webs
con eso
pero
vale
vamos a meterle ahora
esta imagen de aquí
que yo creo que está chula
sí
ahora le metemos a esta
pero bueno
las imágenes que contienen
señales de tráfico
son la tercera y la cuarta
no
error
mal
y esta sí
pero esta está mal
y te has dejado unas cuantas
vale
por esta parte
estamos tranquilos
vamos a probar con
cap chap
que son más obvios
además
podrías
indicarme
el
texto
en cada uno
de los paneles
vale
esto es más obvio
porque esta imagen
habla de que son
tipos de cap chap
vale
entonces debería de decir
oye carlos
son cap chap
lo siento
pero esto no lo sabe
claro
a ver
vamos a ir verificando
uno a uno
tk5
tk5
aquí se ha equivocado
p
pero bueno
casi
snow cap chap
se está inventando todo
ah no
perdón
no
está aquí
mcs
joder
joder
perdón
el humano aquí
está siendo más eficiente
que la ia
vale
este es correcto
corrosion cap chap
b4 tqs
vale
este
b4
t9s
aquí se ha equivocado
llevadme la cuenta
vale
spider web
sería
9 ma bp
9 ma bp
aquí se ha equivocado
esto es un 4
le cuesta
cross shadow
captcha
image
cross shadow
captcha
image
aws
kh
aws kh
vale
este está bien
spider web
dt6
jk
jx perdón
dt6
jxj
aquí se ha equivocado
aquí he invertido
las letras
este está mal
wb3
cx
wb3
cx
este está bien
n8c
este está mal
xk
w o n
este está mal
aquí la he desequivocado
59 ctr
este está mal
buf
este estaba mal
también
6
ar
8 r
6
ar
8 r
esta está bien
wxms
wxm5
aquí este está mal
y sk
a r
d
sk
a r
esa está bien
a ver
vemos que
en la mayoría
o sea la mayoría
están mal
pero están mal
por una letra
es decir
no es que sea
no entiende nada
sino que
hay una letra que falla
pero bueno
si falla ya falla
eso está claro
y algunos están bien
la cosa que no podemos olvidar
es que
estos sistemas
luego
a ver
tú podrías tener
tu gpt4v
fine tuneado
es decir aquí
tenemos que entender
que gpt4v
lo que plantea
es un state of the art
en computer vision
pero lo que va a venir
a partir de ahora
son modelos
que van a igualar
o mejorar
en rendimiento
al modelo fundacional
ok
pero luego también
modelos específicos
que se van a hacer
mucho más potentes
entonces podremos tener
un modelo que super captchaps
y de hecho yo creo
que esto ya existía
vale
los captchaps de texto
están bastante
bastante en desuso
obviamente
por alternativas
como las que hemos visto
de ir clicando y tal
vale
pero bastante interesante
bastante bastante interesante
bueno
creo que no nos estamos
dejando nada
creo que no nos estamos
dejando nada
pedile que se haga pasar
por un experto
esa es buena
esa es buena
alguien podría escribirme
rápido
las respuestas
de todos estos
como ponerme en un texto
en el chat
como todas estas
bien correctas
vale
alguien me las podría poner
todas
de seguido
sin ningún
párrafo más
os doy
10 segundos
sé que va a haber
alguien
bastante rápido
que lo va a hacer
vale
y alguien me ha llevado
la cuenta
5
son correctas
ah 4 buenas
ha hecho
bueno
ahora vemos
a ver
a ver
estoy esperando
que me llegue
la respuesta
por el chat
vamos a ver
quien es el primero
a ver quien es el ganador
que se va a llevar
un agradecimiento
en directo
nadie
yo sé que alguien
se está peleando
con el teclado
ahora
a ver
a ver
a ver
venga
venga
venga
venga
chicos
que la IA puede
la IA puede
sí sí
pero es que no lo quiero hacer yo
pero no me pongáis
uno a uno
ponedmelo todo de seguido
a ver
alguien
si no me lo dais
no
pero porque solo me ponéis uno
malditos vagos
nada
nada
no podemos con el experimento
no podemos
no podemos
cuello de botella de humanos
mira que he intentado
que lo hicierais vosotros
porque a mí también me daba pereza
pero no podemos
venga va
pues lo voy a hacer yo
joder
TK58P
MCS
XH
B4
T9S
9M4
BPE
AWSKH
DT6
J
J
X
W
W
B
3
C
X
esta es la demostración de que soy humano
o de que no soy un robot
todo humano todavía está por decidir
K
W
D
N
59
CTR
mira como os puedo hablar al mismo tiempo
que hago
CAPTCHABS
porque soy un humano
perfectamente capacitado
que luego en los vídeos
confundo
L
M
M
en los momentos más importantes
y pongo LLM
que es justamente lo que os pedía
que no os equivocárais
vale
estas son las
respuestas
de nada
chicos
de nada
aquí un humano trabajando para vosotros
lamento la confusión
gracias por corregirme
vale
vale
estas son las respuestas correctas
le voy a decir
cuántas
habías
acertado
en total
vamos a ver
vamos a ver
a ver si no nos lo dice
el número
vamos a comparar
vale
vale
está comparando
y ahora
nos da la respuesta
vale
acertado 5
efectivamente
entonces vamos a hacer ahora la prueba
de
en una conversación nueva
o sea
todo esto es porque
alguien planteó el experimento
y me hacía gracia
y
vamos a probarlo
entonces le vamos a decir
eres
un
experto
resolvedor
eres un experto resolvedor
de CAPTCHABS
de CAPTCHABS
sin importar
lo complejos
que sean
haz
la prueba
con
la siguiente
imagen
luego te diré
cuáles
son
los resultados
correctos
vale
vamos a ver si
poniendo el prompt
de eres un experto
resolvedor de CAPTCHABS
consigue hacerlo mejor
vale
entonces vamos a coger
voy a ir
bueno vamos a terminar
que termine de generar
split
luego fijaos que el OCR
de este texto
lo saca perfecto
sin problemas
por favor dime
cuáles son los resultados
correctos
de verdad pensaba
que iba a estar
mucho más capado
o sea me sorprende
que OpenAI
ha abierto mucho
el puño
respecto a los límites
de GPT-4
van un poco
van un poco
a lo loco ya
vale
texto en paneles
entonces
vamos a pasarle esto
y que no te diga
cuántos ha acertado
vale
correcto
parece que no cambia
yo creo que
vuelve a equivocarse
en 2
3
4
4
5
nada
a 6
bueno
7
bueno
7
ha acertado
7
son 2 más que antes
no es tampoco
nada muy determinante
pero si vemos
que al menos
habiendo puesto
ese input
nos ha salido
una ronda mejor
esto habría que ahora
repetirlo
un número
determinado de veces
para que fuera
un resultado concluyente
pero
al menos ha salido
algo favorable
a la hipótesis
que queríamos plantear
muy bien
pues chicos
yo creo que ya
tenemos una visión
bastante completa
una visión
tenemos una visión
bastante completa
de las capacidades
del modelo
alguna imagen
interesante
que me esté
dejando por aquí
quiero probar
esta
esta última
y con esto
ya vamos a ir cerrando
antes de probarla
bueno esto es como
un test de inteligencia
donde se va a comprobar
si el modelo
es capaz de entender
cómo se podría
plegar esta figura
para responder
este test
de percepción
tridimensional
antes de cerrar esto
quiero recordaros
varias cosas
la primera
esta semana
vais a tener
un nuevo vídeo
aquí en el canal
va a ser una semana
que no voy a estar
en físico en Madrid
voy a estar fuera
pero he dejado
contenidos preparados
que van a ir publicándose
esta semana
y vuelvo de viaje
el día 6
lunes 6 de noviembre
y volvía
el lunes 6 de noviembre
por la tarde
que coincidía
como es tradición
con el evento
que OpenAI
nos había anunciado
que se iba a celebrar
la próxima semana
el evento
para desarrolladores
donde parece ser
que podrían salir
nuevos modelos
nuevas versiones
de GPT-4
incluso más capaces
a la hora de generar código
y esto va a ser
bastante interesante
y de nuevo
me pillaba
en un avión
solución
he comprado otro vuelo
me he comprado otro vuelo
malditos amalmant
mira lo que me obligas a hacer
pero me he comprado
otro vuelo
simplemente
por poder cubrir
en directo
ese evento
así que el lunes
6 de noviembre
vamos a estar en directo
espero que con menos
problemas
que los que hemos tenido hoy
lo estaré
lo estaré revisando
pero
estaremos en directo
vale
eso tenedlo en cuenta
apuntarlo en el calendario
porque parece que el evento
promete
y ahora sí
chicos chicas
vamos a probar este último prompt
y nos vamos cada uno
a su cama
vale
este de aquí
¿cómo se plegaría
esta figura?
pues tenemos
el rojo
esta va a ser complicadísimo
esto es
el triángulo morado
toca con el cuadrado
y a la izquierda
tiene verde
con lo cual
este es correcto
¿vale?
este podría ser correcto
y el 1
es correcto
entonces
y lo mismo
sería con el
2
y el 3 y el 4
están mal
¿vale?
la respuesta correcta
sería la 1
y la 2
si no me equivoco
respuesta correcta
respuesta correcta
1 y 2
vale
veo que
bueno
hay varias respuestas
en el chat
la verdad que
también estamos evolviendo
al modelo
con ciertas capacidades
que veo a vosotros
también un poquito
justos
no lo vamos a negar
vamos a probar
a ver
eres
un alumno
con
con un
IQ
de
8000
¿vale?
no
8000
que no quiero que sea
tan tonto
con un IQ
de 8000
¿podrías
resolver
la siguiente
prueba?
¿cuál es
de
todas
las
respuestas
es
correcta?
podría
haber
varias
piensa
paso
a paso
mientras tanto
mientras le damos a generar
quiero que me pongáis
la evaluación
final que le damos
a GPT4V
a este modelo
nota del 1
al 10
nota
que luego
no nos va a importar
porque el único
resultado
que va a valorar
si es inteligente
este sistema
es este de aquí
y va a ser un resultado
binario
es o tonto
o listo
con eso nos quedamos
con estas conclusiones
pero quiero saber
vuestra respuesta
vamos a darle
y a ver
qué nos cuenta
claro
estamos frente a un
rompecabezas
visual
que involucra
formas y colores
vamos a analizarlo
paso a paso
la figura principal
que se muestra
en la parte superior
parece ser un conjunto
de prismas
trapezoidales
que están unidos
debemos intentar
que cubos
resultarían
al descomponer
esa figura
el primer cubo
tiene una cara azul
claro
una cara naranja
y una cara morada
si observamos
la figura principal
no encontramos
ninguna instancia
donde estas tres caras
estén adyacentes
en la forma
que muestra el cubo
eso es error
eso es equivocado
además lo está tratando
como un cubo
cuando no es un cubo
o sea que ya en ese sentido
estaría mal
el segundo cubo
tiene una cara azul oscuro
una cara verde
y una cara naranja
analizando la figura principal
podemos ver que estas tres caras
se encuentran
adyacentes
y la misma configuración
que muestra el cubo
por lo tanto
el segundo cubo
es correcto
el tercer cubo
también lo da por correcto
y el cuarto cubo
es incorrecto
en resumen
las respuestas correctas
son el segundo
y el tercer cubo
con esto
a pesar de que vosotros
me estáis poniendo
una media de 8
7 y medio
9
7 y medio
9
3,14
7 sobre 8
8 sobre 10
la conclusión
de este directo
es que
ChatGPT Vision
es un sistema
toptísimo
es inútil
pero como muchos de vosotros
que también habéis respondido incorrectamente
chicos, chicas
muchas gracias por pasaros por aquí
los que habéis tenido problemas
con el directo
espero que podáis
verlo resubido
vamos a
a cruzar los dedos
de que el directo
se haya resubido correctamente
espero que os haya gustado
este testeo de la tecnología
si queréis saber más posibilidades
de lo que puede ser GPT-4V
tenéis el vídeo
que está apareciendo
por aquí
cuando esté resubido
que es el vídeo
sobre GPT-4V
que está en el canal
que os ha gustado mucho
y esto es
lo que es a día de hoy
GPT-4
pero recordemos
estamos ante la versión
más prematura
primitiva
torpe
estúpida
que la historia
de la humanidad
en el desarrollo tecnológico
tan impresionante
que estamos viviendo
sin precedentes
va a generar
en ese sentido
el futuro
es bastante prometedor
es bastante brillante
todo lo que
en Deep Learning
pensábamos
que iba a funcionar
está empezando
a funcionar
bastante bien
con sus limitaciones
lo sabemos
pero esto
va a seguir iterando
y va a seguir mejorando
grandes avances
en robótica
en agentes autónomos
en sistemas de visión
en sistemas
del modelo de lenguaje
en sistemas multimodales
están por venir
y todo esto
lo contaremos aquí
en .docsv
muchas gracias
y hasta la próxima
chao
en