Análisis de GPT-4V | ¡La VISIÓN ya ha llegado a ChatGPT!

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

results.

Mention graph

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Una de las funcionalidades más esperadas de ChatGPT ya está aquí. Como sabéis,
tras el chatbot de OpenAI existe un enorme cerebro muy inteligente llamado GPT-4,
cuyo anuncio en marzo sorprendió a todos no solamente por su mejora en inteligencia,
sino también por sus capacidades multimodales. La multimodalidad, entendida como la capacidad
de una inteligencia artificial de no trabajar solo con un único tipo de datos, pues que ChatGPT no
se limite solo a trabajar con texto, es algo que OpenAI nos ofreció cuando nos presentó ejemplos como estos.
Ejemplos donde se veía que GPT-4 podía tomar como input imágenes, imágenes que podía visualizar,
comprender, analizar y a través de sus capacidades de generación de texto, razonar y resolver tareas
inteligentes. Una pasada. Y esto sucedió en marzo, pero no fue hasta hace unas pocas semanas que
OpenAI dio el paso de empezar a habilitar esta funcionalidad a muchos de los usuarios de ChatGPT Plus.
A día de hoy muchos de vosotros podréis ver que si acudís a la versión normal de GPT-4, pues se va a
activar esta nueva funcionalidad de aquí donde podéis incluir imágenes como parte de vuestro prompt.
Pues puedo colocar una imagen como esta y pedirle a ChatGPT que me haga una descripción detallada de
todos los elementos que hay en ella y que luego me escriba un poema. Le damos a enviar y en cuestión
de segundos se obra la magia. La imagen muestra a un hombre de pie con una expresión facial serena,
tiene una barba bien cuidada y una cabeza calva. Gracias. Sus ojos transmiten confianza, está
vistiendo una camisa de color verde claro con mangas largas que tiene dobladas hasta los codos.
La camisa está abotonada y tiene un diseño sencillo. Sus brazos están cruzados sobre su pecho,
el fondo de un tono azul grisáceo lo que resalta la figura del hombre. Una descripción perfecta,
sobre todo de la barba bien cuidada. Y esto no deja de ser ChatGPT, una IA cuyo punto fuerte es
trabajar a través del lenguaje y resolver tareas inteligentes, donde ahora nos puede escribir un
poema como este. En el lienzo de azul tenue un hombre sereno se muestra, con barba y mirada que
encanta y en verde su figura destaca. Sus brazos cruzados al pecho una señal de fortaleza y calma,
en el silencio de ese retrato su presencia el espacio embalsama. Impresionante. Esto abre la puerta
a un montón de posibilidades. A mi gusto el modelo de visión de GPT-4, lo que se conoce como GPT-4
es todo un cambio de paradigma en el mundo de la visión por computador. Y al igual que sucedió
con la llegada de ChatGPT, esto abre un abanico de posibilidades enormes que posiblemente a día de
hoy ni siquiera llegamos a comprender. Y es por eso que hacemos este vídeo hoy. Y es que Microsoft,
que ha tenido obviamente acceso anticipado a este modelo, ya nos ha hecho el trabajo de
documentación con este paper de aquí. Un documento titulado El amanecer de los LMMs.
Ojo, LMM, no LLM. Sé que suena a trabalenguas, pero tenemos que entender que Large Language Model,
LLM, responde a los modelos que hemos visto hasta la fecha, con GPT-3, con GPT-4, con PALM-2,
todos estos modelos del lenguaje. Aquí estamos hablando ahora de LMM, Large Multimodal Models.
Donde tal y como vimos en este vídeo sobre el futuro de la inteligencia artificial, no estamos tan lejos de un
futuro donde, bueno, pues estos enormes cerebros digitales sean capaces de procesar, analizar y
razonar con múltiples tipos de datos. Con imágenes, texto, audio, 3D, todo al mismo tiempo. Y en este
trabajo Microsoft se enfoca en esto, en el estudio de estos enormes modelos multimodales. En el caso de
este paper, pues en el GPT-4V, que es un modelo multimodal de texto e imágenes. Y nos trae un montón de
ejemplos súper interesantes de múltiples funcionalidades que podemos extraer de esta
nueva inteligencia artificial. Repito, muchos ejemplos. Un artículo de 166 páginas que me he
leído de arriba abajo, que he analizado, que he resumido y que hoy os traigo en este análisis
sobre GPT-4 Vision Model. Al tratarse de un modelo multimodal, ahora puedes trabajar con GPT-4,
pues tanto por la vertiente del texto como por la de las imágenes. Ahora, texto e imágenes se juntan
en una misma inteligencia artificial. Pues yo, por ejemplo, aquí le he subido dos imágenes y le he
preguntado qué relación guardan entre ellas. Y aquí GPT-4, pues está haciendo esta labor de analizar
cada una de las imágenes independientemente y luego entender el texto para resolver la tarea que le
estoy planteando. Las dos imágenes muestran a la misma persona, bla, bla, bla. Tal y como demuestra
Microsoft, pues esto lo podríamos utilizar para pasarle varias imágenes de tickets de comida que
tú hayas registrado y preguntarle, oye, ¿cuánto pagué de impuestos? ¿Dónde está la información? Y que
GPT-4 te pueda responder diciendo, mira, en el primer recibo pagaste 3,72 en impuestos y la
información se encuentra en la parte inferior del recibo. En el segundo recibo 42,23, en el tercero
4,58 y en total pagaste 50,53 en impuestos en los tres recibos. Que te pueda coger estas tres
imágenes, que las estructure, que las analice y que te pueda agregar toda la información razonándola
con el lenguaje natural, es una auténtica pasada. Otro uso interesante de poder pasarle múltiples
imágenes es el poder plantearle tareas más complejas donde el contexto esté repartido en
estas imágenes, ¿no? Pues vemos cuánto debo pagar por la cerveza en la mesa según el precio en el menú.
Entonces le pasamos una imagen de nuestra mesa, le pasamos una imagen de nuestro menú y aquí GPT-4 nos
responde, mira, según el menú el precio de una cerveza magna es de 6 dólares, dado que hay dos
cervezas en la mesa, pues el coste total de la cerveza sería 12 dólares. De nuevo la información
fluyendo a partir de las dos imágenes que le hemos dado. Realmente GPT-4 entiende mucha de la
información visual que le estamos presentando y esto es algo interesante que en el paper se demuestra
y es que podemos hacer anotaciones dentro de nuestras imágenes que sirvan como guía, como orientación
para que GPT-4 sepa exactamente dónde está la información que le estamos pidiendo. Esto es algo que
OpenAI demostró en este ejemplo de aquí, donde tras tomar una foto con la cámara, luego podía
hacer un garabato para marcar exactamente en qué región de la imagen se tenía que focalizar la
inteligencia artificial. Aquí GPT-4 con su capacidad de visión pues puede entender este tipo de información,
este tipo de marcas, como parte del prompt que le puede guiar hacia la resolución de la tarea que
le estamos planteando. Yo puedo coger la imagen de antes y hacer pues una marca como esta con cualquier
software de edición que tengamos y poner una flechita y una interrogación, subirla a ChatGPT y
preguntarle pues qué prenda de ropa estoy señalando y que ChatGPT nos entienda que estamos señalando a
una camisa. Una funcionalidad que tenéis de forma nativa disponible por ahora en la aplicación móvil,
en la parte web pues tienes que subir tú las imágenes carabateadas directamente desde tu ordenador.
Pero bastante útil porque tú puedes coger una captura de una tabla de datos, hacer una selección de una
columna rápidamente con el Paint y preguntarle a ChatGPT, oye describe la imagen. Y que GPT-4 te
responda pues que la región resaltada en rojo en la imagen es una celda de tabla que contiene un
valor numérico de 122,3. Ésta se encuentra en la sección TSet de la tabla bajo la columna Out y la
fila Git2. Entonces, ¿qué podéis hacer con GPT-4v? Pues un montón de cosas. Tenéis que pensar que tenéis
en vuestras manos a los ojos más potentes jamás vistos en la historia de la visión por computador
en el campo de la inteligencia artificial. Pues por ejemplo, estáis viajando y de repente os ponen
delante de vosotros un plato de comida que se ve espectacular pero que no tenéis ni idea de lo que
es. Cogéis el móvil, sacáis a ChatGPT, le sacáis una foto y él te describe que el plato en la imagen
es un tazón de Mapo Tofu, un popular plato chino de la provincia de Sichuan. Consiste en cubos de tofu
suave en una salsa rica y picante hecha con pimientos rojos, pasta de frijoles, grano de
pimienta, bla, bla. Oye, describe el nombre del plato. Pues este plato se llama costilla corta
estofada con chimichurri. Presenta una jugosa costilla corta cocida a fuego lento hasta que
quede tierna, cubierta con una sabrosa salsa chimichurri. Y además te añade que se sirve junto
a verduras asadas para una comida completa. Claro, lo interesante de esto es que demuestra que ChatGPT
puede tener una comprensión perfecta de lo que es el contenido de la imagen. Pero luego tenemos que
recordar que esto está conectado a ChatGPT, a la parte lingüística cuyas funcionalidades
pues también son infinitas. Tú podrías sacar la foto de la comida y preguntarle pues que te haga
un detallado de todos los ingredientes necesarios para cocinarla. Luego podrías sacar una foto de
tu nevera y decirle, oye, ¿qué ingredientes me falta? Lístame lo que necesito comprar. Luego ir al
supermercado y sacar una foto a la estantería de todas las salsas y que él te diga, mira,
si la salsa que estás buscando está en este punto. Y con esto os tenéis que dar cuenta de que lo que
tenemos entre manos es muy potente. Otra cosa que hemos visto antes, que parece que este módulo
de visión puede hacer sin problemas, es detectar el texto en imágenes. Lo que antes requería de
utilizar potentes algoritmos de OCR, ahora parece que GPT-4 lo puede hacer in the wild. Entendido
este in the wild en lo salvaje como que puedes sacar una foto sin preocuparte que esté muy bien
centrada o que el texto tenga una fuente legible, sino que al igual que nuestros ojos pueden entender
que en esta imagen de aquí, pues hay un cartel con cierta información, pues GPT-4 te puede decir,
sí, hay tres textos en la imagen, pruebas de COVID-19, por favor tenga su identificación y
tarjeta de seguro listas y luego toda la información. O aquí si tenemos un cartel que está escrito con
TISA, pues con diferentes fuentes, tampoco GPT-4 tiene problema a la hora de extraer que, bueno,
tenemos la palabra vacaciones, playa, sonrisa, verano, sandía, chanclas, limonada. Esto es tan
impresionante que en mi viaje a México de hace un par de semanas tuve la oportunidad de probar
justamente esto en un cartel que estaba escrito en maya, una lengua que obviamente estará
subrepresentada respecto a otros idiomas más mayoritarios como el inglés o el español dentro
del dataset de entrenamiento y que sin embargo GPT-4 no tuvo ningún problema en traducir y hacerme
una explicación perfecta que los guías que me acompañaban en la visita, pues lo vieron y me
dijeron, madre mía, es que está muy bien. Pero la comprensión de elementos en una imagen, pues no se
queda solamente en texto, sino que también el modelo es capaz de entender símbolos reconocibles como,
pues que en esta imagen hay dos vasos del Starbucks Coffee o que aquí hay unas zapatillas representadas
con el logo de Nike o incluso que en esta fotografía pues está el logo de Windows Copilot. Elementos,
símbolos que nosotros sí somos capaces de percibir y de entender a qué marca pertenecen y que en este
caso el modelo con su cultura general de todo lo que ha visto a través de internet pues también lo
puede entender. Y de la misma forma como es obvio pues GPT-4V tiene cultura general como para entender
que en estas imágenes de aquí lo que se está mostrando es un collage de ocho personalidades
destacadas de diferentes campos. Nos dice, en la fila superior de izquierda a derecha se encuentra
el cantante Justin Bieber, el futbolista Lionel Messi, el futbolista Cristiano Ronaldo, el empresario
Elon Musk, Kylie Jenner, Taylor Swift, Robert Downey Jr., Scarlett Johansson, todas estas celebridades
pues están contenidas en la cultura general de GPT-4. Y lo mismo sucedería con lugares reconocibles,
pues por ejemplo le puedes pasar una imagen de Times Square y que te haga una descripción súper
súper detallada donde te diga que en la imagen se ve la estatua de George M. Cohen en Times Square
en Nueva York, que es una estatua de bronce que se encuentra sobre un pedestal de granito, bla bla bla.
Y esto a mí me mola muchísimo porque me imagino en un futuro próximo pues el poder estar viajando
por algún lugar, sacar una foto con mi móvil o con alguna gafa de realidad aumentada y poder
preguntarle a mi inteligencia artificial, oye explícame algo curioso de dónde estoy y de lo que estoy viendo.
Estas son capacidades que GPT-4V tiene, pero que como veremos más adelante puede que ChatGPT no.
Y esto es importante. También entre las capacidades de GPT-4 que el paper de Microsoft nos enseña,
pues hay algunas cosillas interesantes como que el modelo no solo es capaz de percibir
qué hay en una imagen, sino que también te puede decir qué elementos no hay.
Tú le puedes pasar esta imagen y preguntarle, ¿puede ver las plumas azules brillantes en el ala del pájaro?
Y que él te responda, no, no puedo ver plumas azules brillantes en el ala del pájaro.
Parece tener plumas marrones y blancas.
Parece ser también que el modelo es capaz de realizar tareas como contar,
aunque luego hablaremos un poquito sobre esto, y también hacer localización de objetos.
No solamente decirte si en esta imagen está presente esto,
sino que también puede encontrar la posición en la que está ubicada dicho elemento.
Un ejemplo muy chulo de esto es el que vemos aquí,
donde se le pide al modelo que siga las siguientes instrucciones.
Primero, que le diga el tamaño de la imagen pasada como input,
luego localizar a cada persona usando una bounding box,
reconocer quién es cada una de las personas con la cultura general del modelo,
y finalmente generar una descripción detallada de cada bounding box.
Entonces vemos que aquí el modelo genera una respuesta,
pues para cada uno de los pasos que le hemos pedido,
donde la única equivocación que tiene es respecto a la inferencia
de cuál es la resolución de la imagen, de cuánto es el ancho y el alto.
Algo que ciertamente un humano también, si le tuvieras que pedir que te haga a ojo
cuánto mide en píxeles cada una de las dimensiones de la imagen,
pues yo creo que también se equivocaría.
Vemos que hace eso, luego genera la información de la bounding box,
según lo que está percibiendo, describe a cada una de las personas, pues quiénes son,
y con esto pues obtenemos una imagen final que si la visualizamos,
vemos que más o menos la detección de las personas, las descripciones, son correctas.
Y esto para mí cuenta algo muy importante,
y es que creo que estamos viviendo un punto similar a lo que se vivió en 2021
con la salida de GPT-3, cuando vimos que de repente un único modelo
pues era capaz de hacer múltiples tareas,
que antes pues teníamos modelos específicos para cada una de ellas.
Desde mi punto de vista, lo que viene a demostrar GPT-4V
es que ahora en el campo de la visión por computador
se está viviendo un fenómeno igual,
un modelo que te hace OCR, que te hace counting,
que te hace localización de objetos, que te reconoce la escena,
que te la describe con este nivel de precisión,
es algo que nunca se había visto en el mundo de la visión por computador.
Y tendrá consecuencias fascinantes.
Aún así el modelo no es perfecto, todavía tiene algunas limitaciones,
pues aquí por ejemplo en esta tarea de intentar estructurar
la información que aparece en este carnet de conducir,
podemos ver cómo el modelo en algunos casos alucina detalles que no hay,
pues 1977 lo entiende como 2011,
o en otros casos pues no entiende cómo la información está distribuida
y etiqueta el atributo donor con la etiqueta que tiene al lado que es veteran.
O también se ha comprobado que el modelo tiene imprecisiones
con ciertas tareas que implican buscar diferencias entre múltiples imágenes.
Pues en este caso de aquí se le pregunta
cuáles son las tres diferencias de esta imagen
y el modelo alucina detalles como que en el suelo hay un montón de hojas de bambú
o que una de las diferencias es que en una imagen solo hay un tallo de bambú
y en la otra hay varios, lo cual no es cierto.
Y también habrá situaciones donde vosotros cuando empecéis a probar la herramienta
os vais a encontrar con tareas que la inteligencia artificial no va a ser capaz de resolver
o que va a resolver mal.
Pero aquí viene lo interesante y es que tal cual explican en este artículo
y como sucedía con inteligencias artificiales anteriores,
con GPT-3 y con ChatGPT,
pues hay formas, hay trucos de poder exprimir al máximo el rendimiento
que podemos sacar de estos modelos.
¿Recordáis que antes os he comentado que el poder usar varias imágenes
nos iba a ayudar más adelante a la hora de sacarle más rendimiento al modelo?
Pues fijaos en este ejemplo.
Aquí se le pregunta a GPT-4V cuál es la lectura del medidor de velocidad.
Y aquí GPT-4V responde de forma incorrecta
que la velocidad es de 22 millas por hora,
lo cual es incorrecto porque tal cual se ve aquí,
la aguja apunta a 10.
Entonces aquí los investigadores de Microsoft
que han hecho el curso de Prompt Engineer,
pues ya saben el truquito de usar la coletilla Think Step by Step,
una forma de inducir al modelo a que su respuesta sea más detallada
y que incluya más información,
que en este proceso autorrecurrente,
donde se basa para seguir prediciendo en lo que ha predicho anteriormente,
pues le puede ayudar para llegar a una respuesta más correcta,
que en este caso es aproximadamente 30 millas por hora,
lo cual de nuevo vuelve a estar mal.
La siguiente estrategia que ejecuta es la de describirle con instrucciones
cómo debería el modelo de resolver la tarea.
Se le pregunta al modelo,
oye, ¿cuál es la lectura del medidor de velocidad?
Y luego se le añade una descripción con texto
de cómo tendría que resolver la tarea.
Pues mira, para leer el medidor de velocidad
tienes que observar la aguja que está en el dial y bla, bla, bla.
Se le da paso por paso cómo tiene que resolverla.
Y aún así el modelo caprichoso,
él se inventa que la velocidad es aproximadamente de 40 millas por hora.
De nuevo, mal.
Entonces, ¿está perdida la batalla?
Pues no.
Tenemos una estrategia más
y en el paper nos demuestran
cómo utilizando esta capacidad
de poder subir varias imágenes en el modelo
podemos hacer lo que se conoce como few shot learning.
El darle al modelo en el prompt
varios ejemplos de otras imágenes similares
de cómo se ha resuelto esta tarea.
Pues podéis ver aquí
cómo le pasamos una imagen del medidor de velocidad
y se le indica que el puntero amarillo
pues está en este punto.
Aquí le pasamos otra imagen
y le decimos que está a 30 millas por hora
y luego le pasamos la imagen
que antes era incapaz de resolver
y fijaos cómo en este caso
ahora sí GPT-4V consigue hacerlo a la perfección.
Otro ejemplo,
contando elementos en una imagen
que hemos visto antes
que es algo que a GPT-4 se le puede atragantar.
Oye, ¿cuántas manzanas hay en esta imagen?
Hay 12.
Error.
Vale, vamos a pensar paso a paso
cuántas manzanas hay en esta imagen
y responde, bueno, veo las imágenes,
identifico, empiezo a contarlas una por una,
no me salto ninguna manzana,
hay 12.
No, mal.
Vamos a contar manzanas GPT-4,
pero vamos a contarlas fila por fila.
Vale, humano, voy.
Primera fila, 4 manzanas, bien.
Segunda fila, 3 manzanas, mal.
Tercera fila, 4 manzanas, mal.
El número total, 11 manzanas,
está bien, pero has contado mal.
Por favor, céntrate GPT-4.
Cuenta las manzanas en la imagen.
Primero cuenta las filas,
luego cuenta las manzanas en cada fila
y luego súmalo todo.
Venga, vale, sí.
5 manzanas, 4, 6, mal.
Y aquí llega la solución.
Este es otro prompt que tenemos que apuntar
y es el momento en el que le decimos al modelo,
oye, GPT-4, es que eres un experto
contando cosas en una imagen.
Y como eres un experto,
vamos a contar el número de manzanas
que hay en la imagen de abajo.
Y aquí GPT-4 te dice,
ah, vale, que soy un experto en contar.
Perfecto.
La primera fila, 4.
En la segunda, 4.
En la tercera, 3.
En total, 11 manzanas.
Hay truquitos en los prompts
que por ahora hay que ir aprendiendo.
Aplicado a diferentes tareas profesionales,
pues podemos ver cómo GPT-4
consigue resolver problemas de índole científica
o le puedes pasar este diagrama
y preguntarle cuál de los organismos
es el productor en esta red alimentaria
y que GPT-4 entienda cuál es la relación
de cada flecha y con qué conecta
para responderte que los productores
en esta red alimentaria
pues son las bayas y las flores
que tenemos aquí abajo.
Podríamos imaginarnos a GPT-4
aplicado a diferentes verticales profesionales,
pues por ejemplo una aseguradora
que quisiera ser un parte desperfecto
de un vehículo que ha sufrido un accidente
y quisiéramos estructurar
los daños que se ven en una imagen.
Pues tú le puedes plantear,
oye, para esta imagen,
imagina que eres un experto
en evaluar los daños
y quiero que me pongas todos los detalles
siguiendo la siguiente estructura
en un JSON
y que el modelo te pueda hacer
una descripción como la que vemos
aquí abajo,
donde te extrae la marca,
el modelo, la placa
o te hace una descripción del daño
como que el parachoque delantero,
capo y parabrisas están dañados.
O por ejemplo en programación,
quiero que veáis este ejemplo de aquí
que es bastante impresionante,
fijaos.
Aquí se ha utilizado a GPT-4v
para pasarle un diagrama de flujo
de cómo tiene que ser
la interacción de un usuario
dentro de un formulario
y se le ha pedido
que implemente todo este código.
Además, el diagrama
presenta ciertas complejidades,
pues por ejemplo unas flechas
que revierten la decisión
de que primero aparezca
la página de email
y luego la de nombre
y podemos ver como GPT-4
esto lo entiende a la perfección,
colocando en el formulario
primero la captura del nombre
y fijaos, muy interesante,
aquí hace referencia
al nombre del usuario
y esto es porque el propio diseñador
ha escrito en la pizarra,
oye, deberá de mencionarse
cuál es el nombre del usuario
que ha indicado en el primer paso.
Luego llegamos aquí a este punto
donde hay una bifurcación del flujo
donde si eres mayor de edad
pues tienes que ir a una página
y si eres menor de edad
pues tienes que ir a esta otra
donde además el usuario
para hacer más complejo el proceso
pues ha tachado su primera decisión
y ha colocado que no,
que tiene que ir a la página para niños
y vemos de nuevo como GPT-4
pues esto lo entiende
y efectivamente implementa esta página.
Todo este código,
todo este flujo,
todo este formulario implementado
a partir de una única imagen
pasada a GPT-4-V.
Y podemos imaginarnos
cómo mucha de esta tecnología
en un futuro cercano
pues acabará impactando
en muchos aspectos de nuestra sociedad
como por ejemplo la medicina.
En este artículo han demostrado
cómo el conocimiento general de medicina
que tiene el modelo chat GPT
es suficiente para poder hacer
una descripción detallada
sobre lo que está presente
en ciertas imágenes médicas.
Se le pregunta a GPT-4,
mira la tomografía computarizada del pulmón
en la imagen de abajo
y dime que está mal.
Y GPT-4 responde,
parece haber múltiples áreas
de consolidación y opacidades
en vidrio esmerilado
en ambos pulmones
lo que podría indicar
una infección pulmonar,
inflamación y bla bla bla.
Esto es impresionante
y es muy prometedor
pero también hay que cogerlo
con mucho cuidado
y con mucha responsabilidad.
En el propio artículo
Microsoft demuestra
cómo para otras imágenes médicas
pues GPT-4-V
se equivoca
y hace diagnósticos errados
lo cual en este contexto concreto
pues puede tener un perjuicio
muy grande.
Tenemos que entender
que esta es una tecnología
todavía prematura
y cada uno de vosotros
en los casos de uso
donde queráis aplicarlo
pues tendréis que hacer
una evaluación
de qué tan certero es el modelo
y qué tan preciso es
y si realmente cumple
con los requisitos de seguridad
que en cada caso
pues se tenga que aplicar.
Aún así
hay algo que tenéis que saber
y es algo que os encontraréis
cuando empecéis a probar la herramienta
y que creo que alguno de vosotros
no os va a gustar.
Y es que aquí
hemos estado hablando
de GPT-4-V
y de ChatGPT
pero son herramientas diferentes.
Es decir
GPT-4-V
no deja de ser
el gran cerebro artificial
que ha aprendido
a percibir imágenes
a poder hablar
el modelo que hemos ido comentando
a lo largo de este vídeo
pues cuáles son sus capacidades.
Pero luego
cuando esto llega a ChatGPT
pues OpenAI
hace este proceso
de introducir salvaguardas
de introducir límites
en lo que el modelo puede hacer
para evitar comportamientos
que sean perjudiciales
cuando esta herramienta
se extiende
y se abre
a todo el público.
Esto es similar
a lo que hemos visto
con los modelos de lenguaje
en el pasado.
GPT-4
si quisiera
te podría explicar
cómo se construye una bomba
pero cuando le preguntas
a ChatGPT
él amablemente te responde
que no te lo puede decir
por motivos de seguridad.
Pues esto es algo
que vais a encontrar
a menudo
utilizando a ChatGPT.
Yo le puedo subir una imagen
y preguntarle
quién es la persona
de esta imagen
y la respuesta normal
de ChatGPT
será esta
Sorry, I cannot help with that
donde nos dice
que no nos pueden ayudar
con esto
que el modelo
no puede hacer esa tarea
que le hemos planteado
que en este caso
es preguntarle
quién es la persona
que hay aquí.
Y claro
esto es un problema
porque aquí estamos
limitando las capacidades
de lo que la inteligencia artificial
verdaderamente
puede hacer
pero creo que es importante
que de verdad
entendamos
que esto
tiene sentido
que lo hagan
es decir
cosas que ChatGPT
no te va a permitir hacer
es poder pasarle una imagen
y preguntarle
dónde está localizado
ese lugar
pues porque eso
presenta problemas
de privacidad
lo mismo pasará
cuando le preguntes
por la identidad
de una persona
que aparece en una imagen
o seguramente
si le pasas una imagen médica
pues te vaya a soltar
la coletilla
de que no es adecuado
que un modelo de lenguaje
te haga un diagnóstico médico
y bla bla bla
sabemos que OpenAI
tiene un historial
de ser muy restrictivo
respecto a este tipo
de malos usos
que ellos consideran
malos usos
y sabemos que poco a poco
van afinando la maquinaria
para que hoy
los límites que tiene
que a lo mejor
son bastante agresivos
pues en un futuro
se vayan reduciendo
se vayan suavizando
y nos permitan
hacer un uso
más normal
de la herramienta
aún así
este es un desafío
muy grande
para OpenAI
y es que
con las nuevas capacidades
de su inteligencia artificial
también llegan
nuevas formas
de ataque
como esta de aquí
donde en una imagen
de una nota
se le puede instruir
al modelo
que no le diga
al usuario final
cuál es el contenido
realmente de la imagen
y solamente decirle
que es la imagen
de un pingüino
algo que Xpt4
obedece a rajatabla
una forma muy rudimentaria
pero efectiva
de ataque adversario
aún así
esto no deja de ser
una protección
que queda invalidada
cuando la comunidad
OpenSource
avanza
y es que
en las últimas semanas
hemos visto
como la comunidad
OpenSource
ha dado un paso firme
en la publicación
de su modelo
Java
un modelo
de características
similares
a GPT4V
al ser un modelo
multimodal
que puede analizar
imágenes
y darte descripciones
de texto
y resolver tareas
con ellas
pero que en este caso
al ser OpenSource
pues no tiene
ningún tipo de filtro
ni control
y seguramente
será cuestión de semanas
que veamos
a GPT4V
accesible
a través de la API
para que también
vosotros
podáis construir
vuestros proyectos
con lo último
de lo último
de la inteligencia artificial
si te ha gustado el vídeo
si te ha gustado
este análisis
compártelo
compártelo
en redes sociales
compártelo
con tus compañeros
y cuéntame abajo
en comentarios
para qué vas a usar
a esta tecnología
aunque proyectos
lo quieres
integrar
estaré echándole
un vistazo
sabéis que podéis
apoyar a este canal
a través de Patreon
tenéis el enlace
en la caja de descripción
y os voy a pedir un favor
y es que
si sois de esas personas
que disfrutáis
de este canal
sin estar suscrito
pues suscríbete
dale al botón
que quiero llegar ya
al hito
a la meta
del millón
de seguidores
estamos en
ochocientos y pico mil
y sé que hay muchos
que como el algoritmo
de YouTube
pues funciona bien
y recomienda mi contenido
sin estar suscrito
si es que te interesa
pues que no estéis suscritos
entonces
esta es
nuestra misión
además
así no te perderás
contenidos
como el que os traeré
esta semana
donde vamos a estar haciendo
justamente un directo
para probar
todo esto
que hemos visto hoy
para ver si los casos de usos
que Microsoft
nos presenta
de GPT-4V
realmente son aplicables
a ChatGPT
para probar
donde funciona bien
y donde no funciona
tan bien
vamos a estar en directo
así que estad atento
a todo lo que publicamos
echadle un vistazo
a estos contenidos
que tenemos por aquí
súper interesantes
el vídeo sobre el futuro
del 3D
con Gaussian Splatting
que os ha gustado mucho
y chicos, chicas
nos vemos con más
inteligencia artificial
en el próximo vídeo
adiós
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!