This graph shows how many times the word ______ has been mentioned throughout the history of the program.
No han pasado ni 24 horas desde la impresionante presentación del sistema de inteligencia artificial Google Gemini.
El modelo multimodal de Google que se presenta como una mejora frente a la inteligencia artificial más potente que teníamos hasta la fecha, GPT-4.
Y la presentación la pudimos cubrir ayer en un análisis de dos horas donde estuvimos analizando pues toda la información que Google nos presentaba
y donde quizás una de las demos que más llamó la atención y que mejor demostraban las capacidades de lo que Gemini podía hacer
fue esta.
Una demo frente a la que yo, como tantos muchos, pues tengo que decir que me vi sorprendido ante un modelo que sí
estaba demostrando capacidades de análisis sobre vídeo que nunca habíamos visto en modelos anteriores.
Un modelo que podía hacer inferencias de objetos que se le presentaban, pues si el patito era de goma pues podía flotar
o donde podía analizar la secuencia de un vídeo donde se jugaba este juego de trileros y te podía acertar donde estaba la bola
o incluso detectarte cuando se había hecho un truco de magia al pasarse la moneda de una mano a la otra.
Algo verdaderamente impresionante porque hasta la fecha, como digo, pues los modelos de visión más avanzados
con los que contamos son los de GPT-4V.
Modelo de visión que sí, es espectacular pero que solo funciona sobre imágenes y no sobre vídeo,
tal y como Google parece que nos quiere presentar aquí.
Y es que ha pasado una cosa, junto a esta demostración y toda la información que ayer Google sacó,
también publicó un artículo que pasó más desapercibido al encontrarse dentro del portal de desarrolladores
donde daban una explicación de cómo habían construido esta demo que tanto estaba fascinando a la gente.
Y claro, pues me he puesto a echarle un vistazo para ver cómo lo han montado todo esto
y para sorpresa y decepción mía, pues lo que me he encontrado es una implementación que no se acerca
a lo que se pretende demostrar con el vídeo de presentación que nos enseñaron ayer.
Y de ahí que me vea con la responsabilidad de tener que improvisar un vídeo como este
para explicaros exactamente qué es lo que Google nos quiere vender y qué es lo que Gemini puede hacer.
Que no deja de ser impresionante, pero no es tan superior a modelos como GPT-4V en sus capacidades.
Quiero que lo entendáis muy bien, así que vamos a ver exactamente a qué me refiero.
Vamos a analizar de nuevo este vídeo.
Y al principio del vídeo nos están avisando con un mensaje de que sí,
que han hecho una selección de sus casos de usos favoritos donde Gemini demuestra sus mejores capacidades,
cosa que está bien, al final pues tienen que vender su modelo.
Pero mi problema lo encuentro con este párrafo de aquí, donde nos dicen que han estado capturando metrajes
para testear al modelo en un amplio rango de tareas, mostrándole una serie de imágenes,
y aquí está el punto clave, y preguntándole qué razones sobre lo que está viendo.
Tal cual yo entiendo este párrafo, para mí lo que están tomando es metraje del cual sacan los fotogramas,
la secuencia de imágenes, que se le da al modelo como input y que el modelo está razonando,
incluso en tiempo real, porque es lo que parece de esta demo que nos están presentando,
y que estas respuestas, pues esta interacción que vamos a vivir a lo largo del vídeo,
es un poco una interacción que podría suceder con este sistema Gemini.
Vale, aquí lo que estamos viendo es efectivamente esto,
una dinámica en la que la persona está dibujando, va ampliando la información de su dibujo,
le añade agua, le añade un ojo, y el modelo proactivamente va dando respuesta de lo que está viendo.
Veo líneas curvas, veo un animal, veo un pato, va improvisando su respuesta según el vídeo se va desarrollando.
Lo entendemos.
Y el problema lo encontramos cuando empezamos a profundizar en el artículo que ellos han compartido,
explicando cómo han hecho todo este prompting multimodal del sistema de la demo que estamos viendo ahora,
la misma demo que nos enseñan aquí.
Y el problema que encontramos es el siguiente.
Como estamos diciendo, para mí la demo que están presentando lo que parece demostrar es un flujo continuo de información
que se le va insertando al modelo sobre cuál el modelo va haciendo esta inferencia en tiempo real
y va generando esta respuesta.
Sin embargo, aquí lo que vemos cuando entramos en este artículo son ejemplos donde lo que se le está pasando al modelo
son imágenes ya seleccionadas, fotogramas concretos seleccionados, para que el modelo pueda hacer esta inferencia.
Y donde además, para cada una de las tareas está ocurriendo una serie de prompts,
que ahora vamos a ir analizando poco a poco, que van incluso guiando al modelo hacia la respuesta correcta.
Y es importante que entendamos la diferencia, porque no es lo mismo analizar un vídeo al completo, en su totalidad,
cogiendo todos los fotogramas del vídeo y dejando que el modelo pueda decidir cuáles son aquellos fotogramas
que de forma más relevante explican lo que en la dimensión temporal está ocurriendo,
que ya haya un proceso de preselección de estos fotogramas que expliquen cuál es esa historia.
¿Vale? No es exactamente lo mismo y de hecho el problema en el segundo caso se vuelve mucho más sencillo.
A mí, por la demo que vimos ayer, pues me daba la sensación que estábamos ante un modelo que sí podía ser lo primero,
que podía seleccionar, pues de todos los fotogramas que recibía, cuáles eran los más importantes,
o que a lo mejor, pues tenía una capa extra que detectaba acciones importantes dentro del vídeo
y extraía los fotogramas, pero que esto era un proceso que el modelo hacía de forma autónoma.
Pero sin embargo, si nos venimos al artículo, lo que nos encontramos es lo siguiente.
La forma en la que han diseñado esta demo, pues es haciendo este prompting multimodal,
donde tú puedes coger imágenes, imágenes estáticas y también texto y dárselo al modelo como input.
Entonces, en un momento dado, el modelo lo único que está analizando la inferencia que está ocurriendo
es con esta información de aquí.
Pues le das una imagen como esta y le preguntas, oye, ¿qué estás viendo?
Y aquí el modelo responde, veo la mano derecha de una persona, la mano está abierta con los dedos separados.
¿Vale? ¿Aquí qué estás viendo? Pues veo un puño.
¿Aquí qué estás viendo? Pues dos dedos extendidos.
¿Vale? Y ahora lo que sí puede hacer el modelo también es analizar la secuencia de fotogramas.
¿Vale? Pero de nuevo, fotogramas concretos que nosotros hemos señalado.
Fotogramas donde yo estoy con la mano extendida, con la mano en puño y con la mano en tijeras.
¿Pero qué hubiera pasado si en el vídeo yo a lo mejor estoy 10 segundos con la mano extendida,
estoy un segundo con la mano parada y luego cambio rápido a la siguiente?
¿Hubiera sabido el modelo seleccionar los fotogramas concretos?
¿Tendría que haberlo seleccionado yo como usuario para hacer esta inferencia?
Eso es lo que está fallando en esta demo.
Y esto es lo que está fallando en uno de los puntos, pero otro de los puntos críticos en esta demo que han presentado
es la interacción que tiene el usuario con la inteligencia artificial,
donde en muchos casos parece que Gemini toma la iniciativa a la hora de resolver la tarea de una forma
o a la hora de darte una respuesta concreta, cuando aquí por ejemplo vemos que hay mucho más ejercicio de prompt
a la hora de decirle, oye, ¿qué crees que estoy haciendo cuando pongo la mano abierta, puño y tijeras?
¡Pista! ¡Pista! ¡Es un juego!
Y Gemini responde, está jugando a piedra, papel o tijera.
Vale, no está mal, pero veamos cómo estaba presentado en el vídeo.
Que tú tengas la cámara activada y te pongas a jugar a piedra, papel o tijera
y que de forma reactiva el modelo en este ejercicio de
explícame qué es lo que está sucediendo, el modelo te dice
¡Ey! Sé lo que estás haciendo, estás jugando a piedra, papel o tijera.
Es impresionante.
Pero si lo que le estás dando son fotogramas de una mano abierta, un puño, unas tijeras
y le dices, ¿qué estoy haciendo? ¡Pista! ¡Es un juego!
Pues me sabe un poco mal que en esta demo que nos están presentando
directamente la acción empieza una vez ha sucedido ese ejercicio de prompting.
Y estas limitaciones son cosas que se hacen bastante evidentes con ejemplos como este de aquí.
Vale, yo me acuerdo ayer presentando este vídeo, viéndolo en directo con vosotros, decir
¡Ey! Esto es un ejemplo de algo que GPT-4 no podría ser.
Sí, GPT-4V tiene su capacidad de ver imágenes y de poder analizarlas,
pero en un vídeo donde tienes que estar siguiendo la posición de la bola en cada fotograma,
pues el modelo no debería ser capaz de hacerlo porque no tiene esta capacidad de análisis en el eje temporal.
Y parece ser que Géminis sí podía hacerlo. ¡Wow! ¡Es impresionante!
Bueno, para empezar no hay una improvisación donde el usuario se ponga en una mesa,
coloca tres copas y el modelo diga
¡Ah! Ya sé lo que vas a hacer. ¿Quieres que juguemos al juego de dónde está la pelotita?
Si analizamos un poco lo que nos están presentando aquí, pues lo que vemos es que
primero, para poder hacer ese ejercicio, han tenido que instruir a Géminis con varios ejemplos de lo que va a ser,
de cómo va a ser la dinámica que se le va a evaluar.
En este caso se le dice, instrucciones, hay tres copas en la posición 1 a la izquierda,
posición 2 en medio y posición 3 derecha.
Se lo estamos explicando.
Luego le decimos, mira, la posición inicial es que la bola está en la posición 3, pues está en la derecha.
Y el estado actual es que está vacío, vacío y la bola.
¿Vale, Géminis? ¿Lo estás entendiendo? Bien.
Y luego me estás pasando una secuencia de imágenes donde sí, pues puedo ver que
si la mano derecha está sobre la copa 3 y luego está en el siguiente fotograma, en la copa 2,
pues evidentemente estas dos copas se tienen que haber intercambiado.
Me pregunto, ¿qué hubiera pasado si yo hubiera empezado con las manos colocadas correctamente
y luego en un fotograma que no está capturado las hubiera cambiado y hubiera hecho la posición contraria, ¿no?
Ahí ya hubiéramos liado al modelo porque no está recibiendo un flujo continuo de fotogramas.
Pero bueno, esto sigue siendo un ejemplo, ¿no?
Entonces le pasamos estas imágenes y con esto le estamos explicando que
después de hacer este intercambio la bola está en medio, ¿vale?
O sea, le estamos explicando que cuando esto ocurre es que ha habido un intercambio de copas.
Y luego lo mismo, cogemos de nuevo, le pasamos otra secuencia de fotogramas
y le volvemos a decir que esto es un intercambio entre la 1 y la 2
y que la bola ahora pasa a estar en el lugar de la izquierda.
Todo esto está dado al modelo como input antes del ejercicio que ellos nos han demostrado en la demo.
Todo esto es parte de lo que se conoce como Fuse Shot Learning,
donde le estamos dando algunos ejemplos al modelo para que pueda entender
cuál es la dinámica que queremos hacer.
Pero no es que Gemini esté viendo la escena y esté diciendo
¡Ah! ¡Juguemos a las copas!
Que ya sé cómo va esto, si pones la bola aquí y la cambias tres veces,
ahora estará por allá.
No, no, no, no, no, se lo hemos tenido que explicar.
Y luego sí, pues ahora sí nos demuestran que después de haber hecho estas instrucciones
y al modelo le decimos
¡Oye, mira, cambiamos esta copa de aquí por esta de aquí!
Pues sabe generalizar que esta secuencia de fotogramas
implica que la bola ha cambiado de la 1 a la 3.
Vale.
¿Es impresionante?
Bueno, es impresionante hace cuatro meses.
Si no hubiéramos visto ya, pues modelos capaces de poder hacer esto,
esto, el analizar imágenes y analizar texto.
Esto ya era posible.
Otro ejemplo, el truco de la moneda.
Este es un truco que ayer de nuevo, viéndolo, pues a mí me impresionó
porque, pues a mí no llegué a entender
que lo que había hecho era el truco de magia
de deslizar la moneda por la mesa rápidamente al golpearla
y realmente me impresiona, pues ver que un modelo
sí es capaz de entender de nuevo el flujo de fotogramas
para comprender que lo que ha ocurrido
es que si la moneda no está en la mano derecha
es que la ha golpeado y la ha movido a la izquierda.
Movemos el telón, vemos qué hay por detrás
y nos encontramos lo siguiente.
De nuevo se le pasa a Gemini un fotograma,
un fotograma con la palma abierta, con la moneda en la mano
y se le pregunta lo siguiente.
Explícame qué estoy haciendo.
En este caso Gemini responde,
estás sosteniendo la moneda en tu mano derecha.
Y luego se le pasan estos dos fotogramas
que están perfectamente seleccionados
para entender qué ha ocurrido aquí.
Pero de nuevo, volvemos a lo de antes.
¿Qué hubiera pasado si este fotograma
en un sistema en tiempo real no se hubiera capturado?
¿O qué pasaría si se hubiera capturado un fotograma
donde las dos palmas están sobre la mesa en ambos casos?
¿Hubiera entendido Gemini qué ha ocurrido en este proceso?
Yo creo que no.
Pero porque la información relevante está preseleccionada
en los fotogramas que se han elegido para hacer esta tarea.
Este es el problema.
Y lo estamos enfocando mucho a un problema de
qué pasaría si Gemini estuviera desplegado
en un sistema de visión en tiempo real
porque la demo que ellos nos han presentado
hacía parecer que el sistema era esto.
Y no lo es.
Aquí se le pregunta dónde está la moneda
y responde que está en la mano derecha
que es donde debería de estar con mayor probabilidad.
Y luego cuando levanta dice
oh, la moneda se ha ido.
Entonces fijaos, de nuevo ejercicio de Prompting
para decirle
¿Puedes resumir qué puede haber pasado?
Es decir, le estamos guiando para
oye, puedes pensar paso a paso
puedes resumir qué ha pasado paso a paso
empezando desde la primera imagen
entonces aquí le estamos instando al modelo
a que vuelva a analizar la secuencia de lo que ha ocurrido
le estamos guiando hacia una respuesta.
Empezaste con una moneda en la mano derecha
luego el movimiento de tus manos
y la moneda se apreció
y luego has enseñado que la moneda se ha ido.
Y luego finalmente Gemini pues sí
deduce que la moneda ha sido palmeada
que ha sido movida a la mano izquierda.
Y el problema aquí no es que Gemini sea un mal modelo
el problema aquí es que
han intentado venderlo como algo muy superior
a la competencia GPT-4
cuando podemos hablar que es un modelo
que se compara, que se iguala
y es algo impresionante.
Oye, Google, has conseguido entrenar a un modelo
ligeramente superior a GPT-4
felicidades
pero no hace falta que montes una demo
demostrando capacidades que el modelo no tiene
más aún cuando el modelo Gemini Ultra
la versión más avanzada
todavía no está disponible para utilizar solamente
vosotros, si tenéis acceso a Google Bart
pues habréis probado Gemini Pro
que es la versión intermedia
pero ninguna de estas capacidades
que nos están demostrando aquí
son testeables
como sucede por ejemplo
con modelos como GPT-4.
Pero es lo que digo
al final
estos son cosas que podemos hacer
ya actualmente con modelos
como el de visión de GPT-4.
Vamos a coger cada una de estas imágenes
y vamos a coger los mismos prompts
y vamos a ver si el modelo
pues llega a inferir lo mismo
que ha inferido Gemini.
Le pasamos la foto
y le decimos
explícame
qué está haciendo
y dice
en la imagen se muestran dos manos abiertas
con las palmas hacia arriba
en la mano derecha hay una moneda
este gesto puede estar asociado
con un truco de magia
una demostración
o un ejercicio que involucre la moneda.
Vamos a seguir
cogemos la siguiente imagen
cogemos la siguiente imagen
y le preguntamos
dónde está la moneda
y en este caso incluso
ya ChatGPT demuestra
cierta perspicacia
al entender que posiblemente
si es un truco de magia
pues la moneda aquí
se habrá deslizado
fuera de la mesa
o estará oculta
en alguna de las otras manos
es decir
ya nos está explicando
que lo que posiblemente
está ocurriendo aquí
es un truco de magia
vamos a pasar
la siguiente imagen
y ya con esta última imagen
pues concluye que
continúa la secuencia
del truco de magia
la moneda desaparecida
y podemos ver que
efectivamente nos dice
que la moneda
podría estar escondida
en la mano
que parece estar en movimiento
o podría haber sido palmada
llega a la misma conclusión
a la que llega Gemini
pero en este caso
sin necesidad de incluso
hacerle un
intenta analizar
step by step
cómo ha sido
el proceso
de que desapareciera la moneda
estamos
en igualdad de condiciones
entonces la sensación
que se me queda con esto
es un poco
agridulce
porque al final
nos encontramos
con muchos ejemplos
que son muy chulos
pero que al final
están perfectamente diseñados
y que están
orquestados
para que parezcan
bueno
una ocurrencia
del propio modelo Gemini
cuando en realidad
pues hay un diseño
pensado muy por detrás
tenemos el ejemplo
del juego también
vale
no es lo mismo
lo que nos presentan aquí
que es
oye
según lo que estás viendo
intenta
inventarte un juego
que además
haga uso de emojis
y que el modelo
pues parece que
genera el código
y empieza a jugar contigo
eso está
a este nivel
y luego entramos
al artículo
y estamos aquí
donde se le han dado
todas las instrucciones
de
vamos a jugar a un juego
piensa en un país
dame una pista
la pista tiene que ser específica
solo hay una respuesta correcta
le damos ejemplos
de oye
si el país es este
y esta es la respuesta
y si yo señalo aquí
es incorrecto
le damos toda la dinámica
de cómo se va
a desarrollar el juego
y luego claro
si el modelo
pues podrá jugar perfectamente
pero porque le hemos tenido
que explicar todo
no es una
hey
se te ocurre algún juego
que podamos jugar
y que te puedas programar
en segundos
no
aquí la creatividad
todavía viene expresada
en todo este ejercicio
de prompting
sinceramente
quiero pensar
que la demo
es correcta
y que aquí ha habido
un fallo
al sacar este artículo
que nos hace pensar
que a lo mejor
las capacidades
no son las que son
no lo sé
porque me parece
bastante
descarado
la diferencia
de las capacidades
que se pretenden
demostrar
en ese vídeo
frente a lo que realmente
luego
estamos viendo
que es por detrás
esto es un sistema
tipo GPT-4
punto
y jugar con el marketing
jugar con la ambigüedad
creo que les hace
un muy flaco
favor
aquí hay otro ejemplo
también
que ayer en directo
pues de nuevo
esta ambigüedad
de no saber
qué está pasando
porque tampoco
se explica
100%
cómo funciona
el sistema
pues teníamos
el ejemplo
donde se dibujaba
una guitarra
y empezaba a sonar
un audio
de una guitarra
hay dos posibilidades
o el audio
está predefinido
y lo que estamos viendo
es un buscador
que fácilmente
te puedes hacer
en una hora
con GPT-4
un sistema
que detecta
en una imagen
hay una guitarra
vamos a buscar
en una base de datos
el sonido de una guitarra
o si me estás hablando
de un sistema multimodal
anything to anything
capaz de generar
a lo mejor audio
pues a lo mejor
está generando la pista
de audio
y es espectacular
pues no
es un ejemplo
de uso de herramientas
donde solamente
se está buscando
el audio de la guitarra
está guay
está guay
si no niego
que no esté guay
si está muy guay
pero es esto
no esto
Google
bájale
así que con esto estamos
me he visto un poco
en la responsabilidad
de hacer este vídeo
y me da pena
porque creo que la tecnología
es impresionante
porque GPT-4
Gemini
todos estos sistemas
son tecnologías
impresionantes
y que esto funcione
y que supere
aunque sea un poquito
a GPT-4
ya es un paso enorme
para Google
y va a ser una base
perfecta para que sigan
trabajando y mejorando
implementando cosas
mucho más potentes
como las que nos han mostrado
en este vídeo
pero creo que lo han hecho mal
creo que la demo
que nos enseñaron ayer
no cumple con las expectativas
y está más lanzado
desde el punto de vista
del marketing
que desde el punto de vista
técnico
y bueno
pues tenía un poco
esta responsabilidad
de contaroslo en el vídeo
porque después del directo
de ayer
flipándolo todos en colores
y haciendo viral
en un vídeo
que está teniendo una respuesta
súper súper potente
pues creo que también
hacer un contenido
que sirva de contrapeso
frente a estas expectativas
es algo de responsabilidad
para el contenido
que hago aquí en el canal
me da pena
porque creo que empaña
un poco la salida de Gemini
pero bueno
aún así vamos a seguir
atentos a todas las novedades
que nos traigan
y Google
what the quack
y Google
ya
X
X
X
X
X
X
Y
X
X
Y
X
X
Y
X
Y
X
Y
X
X
X
X
X