This graph shows how many times the word ______ has been mentioned throughout the history of the program.
Han pasado solo dos meses desde el anuncio de Google de su tan esperada inteligencia artificial Gemini.
Ha pasado solo dos meses menos un día desde la decepción generalizada tras comprobarse que dicha presentación fue un poco fake.
Y ha pasado solo una semana desde que Google decidió matar a Bart para sustituirlo por la nueva marca comercial Gemini,
haciéndolo coincidir con la salida del sistema Gemini Ultra.
Y habiendo ocurrido todo esto hace una semana, va Google hoy y nos sorprende con la salida de Gemini 1.5.
Y no entiendo nada, ¿vale? Este vídeo lo estoy grabando el jueves por la tarde a pocas horas del anuncio por parte de Google
y quiero aprovecharlo para que reaccionemos y para que conozcáis qué es todo lo que han presentado
y para analizar un poquito todos estos movimientos que la verdad, viniendo de una empresa como Google
que tanto tiempo ha tardado en activarse ante la respuesta por parte de OpenAI con la salida de GPT-4,
pues de repente nos sorprende que hayan tomado un ritmo tan rápido.
Lo primero es lo primero, vamos a ver en qué consiste esto de Gemini 1.5.
Si venimos aquí a la página web de Gemini, de repente nos encontramos con una pestaña
que nos lleva a Gemini 1.5, su modelo Next Gen, el modelo de próxima generación.
Y aquí ya vemos que nos dice que Gemini 1.5 lo que nos entrega es un rendimiento mejorado
con una arquitectura mucho más eficiente, ahora vamos a ver de qué se trata,
y también una característica que aún es experimental, pero que para mí es la que marca la diferencia,
que es contextos de gran tamaño.
Y si entramos a leer todo el blog, pues aquí es donde vamos a encontrar toda la información necesaria.
Lo primero que nos encontramos es que Gemini 1.5 presenta una nueva arquitectura
basada en los Mixture of Experts, los MOES.
Arquitectura de la que ya hablamos aquí en este vídeo de diciembre
y que como sabéis es la arquitectura que está detrás de modelos tan potentes como GPT-4.
Y tal y como vimos en aquel vídeo, los MOES lo que nos ofrecen es la capacidad de poder entrenar modelos mayores
donde el coste computacional y el coste de inferencia se reduce enormemente
al distribuir el procesamiento en diferentes sistemas expertos.
Es decir, nos permite contar con modelos de mayor capacidad, de mayor número de parámetros,
pero donde, por ejemplo, en cada inferencia no vamos a estar activando todos los parámetros del modelo,
lo cual lo hace mucho más eficiente tratándose de modelos que Google, como empresa que es que va a ofrecer esta IA
como servicio, pues va a estar ofreciendo a millones y millones de usuarios.
Con lo cual es muy buena idea que hayan explorado los Mixture of Experts
y es interesante que estén dando un paso hacia parecerse más a un modelo tipo GPT-4.
Pero lo interesante viene ahora, porque sabemos que Gemini es el sobrenombre que se le da a toda la familia de modelos,
pero luego podemos encontrar diferentes tamaños con diferentes rendimientos.
La versión Nano, que es un modelo más pequeñito y por tanto más tonto,
pero más accesible para dispositivos, por ejemplo, móviles.
Luego la versión Pro, que sería la versión intermedia y la que Google está facilitando de forma gratuita
a través de su servicio Gemini.
Y luego la versión Ultra, que sería la versión más avanzada, que sería la que estaría disponible para usuarios de pago.
Versión que, por cierto, tengo que decir, se anunció la semana pasada a través del sistema de Gemini Advance,
que es el sistema de pago de Gemini,
y que técnicamente debería de tener un rendimiento superior a GPT-4,
tal cual lo presentaron en diciembre del año pasado,
y que sin embargo, cuando la gente ha empezado a probarlo y a testearlo,
queda bastante claro que no es un modelo superior.
De hecho, es un modelo que en muchos sentidos es bastante deficiente comparado con GPT-4.
Y esto es algo que es importante decirlo, porque muchas veces nos centramos en evaluaciones,
en el rendimiento de estos modelos, en determinados benchmarks,
para decir que este modelo es mejor que otro,
y al final la realidad es que la mejor forma de evaluar un modelo es probándolo,
y por eso nos empeñamos tanto en cuando se anuncia un modelo,
que sí, que está muy bien que me saques un technical report, un paper con toda esta información,
pero dame acceso, déjame probarlo, y ya seré yo el que verifique si este modelo es superior o no a GPT-4.
Y realmente Google sabía que Gemini Ultra no daba la talla,
obviamente lo saben, aunque no lo pueden decir públicamente,
pero ¿cómo lo podemos nosotros identificar que ellos lo sabían?
Pues que una semana más tarde están anunciando la versión 1.5,
un modelo que siendo más eficiente, por esta arquitectura tipo Mixture of Expert,
también, tal y como nos indican aquí, pues la versión Gemini 1.5 Pro,
la versión intermedia de esta nueva generación de modelos,
rinde a la par que Gemini 1.0 Ultra,
es decir, 1.5 Pro igual a 1.0 Ultra.
Pero de nuevo esto vuelven a ser comparaciones que vemos sobre el papel,
y a mí lo que me interesa es comprobar las capacidades,
¿qué tiene de nuevo este modelo Gemini 1.5 que lo hace tan interesante?
Pues amigos y amigas, cuando hablemos de Gemini 1.5,
de lo que tenemos que estar hablando es de su gran tamaño de ventana de contexto.
Recordemos que el tamaño de la ventana de contexto lo que nos define
es la cantidad de tokens que el modelo en cada inferencia puede procesar
y puede prestar atención.
Pues si por ejemplo estamos trabajando con texto,
esto nos indicaría el límite, la cantidad de páginas de documento
que le podríamos facilitar al modelo para trabajar al mismo tiempo.
O si por ejemplo estuviéramos trabajando con código,
¿cuántos scripts podríamos introducirle para que el modelo pudiera tener
una visión completa de nuestro proyecto de programación?
Si estuviéramos trabajando con imágenes,
pues esto nos limitaría en la resolución y tamaño de las imágenes.
Y si fuera audio, pues en la longitud,
en la cantidad de minutos que podría procesar al mismo tiempo.
Y esta ventana de contexto originalmente,
con los primeros modelos de ChatGPT, ChatGPT 3.5,
estaba en un valor de unos 4.000 tokens,
que luego aumentó a 16.000 y 32.000 con la salida de GPT-4.
Algo que por aquel momento, hace un año y medio, era impresionante.
Y Gemini 1.0 tras su salida, pues también igualó la apuesta
con una ventana de contexto de 32.000 tokens.
Algo que ahora queda completamente pulverizado
con una ventana de contexto de un millón de tokens.
Un millón de tokens del modelo que vamos a tener disponible públicamente
con el paso de los meses, pero ellos nos cuentan que incluso
internamente han conseguido modelos con 10 millones de tokens.
Repito, 10 millones de tokens.
Y con Gemini 1.5 Pro, con una ventana de contexto de un millón de tokens,
se puede hacer muchas cosas.
Porque un millón de tokens representa aproximadamente 700.000 palabras.
O unas 30.000 líneas de código.
O 11 horas de audio.
O una hora de vídeo.
Una hora de vídeo que ahora el modelo podrá procesar de golpe
para responder todas las preguntas que tenga el usuario.
Pensadlo bien.
Una hora de vídeo sería equivalente a darle a la inteligencia artificial
pues la primera parte de un partido de fútbol, 45 minutos,
y preguntarle, oye, ¿dónde ha sucedido el gol?
Y que de una única inferencia, pues pueda encontrar esa información
y darte una descripción.
O hazme un resumen de todo el partido, o coméntamelo.
O genera una voz artificial cuando la multimodalidad lo permita
que narre todo lo que ha ocurrido.
Y de hecho, ejemplos así podemos encontrar.
Porque aquí estoy centrándome en la modalidad de vídeo,
porque esto es algo novedoso que están presentando con Gemini 1.5 Pro.
Esto es una cosa que Google ya anunció en el pasado cuando hablaban de que
su inteligencia artificial iba a ser multimodal, que era la capacidad de poder analizar vídeos.
Algo que hasta la fecha no hemos visto en inteligencias artificiales como GPT-4.
Sí, se puede analizar vídeos de forma similar a como hicieron con esta demo fake,
donde tú vas sacando fotogramas, los vas describiendo con las capacidades de visión por computador,
y con ese análisis que tú haces de los fotogramas, pues puedes hacer una medio comprensión
de lo que está ocurriendo en dicho vídeo.
Y sin realmente saber cómo exactamente Google lo hace en este caso,
esta demo que nos demuestran aquí, y es una demo así que la cogemos con pinzas,
es bastante impresionante.
En este caso lo que van a introducir es un vídeo,
y este vídeo procesado ocupa unos 700.000 tokens.
Toda la información que representa vendría a representar pues toda esta cantidad de tokens.
Aquí es donde entra en juego, y es importantísimo,
esta enorme ventana de contexto con la que Gemini Pro trabaja.
Y en este caso el vídeo que están procesando, pues sería una película de Buster Keaton
de unos 44 minutos, y donde se le ha preguntado a la inteligencia artificial,
bueno, que encuentre el momento donde un papel se coge del bolsillo de una persona
y que te cuente más información sobre ello.
Como podemos ver, los tiempos de inferencia están aumentando drásticamente,
hasta tardar más o menos un minuto en procesar la petición,
frente a lo que estamos acostumbrados cuando interactuamos con el chat, pues con chat GPT.
Pero es que esto es algo habitual cuando empezamos a trabajar con modelos de ventanas de contextos tan grandes.
Algo que a futuro, seguramente con las mejoras de computación y las optimizaciones de estos modelos,
pues se vaya logrando reducir considerablemente.
Pero aún así, un minuto para procesar 44 minutos de vídeo, pues tampoco es tanto.
Y podemos ver que la respuesta de la IA pues es correcta.
Dice, a los 12 minutos un trozo de papel se coge del bolsillo de una persona.
Esto es un ticket de bla bla bla bla y te da más información tal cual tú se lo has pedido.
Y cuando se comprueba, pues efectivamente en el minuto 12, como dice la inteligencia artificial,
hay un ticket con el nombre de Will Smith tal cual nos ha especificado en nuestra conversación.
Mola.
E incluso podemos jugar con la multimodalidad, con la capacidad del modelo de entender diferentes tipos de datos,
por ejemplo, una imagen, para hacer un dibujo y decirle,
oye, ¿esto en qué fotograma, en qué momento ocurre?
¿No?
Un dibujo de una persona mojándose por un tanque de agua.
Y el modelo responde escueto con un momento, 15.34.
Buscamos este tiempo en el vídeo y efectivamente, pues hemos encontrado justo ese momento.
Pensad en un futuro, ¿cómo podría funcionar un buscador dentro de una plataforma que le pertenece a Google?
¿Cómo podría ser YouTube?
Que toda esta información que estructura el contenido de un vídeo esté precalculado, esté indexado
y que vosotros podéis hacer búsquedas a través de ¿cuándo se cantó esta canción en un vídeo de Carlos?
¿Cuándo Carlos pues levantó el brazo así y no lo levantó así a través de un dibujo?
No sé.
Pensad que loco se va a volver todo esto.
Y si esto es posible, de nuevo, es gracias al aumento en la ventana de contexto.
De todos los ejemplos que muestran, este sería el más agresivo en cuanto a ventana de contexto utilizada,
¿qué sería con proyectos de programación que tengan pues una gran cantidad de archivos a procesar?
Estamos acostumbrados en proyectos de programación a trabajar con un montón de archivos, de scripts
que están interrelacionados y que nos interesaría que la IA pudiera acceder de forma holística
para tener una visión completa del proyecto en el que estamos trabajando.
Y para eso es fundamental, de nuevo, la ventana de contexto.
Y en esta demo, pues lo que vienen a demostrar es justamente esto.
Han cogido un montón de códigos de la librería 3 para hacer gráficos entre T en el navegador
y con todos esos proyectos, con ese enorme repositorio de código, que en este caso ocuparía unos 800.000 tokens,
ahora podemos pasar a hacerle consultas.
Podemos, por ejemplo, pedirle que nos busque en todo este repositorio, pues 3 demos que hagan una explicación
de cómo utilizar animaciones con esta librería y de repente la IA pues la encuentra y te empieza a hacer
un medio tutorial con esa información que ha encontrado.
Oye, en la demo de Tokio, de todas las demos que tenemos, ¿qué es lo que controla la animación?
Y te hace la explicación buscando y encontrando dónde está el código de la demo de Tokio.
Oye, quiero que me encuentres la demo donde se hace uso de la geometría de texto
y que me modifiques el color, el material, para que ahora sea, en vez de plateado, dorado,
y bueno, te encuentra el código, te hace los cambios, te lo manipula
y efectivamente hace la tarea que le has pedido.
Estas demos son impresionantes y como demos impresionantes de Google,
las vamos a dejar en cuarentena hasta que la tecnología caiga en nuestras manos
y podamos probarla y podamos testear todo esto que aquí nos presentan.
Por ahora, Gemini Pro 1.5 está accesible a través de beta privada,
a través de la plataforma Vertex de Google.
Pero será cuestión de semanas, será cuestión de meses,
que podamos probar esta tecnología nosotros y verdaderamente podamos ver
si rinde tal y como lo presentan.
Pero si fuera el caso, estaríamos viviendo nuevamente un paso hacia adelante
en cuanto a las capacidades de lo que la inteligencia artificial puede ofrecer y puede hacer.
Porque verdaderamente Google en este caso ha traído un avance técnico bastante, bastante impresionante.
Y es que no solo se trata de que la ventana de contexto se haya prolongado al millón de tokens
o incluso a 10 millones de tokens, recordemos.
Sino que aquí, como en la vida, lo importante no es el tamaño, sino el saber utilizarlo bien.
Y en cuanto al correcto uso de la ventana de contexto, nos estábamos encontrando muchas veces
con modelos como Claude, de Antropic, que nos hablaban de
sí, sí, tengo ventanas de contexto de 200.000 tokens, que esto suena como muy grande.
Pero que luego, cuando te ponías a interactuar con estas ventanas de contexto,
pues empezabas a percibir que no funcionaba como debía.
Muchas veces con estos modelos lo que nos encontrábamos es que sí, tú le podías facilitar
un montón de páginas de documentos y el modelo era capaz de verlo de principio a fin.
Pero había una trampa.
Lo que sucedía es que cuando tú le facilitabas un documento muy grande, pues sí, el modelo
lo podía procesar, pero gran parte de la información que estaba en ese documento, pues
la inteligencia artificial no era capaz de capturarla, trabajar con ella y facilitársela
al usuario.
Pues era como leerte un libro muy, muy, muy, muy rápido y donde tu retentiva solo te permitía
recordar la información del principio del documento y del final.
Y esto es una cosa que se puede evaluar con un test muy sencillo y muy fácil de entender,
que es el test de la aguja en un pajar, que consiste en coger un documento muy grande
y esconder en él, en una posición aleatoria, pues una pieza de información del tipo, pues
a DOT CSV le gustan los pangolines.
Y luego ir a la inteligencia artificial y preguntarle, oye, que sí, que sí, que Harry Potter está
muy bien, pero ¿qué le gusta a DOT CSV?
Si la inteligencia artificial estuviera trabajando con la ventana de contexto de forma efectiva
observando todas las posiciones de la información que le estamos facilitando, debería de poder
decirte, hey, a DOT CSV le gustan los pangolines, pero atento, atento, que lo de Harry Potter
también está interesante.
Ahí la inteligencia artificial habría resuelto para esa posición correctamente su prueba
de la aguja en un pajar.
Así que le marcamos la casilla en verde.
Pero lo que nos interesa es que la inteligencia artificial pueda encontrar esta pieza de información
en todas las posiciones de su ventana de contexto.
Es decir, que use todo ese tamaño de forma efectiva.
Y lo que nos encontrábamos con inteligencias artificiales tan impresionantes como Clodo,
incluso con GPT-4, es que sí, ventanas de contexto muy grandes, pero que no funcionaban
tan bien.
Y aquí es donde creo que Google ha hecho un grandísimo trabajo.
Porque si accedemos al paper, al preprint que han sacado, pues podemos ver que esta prueba
de la aguja en un pajar para modalidades como vídeo, audio o texto se resuelve con un éxito
casi casi rotundo.
Una prueba de estrés pasada satisfactoriamente.
Una ventana de contexto utilizada al 100%.
Y no es por colgarme una medallita, pero me la voy a colgar.
Porque esta fue una de las predicciones que ya anuncié hace un mes en las predicciones
que hacía sobre lo que creo que va a ocurrir en el mundo de la inteligencia artificial este
2024 y que era justamente esto.
En 2024 veremos cómo las ventanas de contexto de los enormes modelos de lenguaje seguirán
aumentando por encima del millón de tokens.
Pero más importante aún, lográndolo mientras superan positivamente test de presión tipo
needle in a high stack.
Aplausos, aplausos, gracias.
Pero bueno, estos aplausos se los vamos a conceder en esta ocasión a Google.
Porque en teoría, y hasta que podamos probar la tecnología, se va a quedar en ese plano,
parece que han conseguido dar un paso más hacia adelante.
Si bien parecía que con Gemini 1.0 a Google le estaba costando plantarle cara a OpenAI,
sacando un modelo hace una semana que ni siquiera alcanza el rendimiento de un modelo que lleva
en el mercado desde hace un año, pues una semana después han conseguido dar un paso
que sorprende, nos ha sorprendido a todos y que parece que sí introduce mejoras frente
a lo que GPT-4 actualmente ofrece.
En concreto, la modalidad de vídeo, de análisis de vídeo y esta enorme ventana de contexto
utilizada con esta efectividad.
¿Y por qué lo han hecho tan rápido?
Ah, podría ser que de repente Google haya decidido cambiar el ritmo para pillar por sorpresa
a la competencia, o podría ser que Google también supiera que la competencia estaría
próxima a dar un nuevo movimiento.
Y eso hace que ahora todos giremos nuestra cara, miremos a OpenAI, saludemos a Sam Alman
y le preguntemos, hey, ¿qué? ¿Qué tienes para nosotros?
Y por ahora, día de hoy, jueves por la tarde, pues no tenemos ninguna novedad.
Pues no tenemos ninguna novedad.
Gracias.
Gracias.