logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Las reglas del juego han cambiado radicalmente en los últimos meses, donde la batalla económica
por ver quién lidera el mercado de los enormes modelos del lenguaje ha hecho que OpenAI por
primera vez no publique ningún detalle sobre la arquitectura de su modelo, con qué datos lo
ha entrenado o incluso el tamaño de GPT-4. En lo académico podríamos decir que OpenAI ha
vuelto al mundo del deep learning un lugar mucho más cerrado. Sin embargo, de GPT-4 lo que sí
sabemos es su rendimiento. Y sabemos que, como era de esperar, cuando hablamos de GPT-4 estamos
hablando de un modelo que es más potente que su antecesor, que es GPT-3. Y para demostrar su
evolución OpenAI ha comparado cuantitativamente el rendimiento de ambos modelos, pero no utilizando
los típicos test que habitualmente se usan para evaluar a estas inteligencias artificiales, no,
sino que han utilizado test humanos, exámenes como los que tú y yo haríamos para poder medir
nuestro rendimiento académico. En concreto, exámenes como cálculo avanzado, literatura,
química, exámenes de derechos, prueba donde se evalúa el razonamiento, la lógica. Exámenes
donde, como podéis ver en esta gráfica, GPT-3.5 rendía hasta este nivel. Fijaos que están ordenados
de menor a mayor rendimiento. Y donde ahora GPT-4 en todo su potencial evoluciona a esto. Sí,
amigos, estamos ante un modelo mucho más potente. Y sin embargo, y ese es el punto que quiero
destacar en este vídeo, ¿qué pasaría si dijera que el rendimiento que estamos viendo hoy de GPT-4
es solo la superficie, que nos acerca a lo que este modelo será capaz de hacer dentro de unos
pocos meses? Hoy te voy a contar cinco formas en las que GPT-4 va a evolucionar en los próximos
meses. Tres, dos, uno, comenzamos.
Cuando hablamos de modelos como GPT-3 o GPT-4, estamos hablando de modelos cuya tarea de
entrenamiento es aprender a predecir cuál es el siguiente token a partir de los tokens anteriores.
Estos son modelos autoregresivos. Y aquí hay un concepto muy importante a entender y es la ventana
de contexto de estos modelos. El tamaño de la ventana de contexto lo que nos indica es cuánta
información puede procesar el modelo GPT para poder hacer su siguiente predicción. Por ejemplo,
si asumimos por simplificar que cada token aquí es una palabra con una ventana de contexto de
tres palabras, pues GPT rápidamente olvidaría quién era el sujeto de esta frase. ¿Veis? Tres
palabras más allá ya no puede acordarse de quién era el sujeto. Y su output para esta pregunta
pues bien podría ser Juan, María, Pedro o cualquier cosa. No es capaz de ver que había
cuatro palabras atrás. Aquí diríamos que este modelo GPT con una ventana de contexto tan pequeña
pues sería menos capaz y por tanto menos inteligente. Y con esto tenéis que entender
que el tamaño de la ventana de contexto es fundamental en estos modelos autoregresivos,
siendo importante para que el modelo pueda generar respuestas más coherentes, aprovechando la
información previa, recordando datos que hemos hablado en momentos anteriores. Y bueno, cuando
trabajamos con modelos como GPT3 o chat GPT, sus ventanas de contexto son más grandes que cuatro
o cinco palabras, sino que aquí se expanden hasta los 4096 tokens, que aproximadamente podrían ser
entre 2000 y 3000 palabras. Con esta ventana de contexto de 2000-3000 palabras es con lo que
vosotros habéis estado jugando los meses anteriores y aún así habréis comprobado que cuando la
conversación se vuelve muy larga, pues chat GPT tiende a olvidar cierta información, información
que queda fuera de su ventana de contexto. Pero eso es hablando de la versión de GPT3. La pregunta
es, ¿cuánto tiene GPT4? Pues con GPT4, con el modelo que todos hemos utilizado hasta ahora,
esta ventana de contexto se duplica hasta los 8000 tokens. Ok, está bien, duplica la ventana
de contexto, mola. Pero, ¿y si os dijera que esta no es la versión definitiva de GPT4? Tal cual lo
anunció OpenAI, la versión definitiva de este modelo, que todavía ninguno de nosotros estamos
utilizando, tendrá una ventana de contexto de 32000 tokens. Cuatro veces más que la ventana
de contexto que estamos utilizando ahora con el modelo GPT4. Y eso es bastante. Porque para
que os hagáis una idea, 32000 tokens son unas 25 mil palabras que podemos estimar son unas 50
páginas de documento. 50 páginas que ahora GPT4 podrá escanear y analizar y procesar
simultáneamente para generar su siguiente respuesta. Y creo que pensáis en esto fríamente,
porque nosotros, los humanos, cuando estamos leyendo un documento, estamos leyendo un libro,
con suerte podemos recordar palabra por palabra lo que hemos leído en el último párrafo,
en la última página o en las últimas dos páginas, pero toda la información previa queda como en un
resumen vago en nuestra cabeza, como información difusa. Y en este caso, GPT4 puede analizar estas
50 páginas con total nitidez todo al mismo tiempo. Además, pensad que esta ventana de contexto se
vuelve extremadamente útil cuando queremos agregar mucha información contextual para resolver una
determinada tarea, agregar páginas de documentación, información de una base de datos, varios papers que
quieras comparar, o por ejemplo gran parte del código de un proyecto de programación que ahora
GPT4 podrá observar simultáneamente. Esta ventana de contexto era uno de los grandes cuellos de
botellas de modelos como GPT3. Y ver que ahora en pocos meses podremos estar operando con un
modelo que tiene ocho veces más tamaño de ventana de contexto, pues es impresionante. Ya solo con esto,
GPT4 se hubiera ganado un puesto en la historia del deep learning como una evolución real del
sistema anterior. Y sin embargo, estamos solo en el primer punto. ¿Por qué OpenAI quería más? Y
por eso le dio a GPT4 la capacidad de abrir los ojos al mundo. Ojo a esto. Esa fue la frase que
tuvo que haber dicho algún ingeniero dentro de OpenAI cuando estaban diseñando a GPT4 y entonces
dijeron pues sí, ojo a esto, vamos a ponerle visión. La multimodalidad, la capacidad del
modelo de no solo generar texto sino también aceptar otro tipo de datos como imágenes,
era una de esas características que no teníamos claro si iban a llegar a GPT4.
Y sin embargo ocurrió, aunque todavía no hemos podido probarla, y es que esta es otra de las
características que OpenAI se está reservando para activar en los próximos meses, seguramente
cuando lo hayan optimizado para reducir su coste computacional. Y os adelanto que cuando esto
ocurra, cuando OpenAI habilite esta nueva funcionalidad, esto se va a vivir como la
llegada de un nuevo modelo GPT. Porque amigos y amigas, esto abre una dimensión completamente nueva
en las capacidades que este modelo podrá demostrar. La multimodalidad aquí se refiere a la comprensión
que tiene GPT4 no solo para entender el texto que le pasamos como input, sino también para entender
imágenes, permitiéndonos combinar ambas fuentes de información para desarrollar nuevas utilidades.
Sin lugar a dudas, la más impresionante la vimos de la mano de Greg Brockman, cofundador de OpenAI,
el día de presentación, donde a partir de dibujar un boceto de una interfaz en su libreta,
GPT4 pudo entender la imagen, pudo entender el texto, pudo entender la interfaz que tenía que
programar, y conectado todo esto a su capacidad de generar texto y generar código de programación,
en cuestión de segundos escupió el código que implementaba dicha interfaz que había dibujado.
Toda esta información procesada y generada por un único sistema. La visión de GPT4 nos permite
ahora dejar que la IA haga razonamientos sobre lo que ve, como por ejemplo, qué pasaría si corto
las cuerdas en esta imagen, o pasarle un documento como por ejemplo un diagrama que has visto en un
paper y que te explique y te desarrolle qué es exactamente lo que estás viendo, o darle ojos a
nuestras máquinas para entender cualquier contenido visual por raro y complejos que sean.
Por dar un poco de contraste, pensad que lo que nos parecía revolucionario y super avanzado hace
seis, siete años en el mundo del deep learning, cuando hablábamos de visión por computador,
eran máquinas capaces de diferenciar pues si en una imagen, en un vídeo había un perro,
un gato, un conejo, y ahora estamos en este punto. Un punto donde en lo personal creo que
esta característica de visión pues acaba de dar una nueva oportunidad a cualquier hardware que
cuente con una cámara y conexión a la API de OpenAI. Y por supuesto ni falta hace mencionar
pues que en los próximos meses veremos un montón de asistentes, avatares artificiales, robots que
conectados con esta tecnología van a poder percibir y van a poder dialogar de forma natural con
nosotros. Como os he dicho, estas son características que están por llegar, que OpenAI ha asegurado
que van a evolucionar en los próximos meses al sistema de GPT-4 que todos estamos utilizando.
Os estáis dando cuenta de todo el margen de mejora que todavía queda por delante en este
año respecto a lo que GPT-4 actualmente puede ofrecer? Pues todavía hay más.
Porque GPT-4 está bien, está muy bien, lo hemos visto, pero interactuar siempre a través de un
chat o solamente compartiendo imágenes pues quizás no sea la forma más natural de sacarle todo el
rendimiento a este modelo. Donde además sabemos que el rendimiento de estos modelos depende
fuertemente de cómo se configure este prompt inicial, donde el cómo se exprese la idea que
quieres pedir la GPT-4 o el propio orden de las palabras, pues tiene un impacto real sobre
el rendimiento final. De ahí surge el papel de los prompt engineers. Pero y si ocultáramos toda
esta lógica, toda esta complejidad, toda esta forma de interactuar de manera tan cruda con el
modelo detrás de una interfaz gráfica que esté muy pulida y muy optimizada para darte
siempre el mejor resultado. Mirad para que lo entendáis. Si yo cojo un modelo como GPT-4
para responder a un correo, tendría que copiar todo el cuerpo del mail. Controlse por aquí y
control V por allá. Luego escribir un prompt que diga responde a este correo diciendo que tal tal
y tal. Para añadir pues responde a este correo de forma abreviada con un tono más directo y
coloquial, lo cual quizás me acerque al resultado que estaba buscando. Ok, funciona.
Pero mirad ahora esta alternativa. Cuando Microsoft saca AvinChat, que ya sabemos que es GPT-4,
también saca una opción redactar. Y esta es solo una interfaz gráfica que automatiza todo
el proceso que he explicado previamente. Si yo selecciono un texto del navegador,
automáticamente se agrega al chat. Si quiero escribir un correo, pues marco este botón de aquí.
Y además puedo seleccionar la longitud, el tono, etcétera. Es decir, toda la complejidad
de interactuar en crudo con el modelo del lenguaje se facilita con una interfaz gráfica sencilla,
donde tras cada menú y tras cada botón se va a esconder el prompt concreto que hace que el
modelo del lenguaje actúe como queremos. Y parece una tontería, pero creo que de canalizar,
de restringir, de focalizar el potencial de estos enormes modelos del lenguaje es de lo que va a
depender gran parte del éxito de mucho del software que se desarrolle a partir de ahora.
Y Microsoft esto lo sabe y con su ventaja de haber podido acceder a toda la tecnología de
OpenAI con anticipación, pues han tenido tiempo para ir actualizando todo su software más icónico,
pues toda la suite de Office, por ejemplo, donde tú ahora puedes pedirle fácilmente al Excel que
analice determinados ficheros de datos o al Microsoft Word que te redacte una carta de
recomendación en el propio software o, por ejemplo, al PowerPoint que te haga directamente
todas las diapositivas. Es la integración de los enormes modelos del lenguaje al software
tradicional. Parece mentira, pero bueno, como ya ocurrió con la computación en los años 80 y
los años 90, pues una interfaz gráfica siempre va a permitir darle muchas más herramientas al
usuario final ocultando toda la complejidad de lo que está funcionando por detrás. En este caso,
el backend sería la inteligencia artificial. Pero bueno, en todo este despliegue donde ahora
podemos pedirle al PowerPoint que nos genere nuevas diapositivas para nuestra charla de
mañana, quiero que te des cuenta de una cosa muy interesante y es que no sólo estamos viendo al
modelo del lenguaje siendo controlado por el software tradicional, sino que en este caso
está ocurriendo justamente el proceso contrario. Es el software tradicional el que está siendo
controlado por el modelo del lenguaje. Y eso nos lleva al siguiente punto.
Y ojito en este punto, porque aquí estamos hablando de darle al modelo capacidad de acción,
capacidad de poder utilizar herramientas. Y este es el ejemplo típico, pero es muy fácil para
entenderlo. Sabemos que chat GPT, por su propia naturaleza y funcionamiento, pues no es muy bueno
con las matemáticas. A lo mejor tú le pides uno más uno y el modelo te dice tres. Está mal,
pero y si le dieras la posibilidad de reflexionar sobre qué herramienta debería de utilizar? Bueno,
pues aquí se ha comprobado que él puede deducir que para este prompt lo ideal sería utilizar una
calculadora y si le das acceso a ella, el modelo la utilizará para darte el resultado correcto.
O por ejemplo, GPT 4 técnicamente no saben qué fecha vive, algo fundamental para organizar,
por ejemplo, una agenda. Pero qué pasaría si le diéramos acceso a algo tan sencillo como un
calendario? Y además le damos capacidad para poder leer eventos, agregar reuniones que le
pidamos, añadir recordatorios. Veréis que GPT 4 se vuelve mucho más interesante. Pues esta es una
idea que no es nueva. Esta es una idea que se viene explorando ya desde hace meses, incluso antes de
la salida de chat GPT en diciembre, con librerías como Lancheng, que ya nos permitía crear una
concatenación de llamadas a diferentes modelos del lenguaje y diferentes aplicaciones, APIs,
servicios para poder crear herramientas mucho más sofisticadas y paper más recientes como el de
Tool Formers, pues nos enseña que muchas de las limitaciones de estas sías pueden ser solventadas
cuando le damos capacidad de acceder a estas herramientas al modelo calculadora, buscadores,
calendarios, APIs. Las posibilidades son infinitas y OpenAI esto lo sabe y por eso no hemos tenido
que esperar más de 2-3 semanas desde la salida de GPT 4 hasta ver cómo se completa su visión de
armar un marketplace de plugins dentro del chat de chat GPT. Algo que todavía está en alfa,
pero de lo que ya se intuye el enorme potencial que podrá tener. ¿Y qué es un plugin en este
caso? Bueno, pues una forma de conectar a chat GPT con una API de una aplicación externa para,
por ejemplo, pedirle que te gestione la compra de un vuelo a Nueva York o a una aplicación de
restaurantes te permitirá pedirle, hey, quiero cenar esta noche en un italiano cerca de casa y
chat GPT entenderá con qué aplicación tendrá que interactuar en cada caso para satisfacer tu
orden. Pero es que incluso la cosa puede ser más elaborada y podemos dejar que chat GPT interactúe
en cadena con diferentes aplicaciones. Podemos pedirle, por ejemplo, hey, órganizame un viaje
y una cena en la ciudad europea que esté más cerca de donde estoy yo ahora. Y ahí chat GPT
pues irá a Wolfram Alfa para calcular las distancias a las diferentes ciudades europeas,
luego encontrará el vuelo más óptimo para tu viaje y finalmente los restaurantes donde poder
cenar. ¿Os dais cuenta de cómo una simple actualización vuelve mucho más potente a toda
esta tecnología? Pues el tema de los plugins no se queda solo ahí. También le han dado capacidad
de poder navegar por internet, similar a cómo hace Bing Chat, pudiendo ahora entrar a diferentes
páginas webs, extraer información y volcártela de nuevo en el chat para poder seguir hablando
sobre ella. Y muy interesante también han añadido un intérprete de Python que le va a permitir
generar código y ejecutarlo según lo necesite. A lo mejor antes chat GPT si le pedías calcular
8 elevado a 23, pues de cabeza se iba a inventar ese resultado y posiblemente iba a estar mal.
Pero ahora te va a dar el resultado correcto, porque lo que va a hacer es generar el código
de Python que ejecuta esa instrucción y como todo código de Python que se ejecute,
pues el resultado estará correcto. Y esto ya no es una IA ejecutando una calculadora,
esto es una IA generando y ejecutando código de programación bajo demanda y eso abre muchas
posibilidades. Y seguramente ahora estéis abrumados por todas las posibilidades que se abren ante
nuestros ojos, pero ¿y si os dijera que la cosa no se queda aquí? Porque sí, está muy bien darle
a GPT 4 acceso a una calculadora, a un calendario, a APIs, a código de programación, está perfecto,
pero vamos más allá. Imaginad que le damos acceso a todo el catálogo de modelos de deep learning que
están preentrenados y están disponibles para todos en una página web como Hugging Face. Que
chat GPT se pueda conectar a un modelo de visión como Blip2 y que pueda consultar el contenido de
una imagen y hacer preguntas o un modelo de comprensión de vídeo para entender qué está
pasando en un metraje o darle por ejemplo acceso a whisper para que pueda escuchar un audio que
nosotros le pasemos y que a partir de ahí pueda utilizar otro modelo de generación de voz o pueda
incluso generar imágenes nuevas con stable diffusion. Parece algo bastante grande y bastante
potente y un camino a futuro muy interesante de explorar, pero ese camino ya se ha caminado y es
que hace muy pocos días se ha publicado el siguiente paper Hugging GPT, que os dejo también el enlace
abajo en la caja de descripción y donde justamente se está proponiendo esto, usar a chat GPT como un
cerebro que coordine el uso de los diferentes modelos disponibles en Hugging Face. ¿Y quiénes
son ellos? Pues Microsoft, que últimamente está a tope y bueno, un detalle que sé que os va a gustar,
este proyecto han decidido bautizarlo como Jarvis. Capacidad visual, mayor ventana de contexto,
control a partir de interfaces de usuario, uso de herramientas, con todo esto tenemos a un futuro
GPT 4 que es muchísimo más potente que cualquier cosa que podamos tener hoy entre manos. Y todavía
nos falta un último punto y este opa gusta. A ver, tenéis que pensar lo siguiente. Toda esta
tecnología que estamos hablando hoy, que venimos hablando todos estos años, todavía es muy
prematura. Estamos a comienzo de la generación 4 de un modelo como GPT que todavía no terminamos
de entender. Todavía nos queda mucho que aprender y mucho rendimiento que sacar. Para hacer la
tecnología esto es como cuando una nueva Playstation sale y la calidad de los juegos
al principio y al final de generación pues varían enormemente y en esos casos la tecnología es la
misma y es por el propio aprendizaje de los ingenieros que van trabajando con ella que se
van descubriendo nuevos trucos y nuevas formas de operar de forma más eficiente. Pues con la IA es
igual, pero en vez de tener que esperar años, pues solamente hace falta que pasen semanas y es que el
uso de GPT 4 está siendo tan intensivo por parte de la comunidad que en muy pocos días se han
encontrado nuevas estrategias que permiten aumentar el rendimiento del modelo. Estrategias
muy sofisticadas porque si entendemos a GPT 4 como un modelo de inteligencia artificial que
ejecuta ciertos procesos cognitivos, pues procesamiento de la información, razonamiento,
deducciones lógicas, lo que estamos viendo las últimas semanas es un aprovechamiento de estas
características para implementar nuevas dinámicas más avanzadas, dinámicas que están inspiradas en
el propio funcionamiento del cerebro humano. Estrategias como esta de aquí, la de introducir
a chat GPT en un bucle continuo que le permite evaluar y ser crítico sobre los resultados que
ha generado previamente. Y es este proceso de autoreflexión del modelo de poder observar
sus estados anteriores generando este bucle de optimización sobre el propio modelo optimizado,
lo que algunos están denominando como estrategias de metacognición y que independientemente de cómo
se le llame a esto, que sé que algunos le puede picar, pues hay que decir que está funcionando
bastante bien. Un ejemplo sería este trabajo experimental de aquí, AutoGPT, que lo que hace
es establecer un bucle donde para una tarea dada empieza a ejecutar un bucle en el que primero
analiza su objetivo, luego planifica los pasos a seguir, los ejecuta y donde posteriormente y de
forma iterativa va corrigiendo errores, analizando sus outputs, generando test, analizando su output,
planificando los siguientes pasos y así hasta completar el objetivo fijado. AutoGPT,
un chat GPT en modo automático. Esta capacidad de poder observar tus resultados anteriores y
poder depurarlos, pues se está comprobando que da muy buenos resultados y este trabajo no es
el único que lo explora. Aquí en este paper del mes pasado también investigaban la capacidad de
autoreflexión, obteniendo muy buenos resultados incluso sobre lo publicado por OpenAI semanas
anteriores. Y es que si en el anuncio de GPT 4 ya nos mostraban un sorprendente resultado de un 67%
en estas pruebas de programación, superando por bastante a modelos competidores como Palm,
ahora aplicando esta nueva técnica de reflexión que, como digo, ha salido en las últimas dos
semanas, el rendimiento sube hasta el 88%, mejoras que se han podido replicar también en otras
evaluaciones. La idea con la que quiero que os quedéis es que posiblemente la estrategia ya sea
añadir una memoria aparte, comprimir toda la información con un mensaje secreto, estrategias
de cognición, metacognición, sea cual sea la estrategia que saque todo el rendimiento a un
modelo como GPT 4, lo más probable es que todavía no se haya descubierto. Estamos solo al comienzo de
esta revolución y tenemos que entender que GPT 4, por impresionante que nos parezca ahora,
está en la peor versión de todos los modelos que están por llegar en el futuro. Y con este vídeo
espero que hayáis entendido que no hace falta estar esperando a un hipotético GPT 5 que se esté
entrenando o que vayan a bloquear por cualquier carta, sino que realmente GPT 4 ya supone una
base muy potente para introducir un montón de mejoras que nos acerquen hasta esta idea de
inteligencia artificial general, sea lo que sea eso. Y será cuando conectemos todas las claves que
hemos visto en el vídeo de hoy en un único sistema y construyamos las herramientas que puedan sacarle
todo el partido a esta tecnología, que estaremos viendo verdaderamente el potencial que supone un
modelo como GPT 4. Y ya estamos de vuelta, ya estamos de nuevo haciendo contenido aquí para el
canal. Vamos a seguir haciendo directo. Voy a subir vídeo más regularmente tratando un montón
de temas. Están pasando cosas muy importantes también por la parte open source, con los modelos
de llama, con alpaca, con todo lo que está saliendo y todo esto te lo contaré aquí en el canal.
Suscríbete si no lo has hecho, apoya a través de Patreon si te gusta este contenido. Tenéis aquí
un par de vídeos súper interesantes, no sé cuáles son pero seguro que lo son. Y
chicos, chicas, nos vemos con más inteligencia artificial aquí en dot ccv.