This graph shows how many times the word ______ has been mentioned throughout the history of the program.
¿Recordáis cuando hace una semana en el video de ControlNet dije, bueno, este mes
voy a estar mudándome, voy a estar ocupado pues cambiando todo el setup y moviéndome
a otro sitio. Por favor, Sam Almond, CEO de OpenAI, no saques GPT-4 que me viene bastante mal.
GPT-4. Aquà estamos. Bueno, chicos, chicas, Dios, ya ha ocurrido, os lo enseño, os lo coloco,
os lo coloco aquà en pantalla. Ha pasado. Ya tenemos a GPT-4, a la cuarta versión del
modelo de OpenAI disponible. ¿Qué podemos decir de GPT-4? Pues vamos a estar hoy en el
directo hablando de las primeras impresiones. Acabo de llegar de un vuelo, acabo de entrar
por casa, tengo aquà la cena preparada. Raudo y veloz, he estado en el avión leyendo toda la
información, leyendo tweets, mirando el paper. Paper que vamos a comentar que tiene cosas
interesantes, no por lo que cuentan, sino por lo que se callan. Estamos quizás en un momento
histórico y creo que en el punto en el que nos encontramos ahora, dentro del desarrollo de la
computación moderna, esto es un hito, un hito muy grande, porque estamos llegando ya a una versión
muy potente de lo que son los enormes modelos del lenguaje. Ya no podemos hablar sólo de modelos del
lenguaje, podemos hablar de Visual Language Model, porque aquà estamos hablando de un
modelo multimodal. Vamos a ver todos los detalles. El directo de hoy es para hablar de las primeras
impresiones, de lo que será mi impresión de este sistema GPT-4, que os adelanto ya al titular.
Es lo que esperábamos, es para bien el modelo que se esperaba de una cuarta versión. No es un
desarrollo incremental, no es algo que que mejore un poco lo anterior y ya está. Realmente aquÃ
hay verdaderas mejoras, OpenAI lo sabe, y hoy vamos a estar viendo un poco pues todo. Ha habido una
presentación que yo todavÃa no he visto, la vamos a ver en directo. Sé que es tarde, bueno, pues me
acompañáis o veis el directo resubido cuando esté. Vamos a estar viendo las novedades de lo que han
presentado y vamos incluso a probarlo, porque esta es otra de las cosas que yo creo que son a nivel
tecnológico impresionante y es el despliegue que han hecho esta tecnologÃa, donde desde el dÃa 1 ya
está disponible. Ya si sois usuarios de chat GPT+, podéis acceder a GPT-4 y podéis probarlo. Yo no lo
he probado, ya veo que hay gente que ha hecho pruebas. No estáis probando una versión definitiva,
comentaremos el por qué ahora, pero ya podéis jugar con el sistema. Vamos a declarar un poco todo
lo que está ocurriendo, comentadme si se ve, si se oye bien todo. Lo vais a poder usar, claro que
lo podemos usar, lo podéis usar hasta vosotros. Estamos aquÃ, estamos todos conectados. Bueno, va
a ser un directo largo, ya os digo yo que el de todo el rumbo del canal de esta semana y de estas
semanas, pues va a cambiar, va a pivotar sobre este tema que es GPT-4. Este va a ser el primer
directo hablando de primeras impresiones. Quiero hacer otro directo comentando, bueno, probándolo,
pero poniéndolo a prueba, pero ya con un poco más de calma. Luego también tenemos el jueves el directo
de El Futuro del Trabajo, que es un directo sobre una charla que iba a dar Microsoft, que todos
pensábamos que iba a ser ahà donde iban a presentar GPT-4, pero no, ya lo tenemos. Pero aún asà vamos
a verlo porque creo que todavÃa puede haber más sorpresas dentro de todo este despliegue y seguramente
Microsoft se haya guardado algunas cosas interesantes, donde van a integrar seguramente
esta tecnologÃa de GPT-4 en muchos de los productos que ellos tienen, asà que yo creo
que será importante. Y luego ya habrá más contenido en el canal sobre el tema. Chicos,
chicas, aprovecho para comentar, la semana que viene también el martes tenemos el directo
del GTC. Madre mÃa, cuántas palabras, GPT, GTC. El GTC, el directo del evento de Nvidia,
donde además estamos sorteando una tarjeta gráfica 4090, que podéis vosotros participar
en ese sorteo. Tendréis la información abajo en la caja de descripción cuando acabe, la actualizaré.
Pero igualmente ya sabéis que en Twitter y en el último vÃdeo habló de todo esto y la semana que
viene empieza el GTC, que es un evento bastante interesante. ¿Qué ha pasado aqu� ¿Qué ha pasado
aqu� Pues ha salido GPT-4. Vamos a poner un poco de contexto rápido. Cuando hablamos de GPT-4,
estamos hablando de una tecnologÃa que son los enormes modelos del lenguaje, un concepto que
realmente lo ha popularizado OpenAI. OpenAI ha acogido durante los últimos años toda la tecnologÃa
de deep learning de análisis del procesamiento del lenguaje natural, tecnologÃas de otras
compañÃas, de otras investigaciones, de todo lo que la comunidad del deep learning ha ido
desarrollando los últimos años, entre ellos una de las cosas importantes, los transformers. Estas
arquitecturas de deep learning que parece que funcionan muy bien para hacer análisis masivos
de texto. Ha acogido toda esta tecnologÃa y ellos han especializado mucho en escalar el tamaño de
los modelos. Desde el primer sistema, que fue GPT, hemos tenido GPT-2, GPT-3, que aumenta el
número de parámetros una brutalidad. Aparece a finales de 2019 o en febrero, no sé, me bailan las
fechas. Pero bueno, tenemos GPT-3 y GPT-3 de repente demuestra una inteligencia artificial que tiene
capacidades para hacer un procesamiento inteligente del texto. Empieza a demostrarnos que, oye,
la inteligencia artificial pues puede ya hablar como un humano, es decir, es tan elocuente como
un humano, aprendiendo a partir de analizar muchas secuencias de texto ha llegado a ese punto,
pero además empieza a mostrarnos otras habilidades. Lo que se empieza a llamar el few-shot learning,
el in-context learning, el zero-shot learning, el poder con unos pocos ejemplos darle al sistema
un aprendizaje de lo que nosotros queremos a partir del contexto, condicionar lo que va a ser.
Y claro, cuando esto ha sucedido mientras el sistema se ha ido escalando, pues la pregunta
era ¿cómo va a evolucionar una próxima versión? ¿Qué será GPT-4? ¿Qué tan grande será? ¿Cuánto
aumenta el tamaño de GPT-3? ¿Agregará otro tipo de datos? Bueno, algunas de estas respuestas ya están
resueltas, sabemos que este sistema, lo vamos a ver ahora, es un sistema multimodal, acepta imágenes,
esto es una pasada. No sabemos qué tan grande es el sistema, se lo están callando, no quieren
decir el número de parámetros que tiene y esto es interesante, es una movida empresarial muy
interesante. A mà me duele mucho desde el punto de vista académico de la investigación del deep learning,
pero a nivel de estrategia es algo morboso, incluso. Pero bueno, aquà estamos. GPT-4,
¿qué es? Vamos a ver un poco la información que han sacado para ponernos todos en contexto.
Alguien está diciendo ¿ya se podÃa poner imágenes? No, no se podÃa poner imágenes y
os puedo justificar por qué creéis que se puede poner imágenes. A ver, dejadme un momento,
busco una imagen cualquiera. Voy a buscar una imagen, en Google imágenes. Voy a hacer una
demostración de por qué hay que tener cuidado con la inteligencia artificial. A ver, un momentito.
Vamos a ver si sale el experimento. Voy a darle un momento rápido a chat GPT. Vamos a ir a chat GPT.
Verificar que soy humano. Soy humano, tranquilos.
Vale, voy a haceros una prueba rápida. Hay mucha gente que con chat GPT se piensa que cuando tú
le coges una URL, por ejemplo, voy a coger aquà una imagen de un perro. Voy a coger de esta página
web, copiar dirección de la imagen. Le voy a preguntar, oye, ¿qué hay en esta imagen?
El imagen se muestra una ilustración de 10 diferentes sonidos que pueden hacer los perros,
con una breve descripción escrita en español debajo de cada uno de ellos. La ilustración parece
ser una representación gráfica de los diferentes tipos de latridos, bla bla bla. ¿Qué está pasando
aqu� Yo le he pasado esta imagen. ¿Entiende o no entiende? ¿Ha entendido que esta es la imagen
de un perro? No. Lo que hace el sistema, y hay que tener mucho cuidado con eso, es, fijaos en la
URL, que la URL incluye cierta información de lo que tiene la imagen. Suele ser habitual que tú en
una URL, pues si es de un artÃculo, tenga el texto alternativo puesto. Y aquà en este caso dice que
esta imagen, la URL, son los 10 sonidos principales del perro. En este caso, cuando tú le preguntas
qué hay, chat GPT, que tiene tendencia a alucinar detalles, se está inventando la información y
mucha gente se piensa, cuando además esto coincide, si uno hubiera dicho es la imagen de un perro,
tal tal tal. Mucha gente se piensa que chat GPT puede analizar imágenes. No, no puede. Ahora sÃ,
con GPT 4. Pero tened mucho cuidado porque, es lo que digo, estos sistemas son bastante engañosos.
He perdido la información de la pantalla aquÃ, por eso me estáis viendo un poco hacer el malabares,
a ver si la recupero. Y mientras tanto vamos a volver a GPT 4. A ver un momentito, esperad.
Os tengo, os tengo, os tengo, os tengo. Vale. Bueno, agradecer a todo el mundo, los que estáis donando
dinero, los que estáis dando like, agradecerÃa que le diérais a like, ahora que somos 4500
personas en directo, porque eso siempre ayuda a que la gente conozca más toda esta tecnologÃa y
conozca más el proyecto de Csv, pero muchas gracias a todos los que estáis donando también. Y bueno,
vamos a ver detalles de lo que han sacado, vamos a ponernos un poco en contexto. Y raudos y veloz,
nos vamos a ver la charla porque estoy súper impaciente, no la he podido ver y sé que ha
habido ejemplos muy churos. Una cosa interesante y que quiero que entendáis, lo que han hecho hoy
no es tanto la publicación de un trabajo cientÃfico del mundo del deep learning, sino es más la
presentación de un producto. Fijaos que aquà aparece GPT 4 dentro de la pestaña producto y
como esto lo vamos a entender, como un producto, porque os lo cuento ya, hay un párrafo en el
paper, han sacado un paper de 98 páginas, lo he podido ojear, no hay información relevante de
cómo funciona GPT 4. Lo único que han dicho es, es un modelo generativo basado en transformers,
gracias a Google por darnos los transformers for free, pero no vamos a dar ninguna otra
información técnica por la alta competitividad y por seguridad también dicen, pero bueno,
por la alta competitividad que hay en el ecosistema de enormes modelos del lenguaje. O lo que quiere
decir, como Google está esperando a que nosotros saquemos esto para ello sacar algo parecido,
no vamos a callar todo cómo funciona esto internamente, no vamos a sacar ningún preprint,
ninguna publicación que explique qué avances hemos hecho a nivel técnico, como se hicieron
en el pasado, no vamos a callar y con esto pues poco más ¿vale? Entonces vamos a entender esto
como la salida de un producto, es un producto, nos van a explicar qué es lo bueno del producto,
nos van a enseñar muchas métricas, eso sà está bien y lo bueno es que al menos en ese sentido
sà podemos confiar en que han hecho un trabajo riguroso, pero vamos a considerarlo como tal,
un producto. Entonces bueno, algunos ejemplos vamos a ver, voy a ampliar aquà la pantalla para que lo
veáis bien. Bueno, cosas que nos presenta OpenAI sobre el nuevo modelo, creatividad GPT 4,
asumimos que es más potente, asumimos que es más grande, pues tiene mayor capacidad,
más inteligencia, es más inteligente a la hora de resolver tareas y es más creativo.
Fijaos este ejemplo que me ha parecido bastante potente, con este ya me han convencido de primera
de que lo que se trae entre manos es algo bastante chulo, dice explÃcame el argumento de la cenicienta
en una frase donde cada palabra comience con la siguiente letra del alfabeto, de la A a la Z,
sin repetir ninguna de las letras y fijaos que el output que genera efectivamente es a beautiful
Cinderella dwelling eagerly finally gains happiness inspiring yellow skin bla bla bla,
pero fijaos el detalle de que cada palabra si, a b c d e f g h i j k l m n, o sea si tu me pides a
mà que haga esa tarea, me pego un tiro en la cabeza y sin embargo la IA en este caso parece
que lo hace bien. ¿Qué más cosas? input visual, oye parece que GPT 4 ahora admite imágenes y esto
abre una puerta a una dimensión por completa, que bueno es lo que explicaba en el vÃdeo de
la multimodalidad, yo parece que ya me olÃa lo que podÃa venir, multimodalidad, sabÃamos que
iba a llegar en GPT 4, se rumoreaba, yo personalmente creÃa que no iba a estar en GPT 4, me parecÃa un
salto bastante, no sé, el modelo GPT 4 al final siempre ha trabajado con texto, el tema de la
multimodalidad se ha ido comentando pero no creà que llegara tan pronto, que lo fueran a integrar,
y aquà está, parece ser que sÃ, como no tenemos detalles técnicos del paper no podemos saber si
es una multimodalidad real, porque el tema de la multimodalidad es que bueno tú usas diferentes
modos de datos, puedes usar texto, puedes usar imágenes, pero es cierto que hay diferentes
formas de hacerlo, fijaos por ejemplo en el en el caso de blip 2, tú lo que haces es, tienes un
modelo que analiza imágenes, tienes un modelo que analiza texto, y ellos lo que intentan es como
conectar las dos modalidades, no se hace esta cross modalidad, que no es exactamente una
multimodalidad pura donde el sistema en el proceso de entrenamiento se está nutriendo de tener
información de ambas partes y llega un aprendizaje más profundo, no sabemos si han hecho una
multimodalidad de ese tipo, si han hecho algo similar a lo que hicieron en blip 2, o si han
hecho algo similar a lo que se vio en el paper que sacó microsoft hace una semana, que era el
visual chat GPT, que lo único que hacÃa era conectar diferentes modelos pero poco más,
no nos importa, lo que es interesante en este caso es que parece que funciona, entonces en este ejemplo
de aquÃ, en este ejemplo de aquà le pasan esta imagen y dice, oye, con estos ingredientes ¿qué puedo
hacer? y parece que chat GPT entiende el contenido de la imagen, que hay harina, hay huevos, hay leche,
hay mantequilla, entiendo qué es, y te dice, pues mira, hay muchas opciones que puedes hacer con
estos ingredientes, pancakes, crepes, french toast, omelette, quiche, custard, cake or cupcakes,
todo esto te lo dice la IA y está bastante bastante guapo, hay un par de ejemplos más en el paper,
os lo voy a enseñar muy rápido, a ver si puedo llegar al paper sin mucho problema, vale, creo
que está abajo, fijaos que soltura moviéndome por la web, como si llevara tres horas en un avión
atrapado viendo todo lo que hay de esto, a ver, dejadme que busco paper, vale, aquà no está el paper,
está la información del paper,
a ver si en research overview
no, no lo han puesto por aquÃ, vale, deja un momento que lo abro rápido y ya está, paper GPT4
vale, aquÃ, aquà lo tenemos, vale, esta es la página web de donde explican un poco más todo lo que
está en el paper, si os leéis realmente todo este artÃculo, este blog, el de research que han puesto,
con este artÃculo directamente tenéis casi toda la información relevante del paper, mira, aquÃ
hay otro ejemplo muy bueno que quiero que veamos juntos porque me parece bastante representativo,
chat, os pregunto, os pregunto, qué es gracioso, joder, perdón, qué es gracioso de esta imagen que
voy a enseñar ahora cuando deje de bajar y subir, esto, qué gracioso de esta imagen, qué gracioso,
pues mira, aquà dice, qué gracioso esta imagen, describela panel por panel, aquà lo que están
haciendo, este input de aquÃ, este input de aquÃ, que parece tan inofensivo, realmente es la herramienta
más potente jamás creada en el último año por la IA, que es lo que se llama el chain of thoughts,
la cadena de pensamientos, que es lo que en GPT3 se comprobó que funcionaba muy bien, si tú le pides
al modelo, oye, resuélveme este problema, pero piénsalo paso por paso, cuando tú le pides que
lo piense paso por paso, como estamos tratando con modelos autoregresivos, se van apoyando en
la información anterior que han generado para generar la siguiente, entonces, si tú le pides
a GPT3 que te resuelva un problema y le dice dame la solución sin haber hecho una reflexión,
como no tiene ningún contexto sobre el que apoyarse, te descubre un resultado y posiblemente se
equivoque, si tú le pides que lo haga step by step, paso por paso, va generando un razonamiento y
esta cadena de pensamientos le permite razonar mejor la respuesta y llegar a un resultado más
correcto, pues esto de aquÃ, el describe it panel by panel, es un poco la evolución de este think
step by step, pero versión multimodal, entonces estamos viendo que hace primero una descripción de
cada una de las imágenes, primero te dice, pues mira, aquà hay un teléfono, vamos a leer la
respuesta, dice, la imagen muestra un paquete de un cable de corriente, un adaptador con tres paneles,
panel 1, un smartphone con un conector vga, te lo describo, además, largo, azul, 15 pines,
conector tÃpicamente utilizado para monitores de ordenador, que se conecta a un puerto de carga,
efectivamente, vale, segunda imagen, te dice, el paquete para el cable de tal, del adaptador con
la imagen del conector vga, perfecto, y luego la tercera, una vista cercana a conector vga con
un pequeño conector lighting que se usa, te dice entre paréntesis, que se usa para cargar iphones
en dispositivos de apple al final, vale, entonces lo gracioso de esta imagen, una vez está hecho la
reflexión de las tres cosas, te dice, lo gracioso de esta imagen viene de lo absurdo que es cargar
un conector vga antiguo y grande a un pequeño conector moderno de un smartphone, entonces te
hace toda la reflexión, entiende lo que es la imagen y te hace ese ejemplo, vale, eso es impresionante,
te hace descripciones de tablas, vale, tú le puedes pasar ahora gráficos y te explica, le puedes
pasar diagramas de un paper y responderte preguntas sobre él, el think step by step, pues parece que
aquà funciona, todo esto es una dimensión completamente nueva que hace a gpt4 algo potentÃsimo,
de hecho todo lo que puede ser capaz gpt4 todavÃa no lo sabemos, en el paper ellos explican que
toda la parte visual se desconoce aún, al final pensad que esto es nuevo, lo están abriendo al
mundo, empezaremos ahora todos a probarlo, la parte visual todavÃa no está habilitada en chat gpt,
lo habilitarán próximamente y ellos quieren sacar un paper haciendo un follow up, haciendo un
seguimiento de la información de lo que se puede conseguir con estos modelos a nivel visual que
todavÃa lo desconocemos, como digo, todos los trucos, todos los prompts, todas las capacidades
que puede haber aprendido gpt4 todavÃa son desconocidas, estos modelos además aprenden
cuando le pasas toda la parte de visión, aprenden a ser de forma automática, o sea lo aprenden ellos
solos a ser OCR, que es el tema de poder entender qué texto está puesto aquÃ, entonces imagina
sacar una foto, un documento y decirle cuéntame algo sobre este documento y a lo mejor está en
otro idioma y te puede traducir automáticamente y te puede explicar qué es ese documento, es
absurdo ¿no? ¿qué es inusual de esta foto? pues yo la veo y como ser humano digo vale hay un señor
que está colgado aquà planchando en la parte trasera de un taxi, no tiene sentido ¿vale? no tiene
sentido y te dice la cosa inusual de esta foto es que hay un hombre planchando la ropa con una
tabla de planchar sujeto al techo de un taxi que se mueve, sujeta el techo de un taxi que se mueve
efectivamente ¿vale? efectivamente fijaos el usuario dice debajo de mà hay una parte del
paper de instruct gpt ¿podrÃas por favor leerlo y resumirmelo para mÃ? o sea ya no tienes que hacer
cojo el texto lo copio lo meto no no tres fotos clac clac clac de un paper ¿podrÃas escribirmelo?
pua esto es brutal esto es brutal chicos la frase esto lo cambia todo esto lo cambia todo es la
frase de moda pero pero es cierto esto la verdad que es bastante potente y cambia dentro de lo que
es el ecosistema gpt esto abre un mundo de posibilidades yo lo decÃa antes en twitter el
que abra o sea el que invente la google glass que no es inventarla es simplemente rescatar ese
proyecto de hace 10 años quien coja la google glass y las conecta a internet y le ponga a una
camarita la conexión a la api de gpt 4 se gana el futuro porque para mà yo no necesito más yo
quiero una herramienta con la que ir por la calle sacar una foto y que me cuente cosas yo poder
preguntarle oye qué es esto traduce responde a esta pregunta cuéntame algo interesante quién
es esta persona dónde estoy qué soy quién eres vale quiero hacerle todas estas preguntas con
inteligencia artificial y eso ya para mà es ciencia ficción yo creo que estamos topando ya con él con
lo que la ciencia ficción nos prometió faltan los robots pero este punto yo creo que ya lo tenemos
bastante como sociedad como humanidad lo tenemos bastante desarrollado más cosas a comentar bueno
más novedades que tiene chat gpt e chat gpt gpt 4 mira justo que lo acabo de decir gpt 4 se parece
más a chat gpt que a gpt 3 en qué bueno gpt 4 no es solamente un enorme modelo del lenguaje no
solamente un large language model no se ha hecho solamente este proceso de cogemos un transformer
y le hacemos que aprenda a predecir la siguiente palabra sino que además por defecto esta versión
gpt 4 ya viene con el proceso de reinforcement learning from human feedback que es este proceso
de coger al enorme modelo del lenguaje y darle forma para que ciertas caracterÃsticas que no
se pueden conseguir del entrenamiento masivo que se hace se puedan conseguir por ejemplo
guarda raÃles para que el sistema sea seguro en el sentido de que si tú le pides que te cuáles
son las instrucciones para construir una bomba pues no te no te diga pues mira primer paso te
buscas estos elementos no no lo hace vale eso ya viene por defecto pulido en este sistema para
mitigar tema de alucinaciones de fake news de datos falsos sabemos que estos sistemas son propensos
a inventarse un montón de información y sin embargo han conseguido con este proceso de rl hf
han conseguido un sistema que es mucho más riguroso que chat gpt que ya era potente bueno
con este sistema han conseguido depurar muchas de las imperfecciones de este sistema fijaos que
aquà lo que estamos construyendo es una esfera vale y esta esfera lo que hace primero es coger
de todo el conocimiento de internet de mucho texto de la wikipedia de aquà de allá va generando una
bola una masa vale coge coge va agregando en esta masa y luego el proceso de rl hf es lo que le da
el pulido final le da esta forma perfecta de esfera para que se convierta en un producto que sea
adecuado para el usuario final vale eso es lo que lo que lo que serÃa este gpt 4 más detalles ventana
de contexto esto es algo super interesante también de este sistema la ventana del contexto de
contexto es la información que nosotros le podemos pasar a gpt para que para que haga
sus predicciones no el contexto la cantidad de tokens que puede ver para generar el siguiente
token esta ventana de contexto es muy importante porque por ejemplo con bing chat con chat gpt
cuando tú hablas mucho o daréis cuenta que llega a un punto en el que el sistema se olvida de lo que
hablado al principio tú le pides que te repito una pregunta del principio y a pesar de que creo
que hay algún tipo de sistema en el que van guardando una especie de resumen de lo que ha
sido la conversación vale se va generando una especie de de resumen total que sà lo podemos
agregar al contexto lo que es el contexto per se se pierde entonces la primera pregunta a lo mejor
no te la responde esta ventana de contexto te permite si la amplÃas pues tener sistemas que
hagan tareas más interesante pensad por ejemplo codex o copilot vale el github copilot github copilot
uno de los limitantes que tiene es que no puede ver todo tu proyecto de programación al completo
porque la ventana de contexto pues no le permite meter todos los ficheros que hay si tuviera todos
los ficheros podrÃa tener una visión más completa de lo que serÃa la propia programación entonces
la ventana de contexto de gpt 3 si no recuerdo mal creo que estaba por 1000 tokens 2000 aquÃ
me bailan los números perdonadme pero más o menos vale pensemos que estamos por ahà ahora mismo
gpt 4 el que habréis probado ya gpt 4 tiene una ventana de contexto de 8000 y pico tokens no está
mal no está mal de hecho creo que es la misma ventana que tiene chat gpt chat gpt creo que no
ese dato no ha trance no ha trascendido creo que puede tener 4000 y pico chat gpt no sé aquà me
bailan los números pero ahora mismo pensemos que gpt 4 tiene una ventana de contexto grandita pero
es que además en el paper indican que en una futura versión que sacarán que todavÃa están
puliendo porque el tema de ampliar el contexto parece que genera ciertas genera que el aprendizaje
o el rendimiento de gpt 4 pues a lo mejor no está del todo adaptado no sé si es exactamente por el
proceso de entrenamiento pero bueno en una futura versión será 32 mil tokens o sea puede llegar
hasta 32 mil tokens y eso es bastante eso son 50 páginas de un documento 50 páginas tú le puedes
meter un documento y gpt 4 para predecirte la frase o el resultado del input que tú lo hayas puesto
puede estar viendo en ese momento 50 puede estar viendo 50 páginas de documentos eso es muchÃsimo
muchÃsimo eso para codex y para copilot creo que puede ser un bombazo creo que estamos ante una
inteligencia artificial un modelo del lenguaje enorme que va a ser capaz de programar muy bien
y esto yo creo que empieza a rosar vamos a decir lo preocupante yo no quiero no quiero ser alarmista
porque luego me dicen es que eres alarmista con esto del trabajo bueno creo que estamos en un
punto donde gpt 4 empieza a mostrar un rendimiento interesante ellos en open AI han confirmado en
alguno de las lecturas que he visto han confirmado efectivamente que ya lo están utilizando para
programar en la empresa y es normal pero yo en el paper es que he visto una cosa que me ha llamado
mucho la atención que me ha llamado mucho la atención a ver si puedo un momento abrir el
paper a ver a ver a ver a ver podemos ver el paper si en el paper en el paper wow esto es
súper interesante esto os lo comento ahora también perdonad si estoy diciendo demasiado
tostón es que hay mucha información han sacado muchas cosas en total han sacado 98 páginas de
paper 60 páginas de model cart dos artÃculos y además los cabrones me han abierto la API el mismo
dÃa o sea que perdonad si es mucha información pero es donde estamos me ha parecido súper
interés habÃa algo que hablaba de programación en un punto
sà aquà fijaos en esta tabla están comparando a gpt 4 a gpt 4 con gpt 3.5 es decir la versión
actualizada sobre la que se basa chat gpt y con el state of the art de cualquier modelo del lenguaje
que esté publicado hablamos de llama hablamos de palm hablamos de muchas cosas entonces con el
mejor en cada caso entonces aquà vemos que para diferentes problemas es que es una barbaridad o
sea las métricas a nivel cuantitativo en muchas de las de los benchmarks que existen actualmente es
una salvajada es una salvajada razonamiento con sentido común el mejor modelo el state of the art
era llama llama con un 84% gpt 4 consigue un 95% bueno el state of the art serÃa en este caso
aquà gpt 3.5 pero bueno e consigue un 95 como a 3% razonamiento también aquà 96%
python coding coding task este es el que me ha parecido interesante
en este caso el sistema palm zero shot palm sin ningún ejemplo conseguió un 26,2% en
tareas de python en este caso se consigue un 67% esto es bastante vale veo que ellos con
entiendo con gpt 3.5 y code ticket no sé exactamente qué trabajo será conseguÃan un rendimiento
similar pero con respecto a palm que por cierto no lo hemos comentado pero hoy google google es
que les han jodido la noticia hoy han anunciado que han abierto la api bueno que la van a abrir la
api para poder trabajar con palm y justo sacan gpt 4 no sé si estaba hecho de forma intencionada
pero bueno es bastante impresionante el rendimiento que genera para que para que
os deis cuenta la evolución de chat gpt que para muchos es un sistema bastante potente creo que
todos aquà lo hemos probado y sabemos que un sistema bastante que rinde bastante bien hay
una frase aquà en el paper que me ha generado como como cosita no que decÃa aquà dice uno de los
principales objetivos al desarrollar este tipo de modelos es mejorar la habilidad de entender y
generar lenguaje natural particularmente en escenarios complejos para testear estas habilidades
en estos escenarios gpt 4 ha sido evaluado con una variedad de exámenes originalmente
diseñados para humanos en estas evaluaciones el sistema gpt 4 rinde bastante bien y en muchas
ocasiones sobrepasa la mayorÃa de los de los que lo han testeado humanos por ejemplo en un
examen simulado gpt 4 consigue una puntuación que se sitúa se sitúa en el 10 por ciento de
los evaluadores humanos es decir de todos los que se han presentado gpt 4 está en el 10 por
ciento de los mejores en contraste gpt 3.5 puntúa en el 10 por ciento de los peores esa es la
evolución que tenemos aquà con gpt 4 vale bastante bastante potente bastante bastante potente
entonces si habéis probado gpt 4 hoy tenéis que entender dos cosas que tenéis que entender una
cosa que está relacionada con las dos que hemos comentado no es el sistema tan potente como podrÃa
ser tenéis que esperar que los próximos meses gpt 4 se vaya abriendo a una ventana de contexto
incluso mayor 4 veces mayor de lo que tenemos ahora 32 mil y además habilitarán en un futuro
próximo que eso va a ser la salida de un nuevo universo de gpt 4 que va a ser toda esta dimensión
de la multimodalidad y que acepte imágenes eso está guay vamos a vernos la ponencia de open
y hay en directo ya os digo la vamos a comentar en directo yo no la he visto todavÃa y me hace
bastante ilusión verla con vosotros y reaccionar en directo porque bueno es lo que digo es un
momento histórico lo probaremos lo probaremos pero lo probaremos al final voy a poner esto
vamos a parar la música vamos a parar la música somos 7.700 personas en directo podéis darle
a like ahora mismo todos y me tumbáis el directo vale podéis darle a like hay 2.500 likes yo creo
que podéis hacerlo mejor podéis también apoyar este canal con vuestras donaciones y vamos a ver
en directo la presentación que creo que ha habido algunos ejemplos muy interesante puede subir el
volumen del desktop y decirme decirme decidme ya habla mejor gpt 4 que yo decidme si se oye bien
a mi voz y al directo
vale yo no lo estoy oyendo yo no sé si vosotros lo estáis oyendo pero yo no lo digo este creen
que brockman para ahora sÃ
este es el cofundador de perdón que voy a comer este es el cofundador de de open y hay
junto a sam allman este es la otra persona que está creando el futuro
una cosa para el que lo haya visto ya es un directo no se ha sido un directo entiendo
esto porque por un momento me ha parecido tan bonito que no sé si era un vÃdeo o si está
pre grabado pero no hay subtÃtulos no podemos poner subtÃtulos no hay
dice lo que vamos a ver es una de las habilidades que con gpt 3.5 nunca conseguimos que hiciera
vale que ellos cuando han ido desarrollando el sistema pues siempre han tenido como una especie de
tarea para testear si lo que han sacado el modelo que han generado realmente rinde o no rinde no es
como una especie de benchmark con una tarea y yo tengo una que cuando lo probemos la quiero
comprobar porque no lo he visto nunca en directo es el famoso acertijo del paper de palme quiero
ver si funciona si funciona para mà esto ya esto ya empieza a molar bastante preguntáis cuántos
parámetros tiene gpt 4 al final no se sabe es que no se sabe ese es el problema no lo han dicho no
quieren decir o pero nunca realmente llegaron a 3.5 asà que voy a copiar el topo de nuestro blog
post de hoy voy a ponerlo en nuestro play ground ahora este es nuestro nuevo playground de completación
que salió hace dos semanas voy a mostrarles primero con gpt 3.5 4 tiene el mismo api en
el mismo play ground la forma en la que funciona es que tienes un mensaje de sistema donde explican
al modelo lo que se supone hacer y hemos hecho estos modelos muy steerables asà que
puedes proveerlo con realmente cualquier instrucción que quieras lo que quieras y el modelo
se adhiere a él bastante bien y en el futuro se hará más y más poderoso
al manejar el modelo muy confiadamente puedes luego apagar lo que quieras como usuario lo que
estamos viendo aquà es la interfaz de chat gpt que sacaron hace poco en el play ground vale que
es súper guay para para poder generar como vuestros propios scripts de chat gpt con la api
lo han sacado entonces tú puedes coger con el tema del sistema puedes configurar cómo quieres
que se comporte entonces luego aquà el sistema responderá nos va a demostrar primero como chat
gpt falla en esto y luego creo que nos van a intentar enseñar como gpt 4 lo borda y en este
caso vemos que la instrucción que ha puesto es eres chat gpt un enorme modelo del lenguaje
entrenado por apn y ahà siguen las instrucciones con cuidado y aquà le está poniendo bastante
información o return messages as an assistant and the way to think of it is that we're moving away
from sort of just raw text in raw text out where you can't tell where different parts of the
conversation come from but towards this much more structured format that gives the model the
opportunity to know well this is the user asking me to do something that the developer didn't attend
I should listen to the developer here all right so now time to actually show you the task that I'm
referring to so everyone's familiar with summarize this article into a sentence okay getting a
little more specific vale de momento es la tarea que nunca ha conseguido hazme un resumen de esta
de esta de este artÃculo en una frase where every word begins with g vale vale vale si
mola esta es la tarea que no ha conseguido hacer bien con con chat gpt 3.0 con chat gpt o con gpt
3.5 a mi un resumen de este artÃculo donde cada palabra empieza con la letra g
y vemos que falla no sea ni lo intentado ha empezado con la g de gpt 4 no está mal pero
el resto ha sudado
fijaos fijaos a la derecha gpt 4 32k qué cabrones ellos sà pueden qué maravilla tiene que ser ahora
mismo trabajar en open a la fábrica de willy wonka este es el modelo de gpt 4 el de la ventana de
contexto de 32.000 vale este es el la versión más potente del sistema por o a ahà está se ha
equivocado en una pero tampoco podÃa ser más no dice gpt 4 genera its groundbreaking grandiose
gains great legal vanizing generalize it ai goals muy guapo so kind of borderline whether you want
to count ai or not but so let's say ai doesn't count that's cheating vale le va a decir la ella la
palabra ella hay que en este caso no empieza por g no cuenta está haciendo trampas
so fair enough the model accepts my feedback bueno no lo quita lo galvanizing global goals que
guapo to make sure it's not just good for g's i'd like to turn this over to the audience i'll take
a suggestion on what let's try next a cada una escalofrÃo de ver esto está esta capacidad
in the meanwhile while i'm waiting for our moderators to pick the lucky lucky letter
i will give a try with a
que fuerte but in this case i'll say gp4 is fine why not
de nuevo
ya podrÃais hacer un resumen del artÃculo de gpt 4 usando sólo la q en español por ejemplo
o sea a nivel de yo mi cabeza ya se tope o sea soy incapaz de plantearlo tendrÃa que
sentarme a hacer como una especie de de pool de palabras con q y intentar conectarlas dirÃa
que es que en español además creo que más complicado bueno no lo sé querÃn querÃn
querÃn querÃn es que lo quiero llevar como al transformer querÃn querÃn es
no es fácil
es bastante bueno wow wow gpd 4 que la quinta es la quinta esencia de gpt 4
quickens no sé exactamente cómo se traduce no sé si es como rápidamente quality quantification
o sea evidentemente el sentido pues se pierde mucho pero bastante bien cual
incuestionable cuando es
vale vale en este caso es un artÃculo que han cogido de
ha dicho la web pero se me ha pirado un artÃculo que han cogido y en este caso es
búscame una relación entre esto y gpt 4
sube el volumen, sube el volumen
sube el volumen, sube el volumen
me estas pidiendo que sube el volumen, ahi esta
gracias faber por el apoyo con el dinero y gracias a todos los que habéis apoyado que veo que soy bastantes
claro, puedes pedir cualquier otro tipo de tarea que quieras
usando su lenguaje flexible, comprensión y sÃntesis
puedes pedir algo como
ahora turn the gpt 4 blog post into a rhyming poem
vale wow, convierte el artÃculo de gpt 4 en un poema que rime y te dice
en un mundo donde las sillas, bueno en ingles
in a world of AI advancing so fast, gpt 4 has arrived, leaving the past
a multimodal model, image and text, human level performance, leaving all perplexed
month, aligning, lesson, draw, wow, ostias que muy bueno eh
o sea en un mundo donde la AI avanza muy rápido, gpt 4 ha llegado dejando el pasado atrás
un modelo multimodal, imagen y texto, al nivel del humano
son rendimiento en nivel humano, dejando a todos perplejos
meses de alineamiento, lecciones aprendidas, de test adversarios hasta el nacimiento de chat gpt
fixing the bugs, turning the page
capabilities now in chat gpt and api, image input, partner standard
brutal eh
vale acaba de decir que si queréis contribuir que han hecho como
una especie de, sacado un framework para generar como evaluaciones
y podéis contribuir a ellas, es open source
y podéis generar evaluaciones para testear y hacer benchmarks sobre gpt 4
asi que creo que gary marcus va a estar contento porque lo han hecho los deberes
ahi ya puede meter todos sus formas de romper al sistema
hoy gary marcus creo que tiene que estar un poco mas preocupado o mas triste
porque bueno el sistema hasta que lo consiga romper
parece mucho mas robusto
ahora lo que esta mostrando es de nuevo como podeis construir con esta herramienta
pensad que la api de chat gpt que salio hace ya una semana y media dos semanas
es una herramienta tan brutal, yo creo que a nivel de desarrollo
todavia hay mucha gente que no lo sabe, es una de las herramientas mas brutales que ha salido
porque hace muy facil el trabajo de construir herramientas que antes requeria mucho trabajo
y lo vamos a ver ahora, con un pequeño prompt de sistema
le das la personalidad que quieras al chatbot
y ya luego con eso ya tienes simplemente la llamada a la api
ya puedes generar cualquier cosa
es una autentica pasada
no seria maravilloso tener como alguna especie de formacion
de cursillo, algo que te enseñe a usar toda esta tecnologÃa de forma correcta
bueno, hablaremos pronto chicos
vale, voy a actualizar el video porque me habia dicho que han activado los subtitulos
el pod es escribir cosas en suelo de código primero
y luego escribir el código
y esta approach es muy útil para dejar que el modelo
rompe el problema en piezas mas pequeñas
y de esa manera no te pones con una solución super duro para un problema en una sola vez
también hace que sea muy interpretable porque puedes ver
exactamente lo que el modelo estaba pensando
y puedes even dar correcciones si quieres
aqui esta el prompt que vamos a pedir
este es el tipo de cosa que 3.5 podrÃa totalmente chocar
si lo has intentado
vamos a pedir a un discordbot
que utilice la api gpd4
para leer imágenes y texto
ahora, hay un problema
que es que este modelo de entrenamiento
es en 2021
lo que significa que no ha visto nuestro nuevo formato de completación de chat
asà que literalmente fui a la post de blog de dos semanas ago
copiado y pastado de la post de blog, incluyendo el formato de respuesta
no ha visto la nueva imagen
vuelve a ser la misma que la de gpt3
no han aprovechado todo lo que la vida ha aumentado
el contenido de internet se ha seguido generando
tienen incluso nuevas fuentes para extraer mas datos
pueden sacar con whisper un montón de datos de youtube
esto lo especulamos en el video de whisper
y sin embargo parece que la fuente que han utilizado
parece ser que es la misma, porque tiene el corte en 2021
lo cual me sorprende
en este caso esta hablando de que para crear este bot
pues que va a necesitar de alguna forma
explicarle como funciona la API de chat gpt
porque claro, no tiene conocimiento de como es la API de chat gpt
puesto que la API de chat gpt salió en 2023, no en 2021
en general estos modelos son muy buenos
en usar información que se ha entrenado
en nuevas formas y sintetizando nuevos contenidos
y puedes ver eso aquÃ, que en realidad escribió un nuevo bot
ahora, vamos a ver si este bot va a funcionar en práctica
es que estos sistemas realmente
tu usas la base de datos para pre-entrenar
para que aprenda el lenguaje
yo creo que para aprender el lenguaje, leerte
pues todo lo que haya escrito internet hasta 2021 es suficiente
y luego, para hacer esta herramienta algo eficiente
y seguramente ocurrirá en un futuro cercano con chat gpt
al igual que ha pasado con bingchat
es que lo que tienes que hacer es conectarlo a internet
cuando lo conectas a internet
ya tiene acceso a fuente mas actualizada
que puede añadir en el contexto
puede hacer búsqueda de información
lo puede agregar en su ventana de contexto
y con eso se puede basar para darte una respuesta actualizada
no hace falta que el modelo
internamente en sus parámetros
tenga aprendido todos estos datos
simplemente hace falta que sepa manejarse con esta información
que sepa entender el lenguaje
y sobre esto luego, pues, hace el resto
trabaja con la información que le pasemos como contexto
y una cosa a notar
es que el api de discord
ha cambiado mucho por el tiempo
y en particular, hay una función
que ha cambiado mucho
desde que este modelo fue entrenado
dame un try
en realidad, si, estamos perdiendo el keyword intenso
esto es algo que surgió en 2021
ya pasa el mensaje de error
y lo adapta
que esto, en la forma en la que yo trabajo
con JavaScript
ya pasa el mensaje de error
y lo adapta
esto, en la forma en la que yo trabajo
con JavaScript
otro error
esto, el que haya programado
se ve que la realidad
resuelve a un error, cuando pasas al siguiente
estás avanzando, aunque vuelvas a tener un error
espero que esta demo la hayan testeado
porque no sé cuántos errores podrÃan admitir
esto es un mensaje de error inscrutable
si no has usado Jupyter Notebook
con async.io antes
probablemente no tienes idea de lo que esto significa
pero afortunadamente
una vez de nuevo
puedes decir al modelo
hey, estoy usando Jupyter
y me gustarÃa hacer esto funcionar
y lo arreglas
y el problema especÃfico es
que hay...
es decir, si yo esto se lo doy a alguien
que no se va a programar
este mensaje no sabrÃa escribirlo
es decir, inferir que desde el error
runtimeerrorasync.io.run
no puede ser llamado
deducir que es un problema del propio
Jupyter, pues eso ya es algo más complicado
pero bueno
incluso nos ayuda a decir
oh, estás funcionando en Jupyter, pues puedes hacer
este bang pip install para instalar el package
si no lo tienes ya, eso es muy útil
el loop en un bucle
si se ejecuta y el código
te da un error
ese error se pasa como imputada tal
y que se vuelva a generar una respuesta
y asà iterativamente hasta que
llega un resultado
puedes conseguir
que la tasa de acierto de estos sistemas
seguramente los benchmarks
serÃan muy superior
porque resolverÃa muchos de los problemas
donde caerÃa
y ahora está funcionando
la primera cosa que haré
es ir a nuestro Discord
y
voy a agregar
un screenshot
de nuestro Discord
recuerda que GPT-4 no es solo
un modelo de lenguaje, sino también
un modelo de visión
en realidad puede aceptar inputs flexibles
que interponen imágenes
y texto arbitrariamente como un documento
ahora
la fuente de imagen...
...
...
y parece una cosa volunteerar
la primera cosa que haré
es
ere Steuer
y agregaré
un screenshot
de nuestro Discord
recuerda que GPT-4
no es solo un modelo de lenguaje
sino también
un modelo de visión
de cómo aceptar en
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
....
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...