This graph shows how many times the word ______ has been mentioned throughout the history of the program.
¡Hola chicos y chicas! ¿Qué tal estáis? ¡Bienvenidos a un nuevo directo a DOTS SV!
Perdonadme de primeras varias cosas. Una es el audio. Este micrófono se jubila hoy, llega micrófono nuevo.
Bien, el audio del canal va a mejorar. Segundo, mi voz. Mi voz. Estoy, llevo una semana con gripe y tengo la voz fatal.
Además, hoy querÃa cubrir este tema con un vÃdeo, no con un directo. Con lo cual me he grabado dos horas.
He hecho la grabación entera de todo el metraje. Cuando me iba a poner a editarlo he dicho, es que se escucha mal.
Me falta energÃa porque no termino de hablar bien cuando estoy grabando porque tengo a voz rara.
Bueno, fatal. Fatal. Pero aquà está la actualidad y el análisis. Estoy griposo, ¿vale? No voy a contagiar, eso es lo bueno.
Pero nada, simplemente, estamos aquà hoy reunidos, hermanos y hermanas, porque Meta lo ha vuelto a hacer.
Meta ha vuelto a revolucionar el mundo de la inteligencia artificial, el panorama de los modelos open source, en concreto los modelos de lenguaje,
que es quizás de todas las posibles lÃneas de investigación que hay en el mundo de la inteligencia artificial,
la que ahora mismo es más popular tras el boom de chat GPT y todo lo que ha venido a posteriori.
Y aquà Meta, pues está jugando un juego que es bastante interesante y que vamos a estar comentando con la salida de este nuevo modelo.
Vamos a analizarlo, ¿vale? Quiero situaros primero, ¿qué es esto de llama?
Ya habéis visto los vÃdeos, tenemos vÃdeos en el canal cubriéndolo, pero es muy interesante porque estamos en una tercera versión de una familia de modelos,
de una generación de tecnologÃas que cada vez que salen ponen todo patas arriba, ¿vale?
Y a lo mejor no es tan evidente porque luego es cierto que lo que es la marca llama se diluye,
pero eso sigue teniendo efectos importantes en mucho de lo que está pasando hoy en dÃa.
Entonces, nos situamos, finales de 2022 sale ChatGPT, ChatGPT explota, pone en valor todo lo que la tecnologÃa de Deep Learning lleva durante años
investigando en el campo del procesamiento del lenguaje natural y de repente pone en valor que los modelos de lenguaje,
más allá de generar texto, pueden servir dentro de asistentes de chatbots para resolver tareas inteligentes.
Muy guay, todo el mundo le gusta ChatGPT, OpenAI le sorprende y de repente la comunidad open source que ya venÃa calentita del pasado,
pues ya venÃa calentita porque con la parte de generación de imágenes en 2022 habÃamos conseguido con Stable Diffusion
tener un modelo en abierto que competÃa con lo que OpenAI ofrecÃa.
Pues ahà envalentonada decÃa, oye, ¿podemos entrenar nosotros nuestro propio ChatGPT OpenSource?
Y esto es una cosa que a principios de 2023 no se sabÃa si se iba a poder conseguir.
Recordaréis que desde el canal impulsamos iniciativas como la de Open Assistant, creo que se llamaba,
que era una iniciativa donde recabamos datos, se entrenó a un modelo,
pero que al final la realidad ha hecho que esa iniciativa, pues no hiciera falta y al final ya no ha continuado,
se ha descontinuado porque tenemos opciones open source a punta pala.
Y gran parte del motivo de que exista...
Me voy a alargar un poquito el micrófono.
Y gran parte de que exista esta revolución de tantos modelos open source es culpa de Meta.
Meta a principios del año pasado, en febrero de 2023, el año pasado, es que parece que ha pasado 5 o 6 años,
no, no, el año pasado, a principios de 2023 saca un modelo open source, bueno, open weights,
libera los parámetros de un modelo que en principio iba a estar destinado para la comunidad cientÃfica
y solo se podÃa acceder a través de un formulario.
A los pocos dÃas, ese modelo ya estaba en el torrent, ya se habÃa filtrado.
Y en ese momento, pues ya no tienes control.
Evidentemente, aquà hay quien todavÃa duda, si sÃ, si no, yo tengo claro que Meta sabÃa lo que iba a pasar.
Lo que por un tema de, bueno, por evitar que se hablara sobre si estaban liberando una tecnologÃa peligrosa,
el año pasado esto era un poco más sensible que lo que es ahora, pues por eso mismo intentaron hacerlo,
yo creo que de esta forma un poco rara.
Cuando sale Llama, lo que Llama permite es que la empresa Meta ha hecho ya esa inversión de dinero,
ese preentrenamiento que es la parte más costosa de entrenar a esta tecnologÃa,
y se la ha dado a la comunidad para que la comunidad ahora pueda hacer con ello lo que quiera.
Para que pueda hacer fine tunings, para que puedan hacer optimizaciones,
para que puedan hacer versiones diferentes del modelo, lo que quieras.
Y esto es súper interesante porque permitió que empezara a explotar y a eclosionar
toda esta industria de los modelos open source que hemos visto durante 2023.
Salen modelos, sale Falcon, salen Vicuña, salen, bueno, Alpaca, ¿no?
Un montón de alternativas de modelos de diferentes organizaciones,
y Meta se da cuenta de que esta estrategia le ha funcionado muy bien,
porque tiene de repente a toda la gente trabajando para desarrollar y mejorar modelos,
que son los modelos que luego ellos también van a utilizar en sus propios servicios y aplicaciones.
En WhatsApp, en Instagram, en Facebook.
Es la estrategia perfecta para Meta.
Tengo a todo el mundo trabajando para nosotros y además nos aplauden.
Mark Zuckerberg ha pasado de ser un reptiliano raruno a un señor que tú le ves ahora y dices,
tÃo, este tÃo mola, este tÃo nos cae bien.
Esa es la estrategia que está siguiendo Meta, ¿vale?
Entonces esto es muy interesante porque ya Meta se pone este sombrero y dice,
vale, como no puedo por ahora competir con los mayores,
los mayores el año pasado era Microsoft con OpenAI y Google,
que estaba ya entrenando su sistema Gemini,
y dice, bueno, pues me meto en el partido, cojo la pelota, le doy una patada y aquà no juega nadie.
Rompo el tablero, tiro el tablero y vengo yo con mis modelos en abierto e intento fastidiaros la fiesta.
Llama era bastante competitivo para lo que tenÃamos en aquel entonces,
pero en marzo del año pasado sale GPT-4,
cambian las tornas, el modelo más potente jamás visto,
y desde ese momento los modelos privados siguen mejorando
y Meta hace su segundo movimiento.
Aparece Llama 2 en verano.
En julio de 2023 aparece la segunda versión de Llama.
Una versión mejor que la primera con un cambio que de nuevo pone todo patas arriba.
El modelo, que antes era de licencia para uso no comercial,
pasa a tener una licencia comercial.
Esto significa que ahora cualquiera que descargue el modelo,
puede integrarlo en sus productos, puede integrarlo en sus servicios,
puede sacarle partido, puede montar negocio, puede aprovecharlo económicamente.
Esto es un cambio de paradigma brutal,
porque esto incentiva mucho el investigar este tipo de tecnologÃas
y las vuelve mucho más atractivas.
El tener un estándar abierto, que podemos todos trabajar con él,
que podemos modificar, que podemos integrar en nuestros proyectos,
hace que el modelo Llama se vuelva la hostia.
Y de ahà empiezan a aparecer más modelos, empiezan a aparecer nuevos actores,
aparece la gente de Mistral, aparece la gente de CogÃar,
aparece Antropic también como modelo privado, empieza a desarrollar más, más, más, más.
Y ahora sà damos un salto, 10 meses más tarde, desde julio del año pasado,
hasta el dÃa de ayer.
El dÃa de ayer, casi casi un año más tarde,
nos trae una nueva actualización del modelo Llama,
y aparece Llama 3.
Y la pregunta de millones, Carlos, Llama 3 es mejor,
es un modelo que revoluciona, es un salto incremental,
¿qué es Llama 3?
Pues Llama 3, señoras y señores,
Llama 3 es un modelo.
Vamos a dejarlo ahÃ, en que es, ostras, ostras.
Y quiero que veamos un poquito lo importante.
Bueno, tenemos que entender, la salida de Llama 3,
Llama 3 no es en concreto ningún modelo,
sino es una familia de modelos que cumplen unas caracterÃsticas comunes,
que en este caso es la arquitectura, los dataset con los que se han entrenado y tal.
En este caso, como sucedió con las versiones anteriores,
Llama 3 viene con cuatro modelos, ¿no?
Empezamos a abrir los regalos de Navidad y Meta nos ha regalado cuatro modelos nuevos.
Dos modelos, como era habitual, que son los modelos base,
esto es, cuando tú entrenas un modelo de lenguaje,
los modelos encargados de aprender a predecir el siguiente token de texto, punto.
No son chat GPT, son GPTs, ¿vale?
Son la parte de aprender a continuar una frase,
aprender a predecir la siguiente palabra.
Y luego están los modelos Instruct.
Los modelos Instruct son los modelos que ahora sà han sido fine-tuneados
para cumplir esta labor de chatbot asistencial.
Con lo cual tenemos dos categorÃas de modelos.
A vosotros la que más os va a interesar es la segunda categorÃa,
porque es la que normalmente se utiliza en la mayorÃa de servicios.
Perplexity, Hugging Chat, no sé, servicios de IA,
cuando vosotros habláis con el chatbot,
estáis hablando con los modelos Instruct.
Y luego estos modelos tienen dos tamaños.
Un tamaño pequeño, un tamaño mediano y un tamaño grande, ¿vale?
En la familia de Llama 2, en la segunda generación,
tenemos tres tamaños, el pequeño, el mediano y el grande, ¿vale?
El Happy Meal, el menú normal y el menú Big Mac.
El pequeño, en Llama 2, era el de 7 billones de parámetros.
Perdón, 7 mil millones de parámetros.
El mediano era 13 mil millones de parámetros.
Y el grande era 70 mil millones de parámetros.
Pues ahora tenemos un modelo que es 8 mil millones de parámetros,
el pequeño, y un modelo que es el 70 mil millones de parámetros.
¿El grande?
No, no es el grande.
Es el mediano.
El mediano de antes, o sea, el mediano de ahora era el que antes era el grande,
el de 70 mil millones de parámetros.
Y Carlos, si este es el mediano, ¿cuál es el grande?
Nos sujetamos a la mesa.
Nos sujetamos a la mesa, chicos.
¿Estáis agarrados?
Carlos, el grande es un modelo de 400 mil millones de parámetros.
Carlos, ¿no te he entendido cuánto?
400 mil millones de parámetros.
Carlos, ¿qué satura el micrófono?
400 mil millones de parámetros.
Esto es un modelo que, si lo pensamos, es 2 o 2,5 veces el tamaño de GPT-3, por ejemplo.
¿Vale?
Si lo pensamos, GPT-4 es un modelo de 1,8 billones de parámetros.
Billones con B.
Pero es un Mixtor of Expert.
Es decir, es un modelo que los parámetros activos que tienen, como recordaréis del vÃdeo que os enseñé de Mixtor of Expert,
no se activan todas las partes del modelo, sino que se activan solamente ciertas partes en cada inferencia.
Los parámetros que se activan en GPT-4 son 220 mil millones de parámetros.
Y estamos hablando de que Meta ha sacado un modelo, o va a sacar un modelo, de 400 mil millones de parámetros.
O sea, en parámetros activados casi lo duplica.
De hecho, es 405 mil millones de parámetros.
Es una locura.
Es una locura.
400 mil millones de parámetros.
¿Vale?
Vamos a hablar de esto ahora, pero bueno.
Quiero que veamos un poco lo importante que es el...
A ver dónde está la información.
AquÃ.
Quiero que veamos que también rinden los modelos, porque esto también es bastante interesante.
SÃ, billones en...
O sea, 1,8 cuando digo billones es porque en inglés es trillions.
GPT-4.
1,8 trillions.
En español, 1,8 billones.
Cuando digo mil millones es porque en inglés es billones.
Es un follón, pero bueno, asà es como ha surgido la cosa.
Entonces, fijaos.
¿Qué tan bien rinden estos modelos?
Pues bastante, bastante bien.
El modelo grande lo dejamos para luego.
El modelo pequeño simplemente tenemos que darnos cuenta de lo siguiente.
El modelo de 8 mil millones de parámetros, el 8B, lo tenemos aquÃ.
Si lo comparamos con modelos de su categorÃa, los revienta.
¿Vale?
Pensad, modelos de su categorÃa.
Gema, de Google, es el modelo open source que ellos sacaron siguiendo una estrategia similar a Meta.
Es un modelo de 7 mil millones de parámetros, más los parámetros de embedding, 7, algo.
Mistral, 7 mil millones de parámetros, en la misma categorÃa.
Estos dos modelos para diferentes benchmarks, que son, bueno, pues ya sabéis, conjuntos de pruebas que intentan evaluar el conocimiento general de los modelos,
su capacidad de razonamiento, HumanEval, pues pruebas de programación, matemáticas, bueno, todo tipo de pruebas.
Entonces, fijaos como el modelo de Meta, 8 mil millones de parámetros, misma categorÃa, consigue un rendimiento, bueno, bastante bien, puntos porcentuales por encima,
aquà un 10% por encima, un 15% por encima, pero es que cuando vamos bajando estos evals, de repente, duplica, ¿vale?
Casi el doble, más del doble, ¿vale? Más del doble, más que el triple, en este caso, ¿ok?
Un modelo de la misma categorÃa. O sea, el modelo 8B, en estas capacidades evaluadas, bastante, bastante bestia.
Y a la derecha, quizás más interesante, tenemos el modelo 70B. Y fijaos que el modelo 70B, a ver si hago un poco más de zoom, ahà está,
de nuevo supera, en algunas caracterÃsticas, en otras las iguala, a modelos comerciales, modelos privados como Google Gemini Pro,
1.5, o Cloud 3 Sonnet, que son modelos bastante, bastante competentes. Modelos bastante, bastante competentes.
Son los modelos que están en la familia intermedia, ¿vale? De la suite, pues, en este caso de Cloud, están los tres tamaños, pues,
el modelo intermedio de meta compite con el modelo mediano de empresas privadas.
Recordemos, un modelo que podéis descargar y podéis utilizar en vuestro ordenador, si tenéis la capacidad computacional para moverlo.
Es una pasada. Esto es una pasada, ¿vale? Esto está bastante bien, porque pensad que este modelo, como es costumbre,
los modelos llama, luego van a pasar a ser la base de muchos otros modelos que van a ir apareciendo las próximas semanas
y los próximos meses. Modelos que van a mejorar, van a sacar más rendimiento, pues, en programación, en matemática,
van a reentrenarse con mejor calidad de datos, diferentes cosas. Con lo cual, tener de base un modelo de este tipo
es una muy buena noticia. Es una muy buena noticia. Modelos que, por ejemplo, el 8B ronda los 6, 7, 8 GB de tamaño,
ahora vamos a comentar esto. Y el modelo de 70, pues, creo que está en unos 40, 40 y pico GB, ¿vale?
El grande, obviamente, no es para todos los tipos de hardware, aunque hay opciones cuantizadas que van a reducir este tamaño
para que podáis utilizarlo en vuestro hardware, quienes tengáis una tarjeta medianamente potente,
pero el pequeño es bastante competente y el grande es un muy buen punto de partida para mucha de la tecnologÃa
que la comunidad va a desarrollar ahora.
No solo tenemos que fiarnos de los EVAL y de los benchmarks, al final pasa muchas veces que los benchmarks son un poco tramposos,
porque a veces se suelen filtrar algunas de estas métricas dentro.
Entonces, quiero que veamos otros datos que notan por aquÃ. Por ejemplo, este me parece interesante,
que es en una evaluación humana, si yo os pongo a vosotros dos pruebas diferentes, o sea, dos resultados diferentes,
¿qué resultado preferÃs en cada caso? ¿El de Meta Llama 3.70B o el de otro modelo privado?
Entonces, aquà vemos que para los modelos de Cloud, para los modelos Mistral, Medium y para el modelo GPT 3.5,
y obviamente para el modelo Llama 2, los usuarios han preferido, tienen preferencia, por el modelo de Llama 3.70B.
Lo cual, de nuevo, pues también está bastante bien. En un 60% de la PS, 63,2, 63,7, bastante, bastante bien.
Y en este listado, puesto que no está Google Gemini, intuyo que en ese caso, Google Gemini en evaluaciones humanas,
pues estarÃa seguramente un poquito por encima de Meta Llama 3. ¿Vale? Bastante, bastante bien.
Y luego, otra que podemos evaluar, que tengo por aquà abierta, que siempre nos tenemos que fiar,
es el famoso LLM Arena. Vamos a ver.
Que este es lo mismo, ¿no? En abierto, pues, ¿cuál serÃa entre dos resultados lo que la gente está votando más entre diferentes modelos?
Y aquà podemos ver que, si ya está actualizado, Llama ya se sitúa en la posición 70B.
La posición 70B, la cabeza ya me falla. En la quinta posición, ¿vale? Casi, casi a la par con Clot 3 y por encima de Command R+,
que es un modelo que era bastante competente y que estábamos todos celebrando hace dos semanas en Twitter.
Que si no recuerdo mal, creo que es un modelo de 120.000 millones de parámetros, si no recuerdo.
Pues, Llama 370B se pone por encima. ¿Vale? Os paso la página del ranking, que la estáis preguntando por el chat, para que la tengáis.
Y luego, una cosa que estaba viendo ahora, y esto es interesante comentarlo, en inglés parece que el modelo incluso es mucho más competente.
Pasa que, mira, fijaos, bueno, bueno, amigos. Si nos ponemos solo en la categorÃa en inglés, ¿vale? Los votos de prompts basados al inglés.
En este caso, Llama se pone en primera posición con GPT-4. Y Clot baja bastante, Gemini baja... ¡Ojito! ¡Ojito a esto, eh! ¡Ojito a esto!
¿Ehm... Esto por qué sucede? ¿Por qué en inglés parece que ocupa una posición superior? Pues porque el modelo ha sido principalmente entrenado en inglés.
Esto es una cosa que, desde nuestro punto de vista, podrÃamos criticarle como un punto negativo al modelo, y es que el 95% de los datos utilizados son datos en inglés.
Eso hace que el modelo tenga preferencias para funcionar mejor en este idioma, y a lo mejor si lo habéis probado en español o en cualquier otro idioma, habréis comprobado que no es tan bueno.
Esto es un punto negativo y esto nos instruye a utilizar el modelo, sobre todo en inglés, si queréis.
Igualmente, Meta ha prometido que a futuro, con la salida del modelo grande, que todavÃa se está entrenando, y con otras cosas que van a sacar,
van a sacar modelos multilinguajes, con lo cual ahà el español podrá estar mejor representado, y modelos con multimodalidad también,
que es otra cosa que le falta al ecosistema de Meta, ¿no? Entonces, en ese sentido, pues es súper, súper interesante.
¿Ok? Y quiero aprovechar, ya que estamos, para mostrar también el modelo grande, porque tremenda bestialidad nos la podemos dejar sin mirar.
¿Vale? Entonces, fijaos. El modelo grande es este de aquÃ, el de 405.000 millones de parámetros.
Este modelo todavÃa se está entrenando. TodavÃa se está entrenando. Y es un modelo que si comparáis estos evals que nos están poniendo aquÃ,
el famoso MMLU, el GPQA, Human Evals, si lo comparáis con GPT-4, con la versión más avanzada, si lo comparáis con Cloud Opus,
son modelos que están casi casi a la pala. No están por encima, está, bueno, un poquito por debajo, pero es un modelo que se sienta en la mesa
de los mayores. Y es un modelo que, recordemos, en principio van a liberar. ¿Quién lo va a utilizar? Ni idea.
Porque esto, 400.000 millones de parámetros, pues será un modelo para industria, ¿vale? Para grandes requisitos de hardware.
Pero es un modelo que ya compite cara a cara con GPT-4. Es decir, vamos a acabar el año con un modelo open source
con el rendimiento de GPT-4. Y esto es importante. ¿Vale? Y ojo, todavÃa se está entrenando. Estos evals los han sacado
con un checkpoint a dÃa de ayer del entrenamiento que están teniendo. TodavÃa puede mejorar.
Otro punto negativo que lo acabo de leer en el chat, muy bien. Ventana de contexto, muy baja. 8.000 tokens.
La ventana de contexto, ¿cuánta cantidad de información le podemos pasar al modelo para que procese cuando le damos?
8.000. Esto duplica lo que Llama 2 ofrecÃa. Está muy bien. El problema aquà es que una ventana de contexto
de 8.000 a dÃa de hoy, para los estándares de hoy, es muy poquito. GPT-4, cuando salió, tenÃa 32.000.
Actualmente, OpenAI ofrece 128.000. Creo que Antropic ofrece, no sé si era también lo mismo, 128.000,
pero ampliable a un millón. Google ofrece un millón ampliable a 10 millones internamente.
Es decir, no es una ventana de contexto con la que se pueda trabajar para muchas de las cosas
que a dÃa de hoy se están haciendo. Aún asÃ, seguramente lo acaben solucionando,
porque la gente lo está criticando bastante. La comunidad seguramente saque ampliaciones
de ventana de contexto con diferentes técnicas que existen. Entonces, bueno, seguramente
se puede llegar a 32.000 tokens sin mucho problema y si con Fine Tuning se puede ampliar.
Lo iremos viendo, pero que de partida no tenga una ventana de contexto mayor, pues sà es un poco
decepcionante. ¿Vale? De tarea para Llama 4, que por cierto ya lo están entrenando.
Entonces, hay una cosa. El directo hoy va a ser breve. Simplemente quiero cubrir la noticia
y daros toda la información, pero hay una cosa importante que no quiero dejar pasar y es
¿cómo han conseguido esto? ¿Cómo han conseguido esto? ¿Cómo han conseguido de repente que Llama 3
funcione tan, tan, tan bien por encima de Llama 2 e incluso siendo más competente
que modelos de su misma categorÃa? Modelos 70B y modelos 8B.
Carlos, ¿han introducido alguna mejora de...
¿han introducido alguna mejora a nivel de arquitectura?
No. Sigue siendo
llamados. ¿Vale? Sigue siendo un modelo
tipo Transformer, Denso, Decoder.
No hay Mixter of Expert, no hay Mambo, no hay Jamba,
no hay nada. No. La arquitectura es la misma.
¿Vale? ¿Qué han tocado entonces?
Entonces, datos. Los datos del modelo, bueno, han cambiado. Vamos a decirlo asÃ.
Han cambiado los datos en calidad. Por ejemplo, le han metido más datos de programación.
Eso está guay porque el modelo cuando le metes...
Le han metido cuatro veces más datos de programación. Esto está súper bien porque,
por una parte, el modelo programa mejor. Eso siempre es una muy buena noticia.
Pero, además, es interesante porque está comprobado que a un modelo del lenguaje,
cuando le mete datos de programación, no solo mejoran los datos de programación,
o sea, las habilidades de programar, sino también mejoran las capacidades de razonar del modelo.
Es una buena noticia esto, ¿eh? Chavales, saber programar nos da mejor capacidad de razonar
para tareas que no tengan que ver con la programación.
Esto es algo que con los modelos del lenguaje se observa.
Aunque no es extrapolable a los humanos, ¿vale?
Eso, por una parte, la calidad de los datos, el mix, el cóctel de datos que han preparado,
es diferente y, en ese sentido, parece que ha mejorado.
Pero lo importante, lo súper, súper importante, es con cuántos datos han entrenado el modelo.
Con cuántos datos han entrenado el modelo, chavales.
Madre mÃa.
A mà esto, mira, me gusta la analogÃa, me gusta ver lo siguiente con los modelos de inteligencia artificial.
Para mà un modelo de inteligencia artificial es como una caja, ¿vale?
Como una cajita, como una maleta.
Pensémoslo como una maleta de viaje.
Una maleta donde nosotros lo que queremos es conseguir meter la mayor cantidad de cosas
que nos puedan ser útiles, ¿vale?
Que estamos meter, meter, meter, pero claro, en tu maleta no te cabe todo lo que tienes en casa.
Como no te cabe todo lo que tienes en casa, tienes que meter lo que, bueno,
te pueda ser más de utilidad general para tu viaje, para tu tarea.
Entonces, en ese sentido, los modelos de inteligencia artificial son parecidos.
Nosotros metemos un montón de datos, ¿vale?
Dato, dato, dato, dato, datos, en el modelo,
e intentamos exprimir en el proceso de entrenamiento, pues, estos datos para sacar, pues,
bueno, guardamos aquellos datos que sean importantes memorizar, pues, datos factuales sobre cuál es la capital de España
o cosas asÃ, e intentamos a lo mejor también meter reglas generalizadas a partir de los datos
que puedan servirnos para varias cosas.
Todo esto está ahà dentro del modelo.
Y esto lo conseguimos meter en el modelo codificado dentro de los parámetros del modelo, ¿vale?
Y esto mola porque el término con el que se habla de cuánta información puede almacenar los datos del modelo
es la capacidad del modelo, ¿vale?
Está relacionado con esta idea de guardar cosas, cuánto cabe en mi modelo.
Con lo cual, entre más parámetros tiene mi modelo, más cosas caben en mi maleta.
Eso está bien, ¿ok?
Y me gusta la analogÃa de la maleta porque, como en las maletas,
hay un punto en el que si tú metes cosas, ya no cabe más.
A menos que aprietes un poquito más.
Si aprietas un poco más, a lo mejor entra un poco más.
Y si aprietas y haces más, más, más, más, más fuerza, a lo mejor entra más.
¿Vale?
Aquà esta analogÃa lo que te quiere decir es, si tú quieres meter más datos dentro de un modelo,
puedes meterlos, pero te va a hacer falta aplicar más fuerza.
O sea, vas a tener que dedicar más coste energético, en este caso, en el proceso de entrenamiento,
pues más coste computacional, más tiempo de entrenamiento para que tu modelo siga aprendiendo nuevas cosas.
¿Vale? Esto es súper importante.
¿Quieres meter más cosas en la maleta?
Vas a poder meter, pero vas a tener que hacer fuerza para poder meter un poco más.
¿Ok? ¿Esto se entiende?
Pues, Meta, lo que ha hecho ha sido meter cosas en la maleta, apretar un poco, meter otro poco más,
apretar un poco más con más fuerza, coger un martillo, golpear, pum, pum, prensa hidráulica,
aplastarlo todo, acelerador de partÃculas, presionar el universo, plegarlo, meterlo en la maleta y cerrar.
Eso es lo que ha hecho Meta, aquÃ.
¿Vale?
Y esto mola porque hay una empresa de maleta llamada DeepMind que sacó un paper que es este de aquÃ, el de Chinchilla.
¿Vale? Esta gráfica es súper famosa en el mundo de la IA.
A ver.
Esta gráfica es muy famosa en el mundo de la IA porque básicamente te relaciona cuál es el punto óptimo en el que tú,
en un modelo, puedes meter una cantidad de datos.
O sea, cuál es la relación idónea para que computacionalmente sea óptimo meter una cantidad de ciertos datos en un modelo de cierto tamaño.
¿Vale? Esto es como, yo tengo una maleta de este tamaño, ¿cuánta ropa deberÃa de meter en esta maleta para que el esfuerzo,
el coste computacional, sea óptimo?
¿Ok?
Entonces, esta gráfica, pues por ejemplo, nos dice lo siguiente.
Oye, ¿de qué tamaño es el modelo que ha entrenado Meta?
¿Vale? Pues el modelo es de tamaño 8B, ¿no? Vamos a coger el pequeño, el 8B.
Nos vamos para acá.
El 8B, el 8B, te sitúa en este punto de la gráfica, choca aquÃ, y cuando bajas para acá te marca un punto,
fijaos que abajo es escala logarÃtmica, con lo cual, pues vamos a poner 150.000 millones de parámetros,
perdón, 150.000 tokens, o 150.000, 200.000 tokens.
Es decir, para una maleta de 8B, lo idóneo que deberÃas de meter es 150.000 tokens de datos durante el entrenamiento.
Pipi, pipi, pipi. Durante el entrenamiento deberÃas de meter esa cantidad de información.
Si metes más, ¿está mal? No, no está mal, pero estás haciendo un esfuerzo extra que te saldrÃa más rentable para tu entrenamiento,
serÃa más óptimo si en vez de coger una maleta de 8, cogieras una maleta de 10, ¿vale?
Si tú quieres meter más datos, si te mueves para la derecha, pues a lo mejor te compensa coger una maleta de 10, ¿vale?
No me seas bestia, no aprietes todo mucho, ¿vale?
Pues en este caso, meta, es que, joder, nos vamos fuera de la gráfica, meta para una maleta de 8, ¿vale?
Si nos situamos aquÃ, para una maleta de 8, no ha metido 150.000 tokens de datos, no ha metido un trillón de datos,
o sea, un billón de datos, perdón, no ha metido 10 billones de datos, ha metido 15 billones de datos.
15 billones de datos. 15 billones de datos. Eso es muchÃsimo. MuchÃsimo.
Eso es súper ineficiente a nivel de entrenamiento. Es decir, meta, lo que ha dicho es,
oye, yo este modelo, te voy a meter hasta el último calcetÃn, aunque me cueste la vida,
aunque tenga que dedicar de energÃa aquà lo que haga falta para comprimir esta información
y meterla dentro del modelo y que te lleves la maleta con todo lo que necesitas.
Es súper, súper, súper, es un entrenamiento carÃsimo para ellos.
Porque lo que te está diciendo es, contra, no, no, entrena un modelo mucho más grande, ¿vale?
Entrena un modelo mucho más grande. PodrÃa ser que a lo mejor, o sea, yo he dicho 15 trillones,
sÃ, no, es que creo que era 15 trillones, es que creo que no me estoy equivocando, es que es una salvajada.
Creo que está por aquÃ, sÃ.
SÃ. PodrÃan haber hecho un entrenamiento mucho más óptimo con un modelo más grande,
pero meta ha sido súper, súper inteligente y son súper majos por ellos.
Aquà está el tuit que lo dice. Dice, sÃ, entrenamos en mucho más de lo que Chinchilla,
o sea, hemos entrenado el modelo mucho más que en el óptimo que Chinchilla nos recomienda.
Por lo que a sabienda estamos intercambiando capacitación para ayudar a la comunidad con los costes de inferencia.
Es decir, meta ha hecho esto de una forma súper inteligente porque es,
sabemos que estamos entrenando el modelo de forma súper subóptima,
o sea, estamos haciendo un esfuerzo muy extra por meter un poquito más de información,
y el modelo se seguÃa entrenando, o sea, las curvas podÃan seguir progresando.
Estamos incurriendo en un coste de entrenamiento súper alto,
pero con el fin de no tener que hacer un modelo más grande,
sino para poder dejártelo en la maletita pequeña.
Porque para la comunidad, tener maletitas pequeñas es la leche.
Significa que vosotros, con un modelo de 8.000 millones de parámetros,
lo podéis ejecutar en vuestra GPU la mayorÃa de todos vosotros.
8 GB caben perfectamente en muchas de las GPUs comerciales que tenemos.
Y tener menos parámetros también hace que el coste de inferencia,
que de forma marginal por cada usuario que lo uses es muy pequeñito,
comparado con todo lo que serÃa el coste de entrenamiento,
pero claro, multiplÃcalo por todos los usuarios, por todas las organizaciones,
por todas las empresas que van a utilizar este modelo,
ese coste de inferencia agregado, si tú lo has reducido porque tu modelo es más pequeño,
es una ventaja.
O sea, han decidido apostar todo el gran esfuerzo en el entrenamiento
para que luego la inferencia, que va a ser masiva,
porque este es un modelo que va a tener una utilización masiva,
tenga mayores ahorros.
Esto es súper interesante.
Esto es súper, súper interesante.
¿Vale?
Es una apuesta que Meta ha hecho y que ha dejado a todo el mundo en plan,
ok, y que yo creo que está abriendo un camino para que otras organizaciones
y más gente se plantee escapar un poco de lo que es el óptimo de chinchilla,
que es esta gráfica que hemos visto,
donde siempre se busca este equilibrio entre cuántos datos tengo
y qué tamaño tiene que tener mi modelo,
para hacer entrenamientos que son subóptimos,
pero que beneficien a la comunidad por unos costes de inferencia más reducidos.
¿Vale?
Entonces, eso está bastante guay.
Esto de los billones en español y billones en inglés es estresante.
Lo sé.
Lo odio.
Es quizás lo que más odio del mundo de la IA
y ojalá lleguemos ya, no sé, a órdenes de magnitud
donde no haya tanto lÃo con las métricas.
¿Vale?
Entonces, esto es lo que están ofreciendo.
Aquà está nuestra amiga La Llama
y es todo, todo una locura.
¿Vale?
Es todo, todo una locura esto.
Entonces, el modelo está disponible.
El modelo lo podéis descargar, lo podéis utilizar.
Podéis utilizarlo en Hugging Chat, por ejemplo.
¿Vale?
Hugging Chat, que es el chat de la gente de Hugging Face.
A ver si no me equivoco.
Aquà tenemos meta.
Uy, pero el System Prompt creo que tendrÃamos que buscarlo.
A ver, vamos a ver si de salida tiene.
Bueno, no más rápido, lo voy a probar en LM Studio.
Bueno, tenéis un montón de herramientas para probarlo.
Tenéis Hugging Chat, podéis probarlo en...
Seguramente Perplexity ya lo tenga desplegado en su laboratorio.
Y también tenéis que recordar que en el .cvLab,
en el canal secundario de este canal,
donde hacemos cosas más prácticas
y vamos probando diferentes cositas,
hay un tutorial donde os enseño a utilizar esta herramienta de aquÃ.
Esta herramienta de aquà es LM Studio
y es un...
Bueno, es una interfaz.
Ahà también está Oyama,
hay gente que prefiere una,
hay gente que prefiere otra.
LM Studio es básicamente un gestor de modelos de lenguaje
donde podéis buscar todos los modelos que van saliendo.
Podéis instalarlo, descargarlos
y según los requisitos de hardware que tengáis,
pues podéis utilizarlo en vuestro equipo.
Entonces, es súper sencillo.
Por ahora solo está el modelo, el 8B.
Seguramente a lo largo del dÃa de hoy aparezca el modelo 70B.
Y nada, simplemente descargarlo.
Y cuando lo tengáis descargado, ¿vale?
Entre los modelos,
pues simplemente seleccionar el que queráis.
Yo en mi caso puedo seleccionar aquà el modelo...
Este de aquÃ, exacto.
El modelo, fijaos, vamos a buscar un momento...
Si me meto aquÃ...
Mira, si me meto en la parte de la herramienta
donde está el modelo 8B,
el modelo 8B puro...
O bueno, esto ya tiene cuantización.
O sea, a 8 bits,
el modelo funciona
ocupando 8,54 GB de memoria.
Este funcionarÃa en una tarjeta gráfica
medianamente potente.
A partir de ahÃ,
hay opciones hasta 5 GB
ocupando en memoria
que podéis descargar y utilizar sin problema.
Entonces, esto es una muy buena noticia.
Esto es una muy buena noticia.
El modelo, ¿qué tal funciona?
A ver, el de 8B,
dentro de ser muy competente para varias tareas,
no va a funcionar, por ejemplo,
muy, muy por encima de ChatGPT 3.5,
por ejemplo, ¿vale?
Para tener conversaciones profundas,
seguramente tenga alucinaciones,
seguramente tenga ciertas cosas.
Pero para ciertas tareas,
pues a lo mejor generación de datos sintéticos,
a lo mejor quieres automatizar
algún proceso de procesamiento de lenguaje natural,
a lo mejor quieres hacer alguna llamada,
alguna función de una aplicación,
estos modelos,
si los podéis utilizar.
Y si lo tengo cargado aquÃ,
creo que lo tengo cargado,
lo tengo cargado en GPU,
puedo dar la nueva conversación,
le puedo decir,
hola.
¿Vale?
Y creo que esto está funcionando
correctamente.
Fijaos,
me ha dicho,
hola, ¿cómo estás?
Hello, how are you?
I'm here to help you
with anything you need.
What is your mind today?
Se ha pasado el inglés.
Le voy a decir aquÃ,
a la derecha,
en el System Prompt,
que me hable,
speak in Spanish,
please.
Que me hable en español,
y vamos a ver si,
¿qué tal estás?
Estoy bien,
gracias por preguntar,
soy una inteligencia artificial diseñada
para ayudarte con cualquier tarea
o consulta que tengas,
bla, bla, bla, bla, bla.
Estoy listo para responder
a tus preguntas.
Le voy a decir,
oye,
¿qué pesa más?
La tÃpica pregunta,
¿un kilo de plomo
o medio kilo de plumas?
Razona tu respuesta
paso a paso.
Excelente pregunta.
Primero debemos definir
qué es pesar más.
En este contexto,
se refiere a cuál objeto
tiene una masa mayor.
La masa se mide en unidades
como el kilogramos.
Un kilo de plomo
pesa exactamente un kilo.
Medio kilo de plumas,
suponemos que son plumas ligerÃsimas,
como la de una ave,
pesarÃa cero.
¡Ja!
¡Qué tonto eres!
La razón es que las plumas
no tienen masa significativa,
aunque pudieran tener algún peso
debido a su estructura y composición.
Es significante
en comparación,
bla, bla, bla, bla, bla.
¿Vale?
En este caso,
el modelo está razonando fatal
y, bueno,
pues habrÃa que evaluar
si en inglés funciona mejor,
si funciona peor,
si a lo mejor
este tipo de preguntas
todavÃa no las razona.
ChatGPT 3.5
creo que también
esta pregunta me la falla,
entonces, bueno.
Podéis jugar con esto,
podréis jugar con el modelo
de 70B cuando salga.
El modelo de 400B,
no sé qué pasará con ese modelo,
no sé qué utilidad
va a tener dentro
de todo el boom
de lo que está sucediendo.
Y la gran pregunta es
¿y ahora qué?
¿y ahora qué?
¿Qué pasa ahora?
A ver,
yo esto lo definÃ
el otro dÃa en Twitter
como que estamos viviendo
un cambio de fase
desde mi punto de vista.
y esto se explica muy bien
con la gráfica,
esta gráfica de aquÃ.
Estamos viviendo
un cambio de fase
a mi gusto
y el cambio de fase
viene representado
por lo siguiente,
fijaos.
Esta gráfica
lo que nos está mostrando
es el rendimiento
de los modelos de lenguaje
con el
benchmark
MMLU
que es uno de los más populares
que se utilizan
que mide la inteligencia
de estos sistemas.
En la lÃnea roja
tenemos los modelos
cerrados
y en la lÃnea verde
los modelos abiertos.
Y aquà vemos
el desarrollo temporal
que ha tenido esto
hasta abril del 2024.
¿Qué observamos
en la tendencia?
La tendencia
lo que nos muestra
es
los modelos cerrados
y los modelos abiertos
convergen
a un punto.
En algún momento
en el futuro
los modelos cerrados
y abiertos
convergen.
Y eso
pues parece muy interesante.
¿Vale?
Parece que
fijaos
gracias a la salida
de llama
gracias a la salida
de llama
a partir de aquÃ
empiezan a florecer
algunos modelos
a partir de la salida
de llama 2
empieza a explotar
todo esto
y empezamos
a tener nuevos competidores
y muchos más modelos
que no están listados aquÃ.
Y poco a poco
si os dais cuenta
si situáramos en esta gráfica
lo que llama
3 rinde
el modelo más grande
el de 400.000 millones
de parámetros
que tiene un 0.86
estarÃa aquÃ.
Es decir
ya habrÃa llegado
al nivel
de los modelos
open source
perdón
de los modelos cerrados.
Esto es
una muy buena noticia
pero también me parece
que supone
un cierre de fase.
Si vamos a seguir
viendo modelos
en open source
o sea modelos abiertos
open weights
cada vez más rápidos
más potentes
más inteligentes
más capaces
todo eso lo vamos a ver
pero creo que estamos
en el punto
en el que ahora
las grandes
y sobre todo
open AI
le toca dar el paso.
Si te dais cuenta
en esta gráfica
hay un único punto
que es un outlier
frente al resto
de la competencia
tanto abierto
como cerrado
y es GPT4.
Llevamos un año
intentando escalar
el monte GPT4
y ahora estamos
en la cumbre
y cuando estamos
en la cumbre
nos damos cuenta
que la montaña
le crecen patas
y vuelve a crecer.
Open AI
creo que tiene ahora
la presión
del mercado
obviamente
están liderando
pero están viendo
como rápidamente
se les acercan
creo que tienen
la presión
para sacar algo nuevo
y creo
desde mi punto de vista
ya lo he comentado
otra vez
creo que estamos
cerca, cerca, cerca
muy cerca
en un mes
dos meses
de que Open AI
saque algo nuevo
y que sea un cambio
de paradigma
que ya no sea continuista
en esta evolución
de los modelos
de lenguaje
sino que abra
un nuevo camino
donde la comunidad
de open source
de nuevo
pues lo verá
y dirá
ostras
¿podrÃamos hacer
un modelo de este tipo?
Si, no, no sé
venga, va
lo intentamos
y acabar llegando.
También es muy buena noticia
y esto hay que comentarlo
que desde que sale GPT-4
y rompe esta tendencia
hasta que ha salido
el modelo
de meta
de llama
ha pasado
un año
año y medio
como máximo
año y medio
eso significa
que
para el tipo
de árbol de tecnologÃa
que estamos desbloqueando
un año y medio
para el potencial
que estamos desbloqueando
es nada
es nada
y le dejan
muy poca ventaja
a los modelos privados
para poder competir
hay empresas
como Antropic
que ahora están viendo
que la comunidad
ahora tiene un modelo
open source
competente
casi como lo que yo tengo
y lo que ofrezco
como servicio
entonces
estamos moviéndonos
muy rápido
eso está muy guay
lo estamos haciendo
de la mano de meta
eso no hay que olvidarlo
si meta
cierra el grifo
se nos jode el invento
por ahora
luego pueden haber
otros competidores
tenemos a Mistral
a la gente de Francia
que también están haciendo
un trabajo increÃble
siempre hay nuevos actores
que se quieren beneficiar
de la buena imagen
que te da
dar modelos en abierto
y parece que
Mark Zuckerberg
que ayer lo confirmaba
en un podcast
ya están entrenando
la cuarta versión
de Yama
y van a sacar
modelos más potentes
en el futuro
seguramente
continuando con esta lÃnea
tan impresionante
que son los modelos
Yama
que siempre que llegan
generan un terremoto
con esto chicos
es un poquito
lo que querÃa comentar
querÃa hablaros
de la noticia
me parecÃa muy importante
querÃa soltaros
toda esta información
que ya he grabado
antes hace dos horas
pero bueno
estaré leyendo
los comentarios
que dejéis abajo
sabéis que tenéis
el tutorial
en el .csvlab
donde está toda la información
de cómo usar
el MStudio
y cómo utilizar
ciertos
truquitos
para que uses
parte de la GPU
de la CPU
bastante sencillo
de la herramienta
si queréis ver
algún vÃdeo interesante
pues esperad
a la semana que viene
que tengo vÃdeos preparados
pero es que la actualidad
me tiene con la lengua afuera
y si queréis ver un vÃdeo
también está el de modelos
del mundo
que sacamos hace
una semana y pico
que es un vÃdeo
bastante con teorÃa
con conceptos
bastante interesantes
que conocer
y que seguramente
os va a interesar
si no lo habéis visto
pues lo buscáis en el canal
chicos, chicas
muchas gracias
me despido
a la gente del chat
que estaba por aquÃ
que os estaba leyendo
con el rabillo del ojo
y nos vemos
en un próximo directo
en un próximo vÃdeo
chao, chao
chao