logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

¡Hola chicos y chicas! ¿Qué tal estáis? ¡Bienvenidos a un nuevo directo a DOTS SV!
Perdonadme de primeras varias cosas. Una es el audio. Este micrófono se jubila hoy, llega micrófono nuevo.
Bien, el audio del canal va a mejorar. Segundo, mi voz. Mi voz. Estoy, llevo una semana con gripe y tengo la voz fatal.
Además, hoy quería cubrir este tema con un vídeo, no con un directo. Con lo cual me he grabado dos horas.
He hecho la grabación entera de todo el metraje. Cuando me iba a poner a editarlo he dicho, es que se escucha mal.
Me falta energía porque no termino de hablar bien cuando estoy grabando porque tengo a voz rara.
Bueno, fatal. Fatal. Pero aquí está la actualidad y el análisis. Estoy griposo, ¿vale? No voy a contagiar, eso es lo bueno.
Pero nada, simplemente, estamos aquí hoy reunidos, hermanos y hermanas, porque Meta lo ha vuelto a hacer.
Meta ha vuelto a revolucionar el mundo de la inteligencia artificial, el panorama de los modelos open source, en concreto los modelos de lenguaje,
que es quizás de todas las posibles líneas de investigación que hay en el mundo de la inteligencia artificial,
la que ahora mismo es más popular tras el boom de chat GPT y todo lo que ha venido a posteriori.
Y aquí Meta, pues está jugando un juego que es bastante interesante y que vamos a estar comentando con la salida de este nuevo modelo.
Vamos a analizarlo, ¿vale? Quiero situaros primero, ¿qué es esto de llama?
Ya habéis visto los vídeos, tenemos vídeos en el canal cubriéndolo, pero es muy interesante porque estamos en una tercera versión de una familia de modelos,
de una generación de tecnologías que cada vez que salen ponen todo patas arriba, ¿vale?
Y a lo mejor no es tan evidente porque luego es cierto que lo que es la marca llama se diluye,
pero eso sigue teniendo efectos importantes en mucho de lo que está pasando hoy en día.
Entonces, nos situamos, finales de 2022 sale ChatGPT, ChatGPT explota, pone en valor todo lo que la tecnología de Deep Learning lleva durante años
investigando en el campo del procesamiento del lenguaje natural y de repente pone en valor que los modelos de lenguaje,
más allá de generar texto, pueden servir dentro de asistentes de chatbots para resolver tareas inteligentes.
Muy guay, todo el mundo le gusta ChatGPT, OpenAI le sorprende y de repente la comunidad open source que ya venía calentita del pasado,
pues ya venía calentita porque con la parte de generación de imágenes en 2022 habíamos conseguido con Stable Diffusion
tener un modelo en abierto que competía con lo que OpenAI ofrecía.
Pues ahí envalentonada decía, oye, ¿podemos entrenar nosotros nuestro propio ChatGPT OpenSource?
Y esto es una cosa que a principios de 2023 no se sabía si se iba a poder conseguir.
Recordaréis que desde el canal impulsamos iniciativas como la de Open Assistant, creo que se llamaba,
que era una iniciativa donde recabamos datos, se entrenó a un modelo,
pero que al final la realidad ha hecho que esa iniciativa, pues no hiciera falta y al final ya no ha continuado,
se ha descontinuado porque tenemos opciones open source a punta pala.
Y gran parte del motivo de que exista...
Me voy a alargar un poquito el micrófono.
Y gran parte de que exista esta revolución de tantos modelos open source es culpa de Meta.
Meta a principios del año pasado, en febrero de 2023, el año pasado, es que parece que ha pasado 5 o 6 años,
no, no, el año pasado, a principios de 2023 saca un modelo open source, bueno, open weights,
libera los parámetros de un modelo que en principio iba a estar destinado para la comunidad científica
y solo se podía acceder a través de un formulario.
A los pocos días, ese modelo ya estaba en el torrent, ya se había filtrado.
Y en ese momento, pues ya no tienes control.
Evidentemente, aquí hay quien todavía duda, si sí, si no, yo tengo claro que Meta sabía lo que iba a pasar.
Lo que por un tema de, bueno, por evitar que se hablara sobre si estaban liberando una tecnología peligrosa,
el año pasado esto era un poco más sensible que lo que es ahora, pues por eso mismo intentaron hacerlo,
yo creo que de esta forma un poco rara.
Cuando sale Llama, lo que Llama permite es que la empresa Meta ha hecho ya esa inversión de dinero,
ese preentrenamiento que es la parte más costosa de entrenar a esta tecnología,
y se la ha dado a la comunidad para que la comunidad ahora pueda hacer con ello lo que quiera.
Para que pueda hacer fine tunings, para que puedan hacer optimizaciones,
para que puedan hacer versiones diferentes del modelo, lo que quieras.
Y esto es súper interesante porque permitió que empezara a explotar y a eclosionar
toda esta industria de los modelos open source que hemos visto durante 2023.
Salen modelos, sale Falcon, salen Vicuña, salen, bueno, Alpaca, ¿no?
Un montón de alternativas de modelos de diferentes organizaciones,
y Meta se da cuenta de que esta estrategia le ha funcionado muy bien,
porque tiene de repente a toda la gente trabajando para desarrollar y mejorar modelos,
que son los modelos que luego ellos también van a utilizar en sus propios servicios y aplicaciones.
En WhatsApp, en Instagram, en Facebook.
Es la estrategia perfecta para Meta.
Tengo a todo el mundo trabajando para nosotros y además nos aplauden.
Mark Zuckerberg ha pasado de ser un reptiliano raruno a un señor que tú le ves ahora y dices,
tío, este tío mola, este tío nos cae bien.
Esa es la estrategia que está siguiendo Meta, ¿vale?
Entonces esto es muy interesante porque ya Meta se pone este sombrero y dice,
vale, como no puedo por ahora competir con los mayores,
los mayores el año pasado era Microsoft con OpenAI y Google,
que estaba ya entrenando su sistema Gemini,
y dice, bueno, pues me meto en el partido, cojo la pelota, le doy una patada y aquí no juega nadie.
Rompo el tablero, tiro el tablero y vengo yo con mis modelos en abierto e intento fastidiaros la fiesta.
Llama era bastante competitivo para lo que teníamos en aquel entonces,
pero en marzo del año pasado sale GPT-4,
cambian las tornas, el modelo más potente jamás visto,
y desde ese momento los modelos privados siguen mejorando
y Meta hace su segundo movimiento.
Aparece Llama 2 en verano.
En julio de 2023 aparece la segunda versión de Llama.
Una versión mejor que la primera con un cambio que de nuevo pone todo patas arriba.
El modelo, que antes era de licencia para uso no comercial,
pasa a tener una licencia comercial.
Esto significa que ahora cualquiera que descargue el modelo,
puede integrarlo en sus productos, puede integrarlo en sus servicios,
puede sacarle partido, puede montar negocio, puede aprovecharlo económicamente.
Esto es un cambio de paradigma brutal,
porque esto incentiva mucho el investigar este tipo de tecnologías
y las vuelve mucho más atractivas.
El tener un estándar abierto, que podemos todos trabajar con él,
que podemos modificar, que podemos integrar en nuestros proyectos,
hace que el modelo Llama se vuelva la hostia.
Y de ahí empiezan a aparecer más modelos, empiezan a aparecer nuevos actores,
aparece la gente de Mistral, aparece la gente de Cogíar,
aparece Antropic también como modelo privado, empieza a desarrollar más, más, más, más.
Y ahora sí damos un salto, 10 meses más tarde, desde julio del año pasado,
hasta el día de ayer.
El día de ayer, casi casi un año más tarde,
nos trae una nueva actualización del modelo Llama,
y aparece Llama 3.
Y la pregunta de millones, Carlos, Llama 3 es mejor,
es un modelo que revoluciona, es un salto incremental,
¿qué es Llama 3?
Pues Llama 3, señoras y señores,
Llama 3 es un modelo.
Vamos a dejarlo ahí, en que es, ostras, ostras.
Y quiero que veamos un poquito lo importante.
Bueno, tenemos que entender, la salida de Llama 3,
Llama 3 no es en concreto ningún modelo,
sino es una familia de modelos que cumplen unas características comunes,
que en este caso es la arquitectura, los dataset con los que se han entrenado y tal.
En este caso, como sucedió con las versiones anteriores,
Llama 3 viene con cuatro modelos, ¿no?
Empezamos a abrir los regalos de Navidad y Meta nos ha regalado cuatro modelos nuevos.
Dos modelos, como era habitual, que son los modelos base,
esto es, cuando tú entrenas un modelo de lenguaje,
los modelos encargados de aprender a predecir el siguiente token de texto, punto.
No son chat GPT, son GPTs, ¿vale?
Son la parte de aprender a continuar una frase,
aprender a predecir la siguiente palabra.
Y luego están los modelos Instruct.
Los modelos Instruct son los modelos que ahora sí han sido fine-tuneados
para cumplir esta labor de chatbot asistencial.
Con lo cual tenemos dos categorías de modelos.
A vosotros la que más os va a interesar es la segunda categoría,
porque es la que normalmente se utiliza en la mayoría de servicios.
Perplexity, Hugging Chat, no sé, servicios de IA,
cuando vosotros habláis con el chatbot,
estáis hablando con los modelos Instruct.
Y luego estos modelos tienen dos tamaños.
Un tamaño pequeño, un tamaño mediano y un tamaño grande, ¿vale?
En la familia de Llama 2, en la segunda generación,
tenemos tres tamaños, el pequeño, el mediano y el grande, ¿vale?
El Happy Meal, el menú normal y el menú Big Mac.
El pequeño, en Llama 2, era el de 7 billones de parámetros.
Perdón, 7 mil millones de parámetros.
El mediano era 13 mil millones de parámetros.
Y el grande era 70 mil millones de parámetros.
Pues ahora tenemos un modelo que es 8 mil millones de parámetros,
el pequeño, y un modelo que es el 70 mil millones de parámetros.
¿El grande?
No, no es el grande.
Es el mediano.
El mediano de antes, o sea, el mediano de ahora era el que antes era el grande,
el de 70 mil millones de parámetros.
Y Carlos, si este es el mediano, ¿cuál es el grande?
Nos sujetamos a la mesa.
Nos sujetamos a la mesa, chicos.
¿Estáis agarrados?
Carlos, el grande es un modelo de 400 mil millones de parámetros.
Carlos, ¿no te he entendido cuánto?
400 mil millones de parámetros.
Carlos, ¿qué satura el micrófono?
400 mil millones de parámetros.
Esto es un modelo que, si lo pensamos, es 2 o 2,5 veces el tamaño de GPT-3, por ejemplo.
¿Vale?
Si lo pensamos, GPT-4 es un modelo de 1,8 billones de parámetros.
Billones con B.
Pero es un Mixtor of Expert.
Es decir, es un modelo que los parámetros activos que tienen, como recordaréis del vídeo que os enseñé de Mixtor of Expert,
no se activan todas las partes del modelo, sino que se activan solamente ciertas partes en cada inferencia.
Los parámetros que se activan en GPT-4 son 220 mil millones de parámetros.
Y estamos hablando de que Meta ha sacado un modelo, o va a sacar un modelo, de 400 mil millones de parámetros.
O sea, en parámetros activados casi lo duplica.
De hecho, es 405 mil millones de parámetros.
Es una locura.
Es una locura.
400 mil millones de parámetros.
¿Vale?
Vamos a hablar de esto ahora, pero bueno.
Quiero que veamos un poco lo importante que es el...
A ver dónde está la información.
Aquí.
Quiero que veamos que también rinden los modelos, porque esto también es bastante interesante.
Sí, billones en...
O sea, 1,8 cuando digo billones es porque en inglés es trillions.
GPT-4.
1,8 trillions.
En español, 1,8 billones.
Cuando digo mil millones es porque en inglés es billones.
Es un follón, pero bueno, así es como ha surgido la cosa.
Entonces, fijaos.
¿Qué tan bien rinden estos modelos?
Pues bastante, bastante bien.
El modelo grande lo dejamos para luego.
El modelo pequeño simplemente tenemos que darnos cuenta de lo siguiente.
El modelo de 8 mil millones de parámetros, el 8B, lo tenemos aquí.
Si lo comparamos con modelos de su categoría, los revienta.
¿Vale?
Pensad, modelos de su categoría.
Gema, de Google, es el modelo open source que ellos sacaron siguiendo una estrategia similar a Meta.
Es un modelo de 7 mil millones de parámetros, más los parámetros de embedding, 7, algo.
Mistral, 7 mil millones de parámetros, en la misma categoría.
Estos dos modelos para diferentes benchmarks, que son, bueno, pues ya sabéis, conjuntos de pruebas que intentan evaluar el conocimiento general de los modelos,
su capacidad de razonamiento, HumanEval, pues pruebas de programación, matemáticas, bueno, todo tipo de pruebas.
Entonces, fijaos como el modelo de Meta, 8 mil millones de parámetros, misma categoría, consigue un rendimiento, bueno, bastante bien, puntos porcentuales por encima,
aquí un 10% por encima, un 15% por encima, pero es que cuando vamos bajando estos evals, de repente, duplica, ¿vale?
Casi el doble, más del doble, ¿vale? Más del doble, más que el triple, en este caso, ¿ok?
Un modelo de la misma categoría. O sea, el modelo 8B, en estas capacidades evaluadas, bastante, bastante bestia.
Y a la derecha, quizás más interesante, tenemos el modelo 70B. Y fijaos que el modelo 70B, a ver si hago un poco más de zoom, ahí está,
de nuevo supera, en algunas características, en otras las iguala, a modelos comerciales, modelos privados como Google Gemini Pro,
1.5, o Cloud 3 Sonnet, que son modelos bastante, bastante competentes. Modelos bastante, bastante competentes.
Son los modelos que están en la familia intermedia, ¿vale? De la suite, pues, en este caso de Cloud, están los tres tamaños, pues,
el modelo intermedio de meta compite con el modelo mediano de empresas privadas.
Recordemos, un modelo que podéis descargar y podéis utilizar en vuestro ordenador, si tenéis la capacidad computacional para moverlo.
Es una pasada. Esto es una pasada, ¿vale? Esto está bastante bien, porque pensad que este modelo, como es costumbre,
los modelos llama, luego van a pasar a ser la base de muchos otros modelos que van a ir apareciendo las próximas semanas
y los próximos meses. Modelos que van a mejorar, van a sacar más rendimiento, pues, en programación, en matemática,
van a reentrenarse con mejor calidad de datos, diferentes cosas. Con lo cual, tener de base un modelo de este tipo
es una muy buena noticia. Es una muy buena noticia. Modelos que, por ejemplo, el 8B ronda los 6, 7, 8 GB de tamaño,
ahora vamos a comentar esto. Y el modelo de 70, pues, creo que está en unos 40, 40 y pico GB, ¿vale?
El grande, obviamente, no es para todos los tipos de hardware, aunque hay opciones cuantizadas que van a reducir este tamaño
para que podáis utilizarlo en vuestro hardware, quienes tengáis una tarjeta medianamente potente,
pero el pequeño es bastante competente y el grande es un muy buen punto de partida para mucha de la tecnología
que la comunidad va a desarrollar ahora.
No solo tenemos que fiarnos de los EVAL y de los benchmarks, al final pasa muchas veces que los benchmarks son un poco tramposos,
porque a veces se suelen filtrar algunas de estas métricas dentro.
Entonces, quiero que veamos otros datos que notan por aquí. Por ejemplo, este me parece interesante,
que es en una evaluación humana, si yo os pongo a vosotros dos pruebas diferentes, o sea, dos resultados diferentes,
¿qué resultado preferís en cada caso? ¿El de Meta Llama 3.70B o el de otro modelo privado?
Entonces, aquí vemos que para los modelos de Cloud, para los modelos Mistral, Medium y para el modelo GPT 3.5,
y obviamente para el modelo Llama 2, los usuarios han preferido, tienen preferencia, por el modelo de Llama 3.70B.
Lo cual, de nuevo, pues también está bastante bien. En un 60% de la PS, 63,2, 63,7, bastante, bastante bien.
Y en este listado, puesto que no está Google Gemini, intuyo que en ese caso, Google Gemini en evaluaciones humanas,
pues estaría seguramente un poquito por encima de Meta Llama 3. ¿Vale? Bastante, bastante bien.
Y luego, otra que podemos evaluar, que tengo por aquí abierta, que siempre nos tenemos que fiar,
es el famoso LLM Arena. Vamos a ver.
Que este es lo mismo, ¿no? En abierto, pues, ¿cuál sería entre dos resultados lo que la gente está votando más entre diferentes modelos?
Y aquí podemos ver que, si ya está actualizado, Llama ya se sitúa en la posición 70B.
La posición 70B, la cabeza ya me falla. En la quinta posición, ¿vale? Casi, casi a la par con Clot 3 y por encima de Command R+,
que es un modelo que era bastante competente y que estábamos todos celebrando hace dos semanas en Twitter.
Que si no recuerdo mal, creo que es un modelo de 120.000 millones de parámetros, si no recuerdo.
Pues, Llama 370B se pone por encima. ¿Vale? Os paso la página del ranking, que la estáis preguntando por el chat, para que la tengáis.
Y luego, una cosa que estaba viendo ahora, y esto es interesante comentarlo, en inglés parece que el modelo incluso es mucho más competente.
Pasa que, mira, fijaos, bueno, bueno, amigos. Si nos ponemos solo en la categoría en inglés, ¿vale? Los votos de prompts basados al inglés.
En este caso, Llama se pone en primera posición con GPT-4. Y Clot baja bastante, Gemini baja... ¡Ojito! ¡Ojito a esto, eh! ¡Ojito a esto!
¿Ehm... Esto por qué sucede? ¿Por qué en inglés parece que ocupa una posición superior? Pues porque el modelo ha sido principalmente entrenado en inglés.
Esto es una cosa que, desde nuestro punto de vista, podríamos criticarle como un punto negativo al modelo, y es que el 95% de los datos utilizados son datos en inglés.
Eso hace que el modelo tenga preferencias para funcionar mejor en este idioma, y a lo mejor si lo habéis probado en español o en cualquier otro idioma, habréis comprobado que no es tan bueno.
Esto es un punto negativo y esto nos instruye a utilizar el modelo, sobre todo en inglés, si queréis.
Igualmente, Meta ha prometido que a futuro, con la salida del modelo grande, que todavía se está entrenando, y con otras cosas que van a sacar,
van a sacar modelos multilinguajes, con lo cual ahí el español podrá estar mejor representado, y modelos con multimodalidad también,
que es otra cosa que le falta al ecosistema de Meta, ¿no? Entonces, en ese sentido, pues es súper, súper interesante.
¿Ok? Y quiero aprovechar, ya que estamos, para mostrar también el modelo grande, porque tremenda bestialidad nos la podemos dejar sin mirar.
¿Vale? Entonces, fijaos. El modelo grande es este de aquí, el de 405.000 millones de parámetros.
Este modelo todavía se está entrenando. Todavía se está entrenando. Y es un modelo que si comparáis estos evals que nos están poniendo aquí,
el famoso MMLU, el GPQA, Human Evals, si lo comparáis con GPT-4, con la versión más avanzada, si lo comparáis con Cloud Opus,
son modelos que están casi casi a la pala. No están por encima, está, bueno, un poquito por debajo, pero es un modelo que se sienta en la mesa
de los mayores. Y es un modelo que, recordemos, en principio van a liberar. ¿Quién lo va a utilizar? Ni idea.
Porque esto, 400.000 millones de parámetros, pues será un modelo para industria, ¿vale? Para grandes requisitos de hardware.
Pero es un modelo que ya compite cara a cara con GPT-4. Es decir, vamos a acabar el año con un modelo open source
con el rendimiento de GPT-4. Y esto es importante. ¿Vale? Y ojo, todavía se está entrenando. Estos evals los han sacado
con un checkpoint a día de ayer del entrenamiento que están teniendo. Todavía puede mejorar.
Otro punto negativo que lo acabo de leer en el chat, muy bien. Ventana de contexto, muy baja. 8.000 tokens.
La ventana de contexto, ¿cuánta cantidad de información le podemos pasar al modelo para que procese cuando le damos?
8.000. Esto duplica lo que Llama 2 ofrecía. Está muy bien. El problema aquí es que una ventana de contexto
de 8.000 a día de hoy, para los estándares de hoy, es muy poquito. GPT-4, cuando salió, tenía 32.000.
Actualmente, OpenAI ofrece 128.000. Creo que Antropic ofrece, no sé si era también lo mismo, 128.000,
pero ampliable a un millón. Google ofrece un millón ampliable a 10 millones internamente.
Es decir, no es una ventana de contexto con la que se pueda trabajar para muchas de las cosas
que a día de hoy se están haciendo. Aún así, seguramente lo acaben solucionando,
porque la gente lo está criticando bastante. La comunidad seguramente saque ampliaciones
de ventana de contexto con diferentes técnicas que existen. Entonces, bueno, seguramente
se puede llegar a 32.000 tokens sin mucho problema y si con Fine Tuning se puede ampliar.
Lo iremos viendo, pero que de partida no tenga una ventana de contexto mayor, pues sí es un poco
decepcionante. ¿Vale? De tarea para Llama 4, que por cierto ya lo están entrenando.
Entonces, hay una cosa. El directo hoy va a ser breve. Simplemente quiero cubrir la noticia
y daros toda la información, pero hay una cosa importante que no quiero dejar pasar y es
¿cómo han conseguido esto? ¿Cómo han conseguido esto? ¿Cómo han conseguido de repente que Llama 3
funcione tan, tan, tan bien por encima de Llama 2 e incluso siendo más competente
que modelos de su misma categoría? Modelos 70B y modelos 8B.
Carlos, ¿han introducido alguna mejora de...
¿han introducido alguna mejora a nivel de arquitectura?
No. Sigue siendo
llamados. ¿Vale? Sigue siendo un modelo
tipo Transformer, Denso, Decoder.
No hay Mixter of Expert, no hay Mambo, no hay Jamba,
no hay nada. No. La arquitectura es la misma.
¿Vale? ¿Qué han tocado entonces?
Entonces, datos. Los datos del modelo, bueno, han cambiado. Vamos a decirlo así.
Han cambiado los datos en calidad. Por ejemplo, le han metido más datos de programación.
Eso está guay porque el modelo cuando le metes...
Le han metido cuatro veces más datos de programación. Esto está súper bien porque,
por una parte, el modelo programa mejor. Eso siempre es una muy buena noticia.
Pero, además, es interesante porque está comprobado que a un modelo del lenguaje,
cuando le mete datos de programación, no solo mejoran los datos de programación,
o sea, las habilidades de programar, sino también mejoran las capacidades de razonar del modelo.
Es una buena noticia esto, ¿eh? Chavales, saber programar nos da mejor capacidad de razonar
para tareas que no tengan que ver con la programación.
Esto es algo que con los modelos del lenguaje se observa.
Aunque no es extrapolable a los humanos, ¿vale?
Eso, por una parte, la calidad de los datos, el mix, el cóctel de datos que han preparado,
es diferente y, en ese sentido, parece que ha mejorado.
Pero lo importante, lo súper, súper importante, es con cuántos datos han entrenado el modelo.
Con cuántos datos han entrenado el modelo, chavales.
Madre mía.
A mí esto, mira, me gusta la analogía, me gusta ver lo siguiente con los modelos de inteligencia artificial.
Para mí un modelo de inteligencia artificial es como una caja, ¿vale?
Como una cajita, como una maleta.
Pensémoslo como una maleta de viaje.
Una maleta donde nosotros lo que queremos es conseguir meter la mayor cantidad de cosas
que nos puedan ser útiles, ¿vale?
Que estamos meter, meter, meter, pero claro, en tu maleta no te cabe todo lo que tienes en casa.
Como no te cabe todo lo que tienes en casa, tienes que meter lo que, bueno,
te pueda ser más de utilidad general para tu viaje, para tu tarea.
Entonces, en ese sentido, los modelos de inteligencia artificial son parecidos.
Nosotros metemos un montón de datos, ¿vale?
Dato, dato, dato, dato, datos, en el modelo,
e intentamos exprimir en el proceso de entrenamiento, pues, estos datos para sacar, pues,
bueno, guardamos aquellos datos que sean importantes memorizar, pues, datos factuales sobre cuál es la capital de España
o cosas así, e intentamos a lo mejor también meter reglas generalizadas a partir de los datos
que puedan servirnos para varias cosas.
Todo esto está ahí dentro del modelo.
Y esto lo conseguimos meter en el modelo codificado dentro de los parámetros del modelo, ¿vale?
Y esto mola porque el término con el que se habla de cuánta información puede almacenar los datos del modelo
es la capacidad del modelo, ¿vale?
Está relacionado con esta idea de guardar cosas, cuánto cabe en mi modelo.
Con lo cual, entre más parámetros tiene mi modelo, más cosas caben en mi maleta.
Eso está bien, ¿ok?
Y me gusta la analogía de la maleta porque, como en las maletas,
hay un punto en el que si tú metes cosas, ya no cabe más.
A menos que aprietes un poquito más.
Si aprietas un poco más, a lo mejor entra un poco más.
Y si aprietas y haces más, más, más, más, más fuerza, a lo mejor entra más.
¿Vale?
Aquí esta analogía lo que te quiere decir es, si tú quieres meter más datos dentro de un modelo,
puedes meterlos, pero te va a hacer falta aplicar más fuerza.
O sea, vas a tener que dedicar más coste energético, en este caso, en el proceso de entrenamiento,
pues más coste computacional, más tiempo de entrenamiento para que tu modelo siga aprendiendo nuevas cosas.
¿Vale? Esto es súper importante.
¿Quieres meter más cosas en la maleta?
Vas a poder meter, pero vas a tener que hacer fuerza para poder meter un poco más.
¿Ok? ¿Esto se entiende?
Pues, Meta, lo que ha hecho ha sido meter cosas en la maleta, apretar un poco, meter otro poco más,
apretar un poco más con más fuerza, coger un martillo, golpear, pum, pum, prensa hidráulica,
aplastarlo todo, acelerador de partículas, presionar el universo, plegarlo, meterlo en la maleta y cerrar.
Eso es lo que ha hecho Meta, aquí.
¿Vale?
Y esto mola porque hay una empresa de maleta llamada DeepMind que sacó un paper que es este de aquí, el de Chinchilla.
¿Vale? Esta gráfica es súper famosa en el mundo de la IA.
A ver.
Esta gráfica es muy famosa en el mundo de la IA porque básicamente te relaciona cuál es el punto óptimo en el que tú,
en un modelo, puedes meter una cantidad de datos.
O sea, cuál es la relación idónea para que computacionalmente sea óptimo meter una cantidad de ciertos datos en un modelo de cierto tamaño.
¿Vale? Esto es como, yo tengo una maleta de este tamaño, ¿cuánta ropa debería de meter en esta maleta para que el esfuerzo,
el coste computacional, sea óptimo?
¿Ok?
Entonces, esta gráfica, pues por ejemplo, nos dice lo siguiente.
Oye, ¿de qué tamaño es el modelo que ha entrenado Meta?
¿Vale? Pues el modelo es de tamaño 8B, ¿no? Vamos a coger el pequeño, el 8B.
Nos vamos para acá.
El 8B, el 8B, te sitúa en este punto de la gráfica, choca aquí, y cuando bajas para acá te marca un punto,
fijaos que abajo es escala logarítmica, con lo cual, pues vamos a poner 150.000 millones de parámetros,
perdón, 150.000 tokens, o 150.000, 200.000 tokens.
Es decir, para una maleta de 8B, lo idóneo que deberías de meter es 150.000 tokens de datos durante el entrenamiento.
Pipi, pipi, pipi. Durante el entrenamiento deberías de meter esa cantidad de información.
Si metes más, ¿está mal? No, no está mal, pero estás haciendo un esfuerzo extra que te saldría más rentable para tu entrenamiento,
sería más óptimo si en vez de coger una maleta de 8, cogieras una maleta de 10, ¿vale?
Si tú quieres meter más datos, si te mueves para la derecha, pues a lo mejor te compensa coger una maleta de 10, ¿vale?
No me seas bestia, no aprietes todo mucho, ¿vale?
Pues en este caso, meta, es que, joder, nos vamos fuera de la gráfica, meta para una maleta de 8, ¿vale?
Si nos situamos aquí, para una maleta de 8, no ha metido 150.000 tokens de datos, no ha metido un trillón de datos,
o sea, un billón de datos, perdón, no ha metido 10 billones de datos, ha metido 15 billones de datos.
15 billones de datos. 15 billones de datos. Eso es muchísimo. Muchísimo.
Eso es súper ineficiente a nivel de entrenamiento. Es decir, meta, lo que ha dicho es,
oye, yo este modelo, te voy a meter hasta el último calcetín, aunque me cueste la vida,
aunque tenga que dedicar de energía aquí lo que haga falta para comprimir esta información
y meterla dentro del modelo y que te lleves la maleta con todo lo que necesitas.
Es súper, súper, súper, es un entrenamiento carísimo para ellos.
Porque lo que te está diciendo es, contra, no, no, entrena un modelo mucho más grande, ¿vale?
Entrena un modelo mucho más grande. Podría ser que a lo mejor, o sea, yo he dicho 15 trillones,
sí, no, es que creo que era 15 trillones, es que creo que no me estoy equivocando, es que es una salvajada.
Creo que está por aquí, sí.
Sí. Podrían haber hecho un entrenamiento mucho más óptimo con un modelo más grande,
pero meta ha sido súper, súper inteligente y son súper majos por ellos.
Aquí está el tuit que lo dice. Dice, sí, entrenamos en mucho más de lo que Chinchilla,
o sea, hemos entrenado el modelo mucho más que en el óptimo que Chinchilla nos recomienda.
Por lo que a sabienda estamos intercambiando capacitación para ayudar a la comunidad con los costes de inferencia.
Es decir, meta ha hecho esto de una forma súper inteligente porque es,
sabemos que estamos entrenando el modelo de forma súper subóptima,
o sea, estamos haciendo un esfuerzo muy extra por meter un poquito más de información,
y el modelo se seguía entrenando, o sea, las curvas podían seguir progresando.
Estamos incurriendo en un coste de entrenamiento súper alto,
pero con el fin de no tener que hacer un modelo más grande,
sino para poder dejártelo en la maletita pequeña.
Porque para la comunidad, tener maletitas pequeñas es la leche.
Significa que vosotros, con un modelo de 8.000 millones de parámetros,
lo podéis ejecutar en vuestra GPU la mayoría de todos vosotros.
8 GB caben perfectamente en muchas de las GPUs comerciales que tenemos.
Y tener menos parámetros también hace que el coste de inferencia,
que de forma marginal por cada usuario que lo uses es muy pequeñito,
comparado con todo lo que sería el coste de entrenamiento,
pero claro, multiplícalo por todos los usuarios, por todas las organizaciones,
por todas las empresas que van a utilizar este modelo,
ese coste de inferencia agregado, si tú lo has reducido porque tu modelo es más pequeño,
es una ventaja.
O sea, han decidido apostar todo el gran esfuerzo en el entrenamiento
para que luego la inferencia, que va a ser masiva,
porque este es un modelo que va a tener una utilización masiva,
tenga mayores ahorros.
Esto es súper interesante.
Esto es súper, súper interesante.
¿Vale?
Es una apuesta que Meta ha hecho y que ha dejado a todo el mundo en plan,
ok, y que yo creo que está abriendo un camino para que otras organizaciones
y más gente se plantee escapar un poco de lo que es el óptimo de chinchilla,
que es esta gráfica que hemos visto,
donde siempre se busca este equilibrio entre cuántos datos tengo
y qué tamaño tiene que tener mi modelo,
para hacer entrenamientos que son subóptimos,
pero que beneficien a la comunidad por unos costes de inferencia más reducidos.
¿Vale?
Entonces, eso está bastante guay.
Esto de los billones en español y billones en inglés es estresante.
Lo sé.
Lo odio.
Es quizás lo que más odio del mundo de la IA
y ojalá lleguemos ya, no sé, a órdenes de magnitud
donde no haya tanto lío con las métricas.
¿Vale?
Entonces, esto es lo que están ofreciendo.
Aquí está nuestra amiga La Llama
y es todo, todo una locura.
¿Vale?
Es todo, todo una locura esto.
Entonces, el modelo está disponible.
El modelo lo podéis descargar, lo podéis utilizar.
Podéis utilizarlo en Hugging Chat, por ejemplo.
¿Vale?
Hugging Chat, que es el chat de la gente de Hugging Face.
A ver si no me equivoco.
Aquí tenemos meta.
Uy, pero el System Prompt creo que tendríamos que buscarlo.
A ver, vamos a ver si de salida tiene.
Bueno, no más rápido, lo voy a probar en LM Studio.
Bueno, tenéis un montón de herramientas para probarlo.
Tenéis Hugging Chat, podéis probarlo en...
Seguramente Perplexity ya lo tenga desplegado en su laboratorio.
Y también tenéis que recordar que en el .cvLab,
en el canal secundario de este canal,
donde hacemos cosas más prácticas
y vamos probando diferentes cositas,
hay un tutorial donde os enseño a utilizar esta herramienta de aquí.
Esta herramienta de aquí es LM Studio
y es un...
Bueno, es una interfaz.
Ahí también está Oyama,
hay gente que prefiere una,
hay gente que prefiere otra.
LM Studio es básicamente un gestor de modelos de lenguaje
donde podéis buscar todos los modelos que van saliendo.
Podéis instalarlo, descargarlos
y según los requisitos de hardware que tengáis,
pues podéis utilizarlo en vuestro equipo.
Entonces, es súper sencillo.
Por ahora solo está el modelo, el 8B.
Seguramente a lo largo del día de hoy aparezca el modelo 70B.
Y nada, simplemente descargarlo.
Y cuando lo tengáis descargado, ¿vale?
Entre los modelos,
pues simplemente seleccionar el que queráis.
Yo en mi caso puedo seleccionar aquí el modelo...
Este de aquí, exacto.
El modelo, fijaos, vamos a buscar un momento...
Si me meto aquí...
Mira, si me meto en la parte de la herramienta
donde está el modelo 8B,
el modelo 8B puro...
O bueno, esto ya tiene cuantización.
O sea, a 8 bits,
el modelo funciona
ocupando 8,54 GB de memoria.
Este funcionaría en una tarjeta gráfica
medianamente potente.
A partir de ahí,
hay opciones hasta 5 GB
ocupando en memoria
que podéis descargar y utilizar sin problema.
Entonces, esto es una muy buena noticia.
Esto es una muy buena noticia.
El modelo, ¿qué tal funciona?
A ver, el de 8B,
dentro de ser muy competente para varias tareas,
no va a funcionar, por ejemplo,
muy, muy por encima de ChatGPT 3.5,
por ejemplo, ¿vale?
Para tener conversaciones profundas,
seguramente tenga alucinaciones,
seguramente tenga ciertas cosas.
Pero para ciertas tareas,
pues a lo mejor generación de datos sintéticos,
a lo mejor quieres automatizar
algún proceso de procesamiento de lenguaje natural,
a lo mejor quieres hacer alguna llamada,
alguna función de una aplicación,
estos modelos,
si los podéis utilizar.
Y si lo tengo cargado aquí,
creo que lo tengo cargado,
lo tengo cargado en GPU,
puedo dar la nueva conversación,
le puedo decir,
hola.
¿Vale?
Y creo que esto está funcionando
correctamente.
Fijaos,
me ha dicho,
hola, ¿cómo estás?
Hello, how are you?
I'm here to help you
with anything you need.
What is your mind today?
Se ha pasado el inglés.
Le voy a decir aquí,
a la derecha,
en el System Prompt,
que me hable,
speak in Spanish,
please.
Que me hable en español,
y vamos a ver si,
¿qué tal estás?
Estoy bien,
gracias por preguntar,
soy una inteligencia artificial diseñada
para ayudarte con cualquier tarea
o consulta que tengas,
bla, bla, bla, bla, bla.
Estoy listo para responder
a tus preguntas.
Le voy a decir,
oye,
¿qué pesa más?
La típica pregunta,
¿un kilo de plomo
o medio kilo de plumas?
Razona tu respuesta
paso a paso.
Excelente pregunta.
Primero debemos definir
qué es pesar más.
En este contexto,
se refiere a cuál objeto
tiene una masa mayor.
La masa se mide en unidades
como el kilogramos.
Un kilo de plomo
pesa exactamente un kilo.
Medio kilo de plumas,
suponemos que son plumas ligerísimas,
como la de una ave,
pesaría cero.
¡Ja!
¡Qué tonto eres!
La razón es que las plumas
no tienen masa significativa,
aunque pudieran tener algún peso
debido a su estructura y composición.
Es significante
en comparación,
bla, bla, bla, bla, bla.
¿Vale?
En este caso,
el modelo está razonando fatal
y, bueno,
pues habría que evaluar
si en inglés funciona mejor,
si funciona peor,
si a lo mejor
este tipo de preguntas
todavía no las razona.
ChatGPT 3.5
creo que también
esta pregunta me la falla,
entonces, bueno.
Podéis jugar con esto,
podréis jugar con el modelo
de 70B cuando salga.
El modelo de 400B,
no sé qué pasará con ese modelo,
no sé qué utilidad
va a tener dentro
de todo el boom
de lo que está sucediendo.
Y la gran pregunta es
¿y ahora qué?
¿y ahora qué?
¿Qué pasa ahora?
A ver,
yo esto lo definí
el otro día en Twitter
como que estamos viviendo
un cambio de fase
desde mi punto de vista.
y esto se explica muy bien
con la gráfica,
esta gráfica de aquí.
Estamos viviendo
un cambio de fase
a mi gusto
y el cambio de fase
viene representado
por lo siguiente,
fijaos.
Esta gráfica
lo que nos está mostrando
es el rendimiento
de los modelos de lenguaje
con el
benchmark
MMLU
que es uno de los más populares
que se utilizan
que mide la inteligencia
de estos sistemas.
En la línea roja
tenemos los modelos
cerrados
y en la línea verde
los modelos abiertos.
Y aquí vemos
el desarrollo temporal
que ha tenido esto
hasta abril del 2024.
¿Qué observamos
en la tendencia?
La tendencia
lo que nos muestra
es
los modelos cerrados
y los modelos abiertos
convergen
a un punto.
En algún momento
en el futuro
los modelos cerrados
y abiertos
convergen.
Y eso
pues parece muy interesante.
¿Vale?
Parece que
fijaos
gracias a la salida
de llama
gracias a la salida
de llama
a partir de aquí
empiezan a florecer
algunos modelos
a partir de la salida
de llama 2
empieza a explotar
todo esto
y empezamos
a tener nuevos competidores
y muchos más modelos
que no están listados aquí.
Y poco a poco
si os dais cuenta
si situáramos en esta gráfica
lo que llama
3 rinde
el modelo más grande
el de 400.000 millones
de parámetros
que tiene un 0.86
estaría aquí.
Es decir
ya habría llegado
al nivel
de los modelos
open source
perdón
de los modelos cerrados.
Esto es
una muy buena noticia
pero también me parece
que supone
un cierre de fase.
Si vamos a seguir
viendo modelos
en open source
o sea modelos abiertos
open weights
cada vez más rápidos
más potentes
más inteligentes
más capaces
todo eso lo vamos a ver
pero creo que estamos
en el punto
en el que ahora
las grandes
y sobre todo
open AI
le toca dar el paso.
Si te dais cuenta
en esta gráfica
hay un único punto
que es un outlier
frente al resto
de la competencia
tanto abierto
como cerrado
y es GPT4.
Llevamos un año
intentando escalar
el monte GPT4
y ahora estamos
en la cumbre
y cuando estamos
en la cumbre
nos damos cuenta
que la montaña
le crecen patas
y vuelve a crecer.
Open AI
creo que tiene ahora
la presión
del mercado
obviamente
están liderando
pero están viendo
como rápidamente
se les acercan
creo que tienen
la presión
para sacar algo nuevo
y creo
desde mi punto de vista
ya lo he comentado
otra vez
creo que estamos
cerca, cerca, cerca
muy cerca
en un mes
dos meses
de que Open AI
saque algo nuevo
y que sea un cambio
de paradigma
que ya no sea continuista
en esta evolución
de los modelos
de lenguaje
sino que abra
un nuevo camino
donde la comunidad
de open source
de nuevo
pues lo verá
y dirá
ostras
¿podríamos hacer
un modelo de este tipo?
Si, no, no sé
venga, va
lo intentamos
y acabar llegando.
También es muy buena noticia
y esto hay que comentarlo
que desde que sale GPT-4
y rompe esta tendencia
hasta que ha salido
el modelo
de meta
de llama
ha pasado
un año
año y medio
como máximo
año y medio
eso significa
que
para el tipo
de árbol de tecnología
que estamos desbloqueando
un año y medio
para el potencial
que estamos desbloqueando
es nada
es nada
y le dejan
muy poca ventaja
a los modelos privados
para poder competir
hay empresas
como Antropic
que ahora están viendo
que la comunidad
ahora tiene un modelo
open source
competente
casi como lo que yo tengo
y lo que ofrezco
como servicio
entonces
estamos moviéndonos
muy rápido
eso está muy guay
lo estamos haciendo
de la mano de meta
eso no hay que olvidarlo
si meta
cierra el grifo
se nos jode el invento
por ahora
luego pueden haber
otros competidores
tenemos a Mistral
a la gente de Francia
que también están haciendo
un trabajo increíble
siempre hay nuevos actores
que se quieren beneficiar
de la buena imagen
que te da
dar modelos en abierto
y parece que
Mark Zuckerberg
que ayer lo confirmaba
en un podcast
ya están entrenando
la cuarta versión
de Yama
y van a sacar
modelos más potentes
en el futuro
seguramente
continuando con esta línea
tan impresionante
que son los modelos
Yama
que siempre que llegan
generan un terremoto
con esto chicos
es un poquito
lo que quería comentar
quería hablaros
de la noticia
me parecía muy importante
quería soltaros
toda esta información
que ya he grabado
antes hace dos horas
pero bueno
estaré leyendo
los comentarios
que dejéis abajo
sabéis que tenéis
el tutorial
en el .csvlab
donde está toda la información
de cómo usar
el MStudio
y cómo utilizar
ciertos
truquitos
para que uses
parte de la GPU
de la CPU
bastante sencillo
de la herramienta
si queréis ver
algún vídeo interesante
pues esperad
a la semana que viene
que tengo vídeos preparados
pero es que la actualidad
me tiene con la lengua afuera
y si queréis ver un vídeo
también está el de modelos
del mundo
que sacamos hace
una semana y pico
que es un vídeo
bastante con teoría
con conceptos
bastante interesantes
que conocer
y que seguramente
os va a interesar
si no lo habéis visto
pues lo buscáis en el canal
chicos, chicas
muchas gracias
me despido
a la gente del chat
que estaba por aquí
que os estaba leyendo
con el rabillo del ojo
y nos vemos
en un próximo directo
en un próximo vídeo
chao, chao
chao