This graph shows how many times the word ______ has been mentioned throughout the history of the program.
Si 2022 fue el año en el que la IA generativa empezó a despegar para llevarnos de esto a esto,
2023 será recordado como el año de la IA generativa de texto,
el año de los enormes modelos del lenguaje y en concreto el año de ChatGPT.
Y el culpable tras esto es una empresa que también ha sido bastante protagonista este año,
con un montón de titulares y cuatro SEOs diferentes, OpenAI.
Una empresa que, como muchos hemos comentado, carga tras sus espaldas una de las mayores ironías del mundo del Deep Learning actualmente,
el Open de OpenAI.
Porque a la compañía Samadman le tenemos que reconocer haber llevado la inteligencia artificial hacia cotas de popularidad
que hace dos o tres años nadie hubiera esperado, con tecnologías como ChatGPT o Dalí.
Pero esto se ha logrado a costa de cerrarle la puerta al mundo académico,
donde tradicionalmente a través de papers científicos se compartían recetas de cómo funcionaba tu modelo,
qué arquitectura había utilizado, qué datasets, qué tamaño tenía, todo.
Recetas que luego permitían al resto de la comunidad poder construir y replicar aquella tecnología que tú habías presentado.
Por eso de que la ciencia tiene que ser reproducible y estas cosas.
En los últimos años, OpenAI ha cambiado las investigaciones en abierto por productos,
los papers científicos por technical reports que son extensos pero están vacíos,
y la reproducibilidad académica por los secretos industriales.
En el mundo del Deep Learning, los grandes jugadores ya no enseñan sus cartas.
Y un gran ejemplo de esto lo hemos visto durante todo este año con el caso de GPT-4.
¿Por qué? ¿Qué sabemos de este modelo?
Bueno, ¿qué nos ha contado OpenAI? Pues poca cosa.
Y es que si nos vamos al Technical Report presentado por OpenAI en marzo,
pues ya nos contaban que sí, que estábamos ante un modelo generativo preentrenado de tipo Transformer.
Gracias, no era algo que se pudiera intuir de las siglas de Generative Pretrained Transformer,
que dan nombre a GPT.
Pero, aparte de esto, ¿qué más sabemos?
Pues si profundizamos en las 100 páginas de este documento técnico,
pocos datos más interesantes podemos encontrar.
Y por eso, en este panorama de incertidumbre, de desconocimiento sobre cómo funciona GPT-4,
en julio de este año causaron mucho revuelo las palabras del bueno de George Hutz,
un conocido de la industria que parecía tener cierta información interna de cómo funcionaba esta tecnología
y que no tuvo problema de filtrar en el siguiente podcast.
Bueno, ok, so GPT-4 is 220 billion in each head, and then it's an 8-way mixture model.
So, mixture models are what you do when you're out of ideas.
So, you know, it's a mixture model.
Well, ok, we can't really make models bigger than 220 billion parameters.
We want it to be better. Well, how can we make it better?
Well, we can train it longer.
And, ok, we've actually already maxed that out.
Getting diminishing returns there, ok.
Mixture of Experts.
Yeah, Mixture of Experts. We'll train 8 of them, right?
So, alright, so, you know, you know, the real truth is whenever a start, whenever a company is secretive,
with the exception of Apple, Apple is the only exception,
whenever a company is secretive, it's because they're hiding something that's not that cool.
GPT-4 no era un modelo como GPT-3, pero más grande.
No.
GPT-4 era un MOE, lo que se conoce como un Mixture of Experts.
Algo que luego otros blogs con información interna como semi-análisis también se encargaron de filtrar en este artículo.
Y donde de nuevo volvíamos a ver la palabra MOE.
¿Qué es un MOE?
En el vídeo de hoy vamos a estar hablando de por qué esta arquitectura es tan interesante.
Y también os voy a contar al final por qué estamos hablando de esto ahora, en diciembre y no en julio, cuando ya se supieron estas informaciones.
El motivo, os puedo adelantar un poco, es la aparición de modelos, open source, que también están utilizando esta arquitectura y que poco a poco se empiezan a aproximar a ChatGPT.
Para entender a GPT-4 primero tenemos que entender mejor a GPT-3, un modelo en cuyo corazón late una arquitectura que desde 2017 ha venido transformando el mundo del Deep Learning, el Transformer.
Los Transformers son las redes neuronales que dieron luz a modelos como BERT o GPT-2, modelos capaces de modelizar y generar lenguaje como nunca antes habíamos visto.
Y un modelo que no ha parado de crecer. Y es que parecía que entre mayor era este Transformer, entre más parámetros tenía, más datos y más computación se le daba, mejor desempeñaba su tarea.
Aquí el tamaño importaba. Y de ahí surgió el concepto de enorme modelo del lenguaje. O LLM.
E investigar estos enormes modelos del lenguaje fue la senda tomada por una empresa como OpenAI, que año tras año nos fue trayendo cada vez modelos del lenguaje más grandes y potentes.
GPT-2, GPT-3, GPT-3.5, que dio vida a ChatGPT y así sucesivamente.
Y claro, siendo esto así, viendo la tendencia, pues hace un año la pregunta era la siguiente.
Oye, ¿qué tan grande llegará a ser GPT-4?
Lo que podríamos esperar, pues sería un modelo como GPT-3, pero más grande.
Pues aquí había un problema.
Y es que si volvemos al artículo de Semi Análisis y nos fijamos ahora en el subtítulo, podemos leer lo siguiente.
Desmitificando a GPT-4.
Los compromisos o equilibrios que han llevado a OpenAI a esta arquitectura.
Y es que el problema es el siguiente.
Sí, hacer modelos cada vez más grandes parece recompensarte con modelos más inteligentes.
Pero esto tiene una contrapartida.
Porque si recordáis, dentro de GPT lo que tenemos es un transformer.
Y estos transformers no dejan de ser redes neuronales artificiales, con sus neuronas artificiales, con sus parámetros y con la tarea de hacer los cómputos necesarios para llegar a un resultado.
Y claro, a más grandes el modelo, a más parámetros tiene, mayor es el número de cómputos que hay que hacer.
Y por tanto, mayor es el coste de computación.
Es decir, ejecutar modelos grandes cuesta dinero.
Y esto es algo que no le interesa a nadie.
Ni a ti, ni a OpenAI.
Como mucho al CEO de NVIDIA que en todas estas batallas de la IA siempre gana, pero por el resto de los mortales, a nadie.
Porque por un lado, cuando tú estás frente a ChatGPT y mandas tu frase dándole a Enter, esta se tiene que procesar en este enorme transformer, ejecutando y disparando todas las neuronas en su interior,
solo para generar un trozo de palabra que va a empezar a conformar tu respuesta.
Ese trozo de palabra luego, repetidamente, va a tener que volver a pasar por el transformer para ir así agregando cada vez más trozos y componer tu respuesta final.
Y esto, entre mayor es el transformer, más lento es para ti.
Más lento para ti y más costoso para OpenAI, que tendrá que dedicar más recursos de computación por token generado.
¿Veis el problema?
Y este enorme gasto de computación nos lleva a la siguiente observación.
A ver, si a ChatGPT le quiero preguntar cómo se programa en Python un script, ¿qué sentido tiene molestar a todas las neuronas del modelo?
Tanto las que sí, las que se encargan de labores de programación, pero también las que se encargan de escribir un poema o de indicarme que es un pangolín.
No tiene sentido, ¿no?
Esto sería como si en una empresa, para cada proceso que se quisiera hacer, tuviéramos que involucrar a todos los trabajadores que hay en ella.
De hecho, aquí la mejor opción sería la de involucrar la idea de divide y vencerás.
Una idea que da lugar al concepto de Mixture of Experts.
Entonces, veamos.
Hasta ahora, el tipo de modelo del que hemos venido hablando, donde todas las neuronas se disparan en cada inferencia, es lo que se conoce como un modelo denso.
Denso por la alta densidad de activaciones que se produce en cada paso.
Y esta idea ahora la vamos a enfrentar al concepto de MOE, donde el modelo, el total de sus parámetros,
ahora lo vamos a dividir en subgrupos que vamos a permitir que se especialicen en tareas concretas.
A cada uno de estos submodelos se le denominará experto, por su expertiz en una tarea concreta.
Y de ahí es de donde viene el nombre de este tipo de arquitectura.
MOE, Mixture of Experts o Mezcla de Expertos.
Y esta no es una idea nueva.
Esto viene existiendo en el mundo del Machine Learning desde hace décadas.
Pero sí es una idea que ahora nos resulta útil por el ahorro que nos supone.
Porque a diferencia de antes, ahora, por cada inferencia solo se activarán los parámetros comunes,
que servirán para un procesamiento inicial y para entender el input,
y así tomar la decisión de hacia qué experto derivar el resto de la computación.
Ah, que estás haciendo un script de Python.
Pues mira, aquí el que se debe de encargar será el experto especializado en tareas de programación,
activándose únicamente los parámetros de la parte del modelo que sea importante para dicha tarea.
¿Lo veis?
¿Tiene sentido?
Pues aparentemente uno de estos MOE sería la arquitectura que haría funcionar a GPT-4.
La arquitectura que OpenAI no quiere que conozcas.
Según filtraciones y especulaciones, se cree que GPT-4 podría ser un modelo de 1,8 billones de parámetros.
Cosa que le dejaría en un tamaño 10 veces mayor que el tamaño de GPT-3,
que ya nos impresionó en el pasado.
Y claro, 1,8 billones de parámetros es una barbaridad.
Al menos para los estándares actuales de 2023.
Y aquí lo que tenemos que pensar es que realmente OpenAI sí nos está dando esta cantidad de parámetros,
pero bajo la configuración de Mixture of Experts que venimos comentando.
Y el resultado sería la siguiente arquitectura.
GPT-4 sí, sería un modelo de 1,8 billones, pero estos estarían distribuidos entre 16 módulos expertos.
Cada uno de estos módulos contaría con 111 mil millones de parámetros y GPT-4 por diseño solo elegiría como máximo a dos de estos expertos por cada inferencia.
Es decir, en total por cada trocito de palabra que se predice, estaríamos activando dos de estos 16 módulos.
Y si hacemos los cálculos, pues dos módulos que se activan de 111 más la parte troncal de 55 mil millones de parámetros,
notan un resultado de 280 mil millones.
280 mil millones de parámetros que se activarían en cada inferencia,
y lo que supondría una fracción del tamaño total del modelo.
Esto, amigos y amigas, sería la arquitectura que estaría tras la pantalla cada vez que habláis con GPT-4.
Presuntamente.
Y es que, como hemos empezado el vídeo más allá de filtraciones fiables, no tenemos una confirmación oficial ni paper.
Y es que, en cierta forma, OpenAI ha hecho una gran inversión y quiere mantener la ventaja competitiva.
De ahí a mantener en secreto gran parte de lo que hace exitoso a una tecnología como ChatGPT.
Pero, si el motivo era este, el mantener alejados a los competidores en esta gran carrera por la IA que se está produciendo ahora mismo,
pues tenéis que saber que la carrera cada vez está más apretada.
Y es que estas filtraciones han puesto a trabajar a los mecánicos,
y ahora en esta carrera contamos con otro coche en cuyo interior late un motor de tipo MOE.
Y este coche no de Google, no de Microsoft, es de la comunidad Open Source.
En este caso, de la escudería francesa Mistral.
2023 ha sido un año de altísima intensidad en el panorama de los modelos de lenguaje Open Source.
Cada semana y cada día, más organizaciones se suman a entrenar y compartir con la comunidad sus modelos.
Y estos, pues claro, cada vez se van volviendo poco a poco más inteligentes, más eficientes, mejor optimizados o más sencillos de utilizar.
De hecho, ya aquí en verano estuvimos hablando como incluso grandes compañías como Meta,
están potenciando esta revolución con modelos en abierto como Llama 2.
El motivo de por qué nos interesa tener un modelo Open Source es evidente.
Por una parte, que la comunidad cuente con modelos nos permite experimentar y optimizar de forma más ágil,
haciendo que todo progrese más rápido.
Y luego, por otro lado, para la mayoría de usuarios de estos modelos,
poder ejecutarlos por tu cuenta en tu ordenador sin mayor coste que el de la electricidad de tus GPUs,
posibilita muchas oportunidades,
pudiendo hacerlo además sin la necesidad de tener que estar mandando tus datos a empresas de terceros.
Y de ahí que nos interese tanto, pues contar con estos modelos Open Source.
Y la buena noticia es que una de estas compañías que a lo largo de este año nos ha ido regalando modelos en abierto de calidad,
la compañía francesa Mistral AI,
recientemente, hace dos semanas, volvió a sacudir el panorama de los LLMs en abiertos
con un nuevo modelo Open Source.
Un modelo que llegó de la forma más extraña posible, no llegó ni con un blog ni con una presentación al puro estilo Silicon Valley,
sino que se trató de un tuit.
Un tuit con un enlace a un torrent.
Un torrent que si lo descargabas, ¡boom!
Te descargaba los pesos de un nuevo modelo.
Mistral 8x7b.
Y un modelo que a pesar de contar con 46 mil millones de parámetros,
se puede ejecutar a la velocidad y coste de un modelo cuatro veces más pequeño.
Porque sí, el modelo Mistral también es un MOE.
Y de hecho el nombre viene de ahí.
La compañía se llama Mistral AI,
la línea de modelos que han ido sacando han sido los modelos Mistral.
Y ahora, como esto es un Mixture of Expert,
pues han decidido llamarle Mistral.
Y luego aparte de eso, tenemos el 8x7b.
Y aquí ahora podéis entender que este 8x lo que viene a referirse es al número de expertos.
La cantidad de submódulos que conforman a este sistema.
¿Lo veis?
Y la ventaja de este modelo, como sucedía antes, es que sí,
por su tamaño, es un modelo que rinde bien.
De hecho, por capacidades, ya se ha visto que supera a Llama 2 con 70 mil millones de parámetros
y también por la valoración de los usuarios en el ranking público LLM Arena,
donde se hacen valoraciones a ciegas entre modelos,
Mistral a día de hoy parece igualar en rendimiento a GPT 3.5.
Y la ventaja, como decía, es que aunque es más potente que Llama 2,
también es 6 veces más rápido.
Por el uso inteligente que se hace de la activación del modelo,
tal y como hemos visto antes.
La buena noticia y el titular para acabar el año es que sí,
ya contamos con un modelo open source que iguala en capacidades a ChatGPT 3.5.
Y la mala noticia es que el modelo viene de los franceses.
¿Quién ha escrito esto?
No, no, no.
Pero una mala noticia que sí podríamos mencionar respecto a esta arquitectura
es que ciertamente si hacen una ejecución bastante eficiente
por el tipo de activación y la distribución en diferentes expertos,
pero tenemos que tener en cuenta que estos expertos todavía tienen que estar disponibles
de alguna forma, aunque no se estén activando,
tienen que estar cargados en la memoria RAM de la GPU en este caso,
y esto nos obliga a tener un alto requerimiento de VRAM en nuestras tarjetas gráficas.
Esto hace que posiblemente el modelo mixtral todavía no sea ejecutable
por gran parte del hardware con el que vosotros contáis.
Pero tened en cuenta que la comunidad open source
ya tiene las manos puestas en este modelo
y están trabajando en bajar esta cifra.
Aún así, si estáis interesados en ver cómo se ejecuta y cómo se instala este modelo,
os voy a preparar un tutorial para el DOT CCV Lab, el laboratorio, os dejo el enlace abajo.
Pero rotundamente sí, esto es una muy buena noticia
y no porque mixtral se vaya a convertir en el modelo de referencia que utilicemos a futuro,
sino porque esto vuelve a subir el listón
para que el próximo contendiente de la comunidad open source
pueda sacar un modelo más potente, más eficiente, más óptimo, más bonito, más reluciente
y que vaya acortando este gap, esta diferencia que existe
entre los modelos open source y los modelos privados.
Y es que si 2023 nos ha parecido el año de los enormes modelos del lenguaje,
preparaos para lo que viene en 2024.
Es decir, si la revolución que estamos viviendo ahora
es la de estar en el siglo XIX y escuchar la noticia de que
¡Ey! Una empresa americana ha descubierto el motor de combustión,
pues ahora el resto del planeta ya empieza a tener los planos y diseños
de motores más pequeños, más funcionales y más adaptables
que podremos empezar a utilizar en nuestros problemas
para crear cada vez más inventos.
Modelos open source cada vez más capaces y optimizados
que podrán ser ejecutados en tus dispositivos
sin necesidad de conectarte a una nube o una empresa de terceros,
donde múltiples modelos del lenguaje se podrán integrar en tus aplicaciones
para ayudarte a generar código, a resolver cada vez más tareas,
a operar con tus datos, con tus archivos, con tus correos,
o actuar como agentes autónomos cada vez más capaces
a los que podremos ir delegando cada vez más tareas.
Creedme, el próximo año 2024 será el año en el que todo esto
deberá de ser construido.
Y mientras tanto seguramente pues también veremos
a los grandes gigantes dando nuevos pasos hacia adelante.
Este 2023 ha sido un año fascinante, fascinante y agotador,
agotador y fascinante son las dos palabras con las que me quedo,
pero ha sido un año donde se han pulverizado de nuevo expectativas
de lo que creíamos que podría venir.
2023 ha superado las expectativas de 2022,
al igual que 2022 superó las expectativas de 2021.
Estamos surfeando una crecida, una curva exponencial
que cada año nos trae más y más cosas.
Estamos viviendo una revolución, la de la inteligencia artificial,
que ya no es una revolución a futuro, sino que es nuestro presente.
Y sea lo que sea, lo que tenga que venir, aquí en DOT CSV os lo estaré contando.
Chicos, chicas, feliz año, os quiero.
Chao.