logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Hola chicos y chicas, vaya grito, os acabo de pegar. Hola chicos y chicas, bienvenidos a un nuevo directo, un directo que va a ser bastante interesante, bastante sustancial en cuanto a contenidos, pero que va a empezar con un fuerte aplauso, un fuerte aplauso para mí, porque la foto, la foto con Jensen.
Bien, amigos y amigas, conseguido el reto, el reto, que susto, os he asustado. Voy a contaros muchas cosas, pero una de las cosas que tenéis que saber es que he estado fuera de viaje, he estado en San Francisco, porque fui para ver el GTC, el evento de NVIDIA, vamos a estar comentando cosas de lo que salió en el evento, y ahí uno de los retos que tenía yo al menos que me propuse fue sacarme un selfie con el señor Juan, con Jensen Juan, y lo conseguimos, ¿vale?
Este no es el selfie, este es el momento de darle la mano, apretón de mano, y se le ve muy entusiasmado al hombre, pues, de poder verme y de poder saludarme.
No todos los días uno tiene la suerte de conocer a DotCSV, y en ese caso el señor Jensen, el fundador y CEO de una de las empresas más poderosas del mundo, la tercera empresa si no me equivoco, pues ahí tuvo ese momento,
esa oportunidad en el GTC. Desde ese momento mi mano, pues ahora tiene aceleración por hardware, ahora va mucho más rápido, no os explicaré para qué.
Hoy en el directo vamos a estar hablando de un montón, un montón de cosas. Y la tesis, un poco que quiero perseguir aquí, es para programar, ¿eh?
Si os estáis preguntando para qué uso la mano. La tesis que voy a seguir aquí es un poco que hagamos focus group, que hagamos un grupo de trabajo,
para intentar adelantarnos o predecir o al menos purgar de nuestros interiores todas estas pesquisas mentales y todas estas dudas que tenemos sobre
hacia dónde se va a mover el campo de la IA, porque sabemos que este es un campo muy dinámico, que evoluciona muy rápido, que no avanza, sino que acelera, ¿vale?
Es decir, no... Si os dais cuenta, nosotros nunca estamos viendo los avances que salen como avances. Es decir, aquí no hay un avance lineal progresivo donde dices,
ah, mira, ahora tenemos un modelo, yo qué sé, sale un nuevo modelo open source y tiene doble de parámetros. Qué bien, lo celebramos. No.
Cuando ya ha salido un modelo open source bastante potente, sale un segundo y un tercero, pero ya luego se nos puede llenar la tabla de los leaderboards
de modelos open source igual de que rinden igual o que rinden mejor, pero ya no nos parece tan tan espectacular porque nosotros estamos esperando
al siguiente breakthrough. Aquí nos movemos a niveles de, bueno, el salto que estamos dando ahora es más grande o nos estamos moviendo a un nuevo nivel,
a un nuevo nivel de abstracción. Eso es lo que pasa y realmente si os dais cuenta, y esto fue una realización que tuve esta semana,
estamos a 2 de abril del 2024. Dalí 2 hace dos años todavía no había salido. ¿Vale? Entonces, es un poco para que nos ubiquemos.
Hace dos años, por estas fechas, todavía Dalí 2 no había salido. Entendiendo Dalí 2, si ignoramos un poco, pues ya lo que el caldo de cultivo
que había con las VQ Gans y todo esto, pues fue un poco el detonante y el boom de toda la IA generativa, sobre todo de generación de imágenes
a partir de texto. A partir de ese momento, de lo que Dalí 2 ofreció hasta ahora, todo lo que ha pasado, incluyendo la destitución de EMAD
de Stability AI, que ahí de eso también lo podemos comentar luego, todo lo que ha pasado, ha pasado en menos de dos años.
O sea, podemos decir por redondear, dos años. ¡Wow! O sea, y si os dais cuenta, a día de hoy vemos un nuevo modelo generativo
y no nos sorprende. ¿Vale? Sale de repente, yo qué sé, un nuevo modelo, inventaos el nombre que queráis, genera una imagen espectacular
que depura un poco los errores y ya no nos interesa. Ya estamos pensando en saltos, en breakthrough, pues quiero vídeo,
quiero generación de 3D, quiero que los órdenes, o sea, que el tiempo de generar estas imágenes baje en órdenes de magnitud.
Nos movemos en escalas logarítmicas, ¿vale? Los avances son exponenciales. Y entonces hoy quiero un poco que pensemos en esto, ¿no?
Porque siempre se dice que el mundo de la inteligencia artificial es una curva exponencial.
Finalmente, las curvas exponenciales no existen en la realidad. Es decir, existen, bueno, curvas sigmoides
que tienen un tramo exponencial, ¿vale? La parte del medio de esta aceleración es exponencial.
Pero la curva llega a un punto en el que no siempre podemos estar acelerando, acelerando, acelerando.
Podemos encadenar curvas sigmoides y eso nos deja una escala exponencial.
Entonces, en esta sigmoide, a mí me gustaría que identifiquemos en qué punto nos encontramos.
Estamos llegando con la inteligencia artificial a un periodo donde, bueno, a lo mejor estamos llegando a un punto de saturación.
A lo mejor no vamos a ver grandes breakthroughs a futuro y nos vamos a quedar con la tecnología que tenemos ahora,
mejorándola, refinándola, haciéndola más eficiente, pero ya está.
Nos encontramos a mitad de camino o nos encontramos en la parte, en un tramo y estamos todavía al principio
y esta parte exponencial va a ser muy larga y eso nos va a dejar en poquitos años en lugares bastante insospechados.
Bueno, todo esto es lo que quiero un poco plantear hoy a través de varias noticias que hemos ido viendo a lo largo de las semanas pasadas.
Vamos a estar hablando de las novedades que se presentaron en el GTC.
En concreto voy a hacer foco a los nuevos procesadores, a la arquitectura Blackwell.
Vamos a estar hablando de los robots de Figure One, vamos a estar hablando de Devin, vamos a estar hablando de los rumores de GPT-5,
vamos a ver algunos de los fragmentos de la entrevista de Lex Friedman con Sam Alman.
Vamos a hacer tantas cosas que yo creo que este directo posiblemente se nos vaya dos horas, tres horas,
pero bueno, os habéis preparado un café, estáis cómodos, estáis aquí con Carlos
y vamos a hablar un poco de lo que nos gusta que es la inteligencia artificial.
Y os contaré algunos rumores y algunas cosillas que he escuchado sobre GPT-5,
que también creo que va a ser interesante, vamos a hablar también de Claude.
No me olvido de Antropic, que estoy muy contento con la gente de Antropic, por cierto.
Ya iremos mencionando por qué.
Son tantas cosas que si se me pasa algo estaré atento al chat para ver si se me escapa, ¿vale?
Intentaré ir contando yo lo que se me ocurra a mí, pero estaré echando un ojo para ver qué comentáis y todo esto.
Vamos a empezar un poco por el GTC, ¿vale?
Como digo, estuve por San Francisco, estuve por el Valle, por The Valley, primera vez que estaba por allí.
Bastante guay la experiencia, tanto que posiblemente en unos meses vuelva a ir para una estancia un poco más larga, ¿vale?
Es una cosa que me estoy planteando, estar ahí una temporada, porque ciertamente me gustó mucho lo que me encontré,
el clima que se vivía ahí en la esfera tecnológica y es una ciudad bastante guay.
Y tuve la oportunidad de asistir aquí al GTC y os digo que la experiencia fue bastante, bastante épica.
¿Por qué?
El GTC es un congreso con un montón de empresas participando, es como la típica feria.
Pues tenéis el vídeo que yo saqué en el canal hace un mes de el Mobile World Congress,
el congreso que se celebra tecnológico aquí en España.
Pues similar en ese sentido, la parte de congreso es como eso.
Y luego está la keynote principal de Jensen, que esta era la primera vez que lo hacía después de todo el periodo de COVID que se vivió
y todos los GTCs que hemos cubierto aquí en el canal en virtual, ¿vale?
Vivirlo en físico es otra cosa, porque esto era un campo de, no sé, creo que era patinaje sobre hielo,
como el típico un estadio a la americana, imaginaos eso.
O sea, para que os hagáis una idea, lo que estáis viendo aquí, lo que estáis viendo aquí, esta gente,
esto era una pequeña fracción de la gente que estaba sentado, era, técnicamente teníamos que haber ido sentados ahí,
pero se llenó, era la zona como de prensa, o sea, todo esto son medios,
y era una fracción muy pequeña para lo que luego era el escenario, que era como dos anillos, tres anillos, cuatro anillos,
o sea, una barbaridad. Y el sonido, Jensen también estuvo bastante jocoso, se le notaba divertido en el escenario,
y es muy interesante porque ya en el vídeo que os subí sobre por qué NVIDIA gana la batalla de la IA,
ahí os explicaba un poco la importancia que tiene todo este evento, ¿no?
Al final pensemos que en toda esta batalla de la inteligencia artificial, al menos hasta ahora,
y esto es importante remarcarlo, al menos hasta ahora NVIDIA es la que está ganando.
¿Por qué? Porque vemos a grandes empresas, vemos a Google, vemos a Microsoft, vemos a Meta,
todos peleando por dominar un poco esta batalla de la inteligencia artificial y por posicionarse ante un futuro
donde sabemos que la inteligencia artificial va a ser protagonista en el tejido empresarial de todo el mundo, ¿vale?
Y esto es una cosa que Sam Allman comenta en la entrevista con Lex Friedman y que tiene mucho sentido,
y es que la computación, la computación como tal se va a convertir en la moneda de cambio del futuro, ¿vale?
Quiero que penséis un poco por qué, o sea, si esto tiene sentido, pensad en un futuro, joder,
inteligencias artificiales como las que empezamos a ver que empiezan a funcionar, ¿no?
Que te hacen el trabajo, que las puedes lanzar en internet y te hace una investigación, pues yo qué sé,
sobre alguna marca o sobre alguna empresa o sobre un cierto sector y por tanto puedes usar esa información
para invertir en bolsa, lo que sea. Todas estas tareas tienen un valor ligado a esto y es un valor
que se extrae como función de la computación, ¿vale? Es decir, a más computación, pues más inteligencia podrás generar
porque eso es lo que ha pasado, hemos ligado la computación a la inteligencia.
Pues esa inteligencia es una función, como digo, de la computación, de la cantidad de computación que tengas.
Entonces, quien domine el futuro de la computación realmente, el futuro de la computación y el futuro energético,
esas son las dos grandes bases del futuro. Quien domine esto va a dominar mucho, va a dominar mucho.
Entonces está toda esta batalla y ahora mismo la que llegó antes a toda esta revolución fue NVIDIA.
NVIDIA con el desarrollo de CUDA en 2006, con la llegada de, bueno, también está toda la época de criptomonedas
y todo esto, pero el desarrollo que ha tenido el Deep Learning sobre la infraestructura de NVIDIA
les ha dejado una ventaja competitiva muy por delante de AMD, muy por delante de otros competidores
y eso ha hecho que ahora mismo, pues en 2023, hay gente que llama aquí al señor Jensen y le dice
oye, necesito H100, necesito más H100. ¿Vale? Esto me lo han contado a mí, estando allí de
oye, tal persona ha llamado que necesita más. ¿Vale? Se están peleando. CEOs de empresas se están peleando por
necesitamos más computación. Entonces eso ha hecho que el precio de NVIDIA se despegue y que pase toda la revolución
que ha pasado y lo entendemos. Entonces todo eso, toda esa revolución que se ha vivido sobre todo en 2022, 2023,
que despega con la salida de ChatGPT, se ha basado sobre todo en el acceso a las H100, que es el tipo de arquitectura
basado, o sea, son los tipos de chips para empresas que están basadas en la arquitectura Hopper
y que son potentísimos para el entrenamiento de inteligencia artificial. En este GTC, NVIDIA venía con una nueva arquitectura
que es Blackwell. De Blackwell sacamos la B y de ahí salen las B100, antes la arquitectura Hopper H100. ¿Vale?
Con eso lo entendemos todo. Perfecto. Digo que es una cosa que hasta ahora NVIDIA viene ganando,
pero esto obviamente no le va a durar hasta la eternidad. ¿Vale? ¿Por qué? Porque ahora ya se sabe
que hay un valor. Ahora ya se justifica el invertir en este sector y ahora hay muchas, muchas empresas
y más que van a parecer que van a querer invertir y que van a querer desarrollar sus propios chips.
Hemos visto cómo Tesla desarrolla sus propios chips para el entrenamiento de los autopilot.
Hemos visto cómo Google tiene sus propias TPUs. Hemos visto cómo la noticia esta que se hizo viral
de Sam Alman que quería invertir en chips. Vemos empresas como Glock que generan chips
que están como pensados para justamente la generación de tokens y que son muy, muy, muy rápidos
y que ha dejado demos impresionantes que muchos habéis probado si habéis estado por la Twitter esfera
de la IA. Glock. Vemos cerebras con chips con obleas enormes que dices tu madre mía,
pero si se te cae hay algo que rompes eso y cuánto cuesta ese chip. Es decir, empieza a haber
un mercado mucho más heterogéneo donde hay mucho más personas que están intentando entrar
al mismo tiempo que nos topamos con un límite físico. Es que los chips no van a seguir escalando
ad infinitum. Aquí hay que llegar a encontrar formas más ingeniosas de diseñar estos chips
para optimizar su uso para inteligencia artificial. Este directo va a estar muy guay porque vamos
a cerrar. O sea, vamos a hacer un círculo completo donde vamos a pasar por muchos temas,
pero el último tema, y esto suena como a típico clickbait para quedar aquí hasta
el final, pero el último tema es de los que hace dos días me quitaban el sueño y eso
va a justificar una cosa que está relacionada con el tema de los chips. Para quien quiera
saber de qué estoy hablando, me refiero al paper de BitNet 1.58, pero eso lo vamos a comentar
al final. Entonces, había mucha expectación por ver qué iba a presentar NVIDIA en este caso
y la nueva arquitectura que han presentado es Blackwell. Entonces, vamos a echar un vistazo.
Vamos a ver un poquito aquí qué presentaron. No voy a poner trozos muy largos, pero sí
quiero que veamos un poco lo que fue la presentación de... ¡Ah! Esta gráfica. Bueno, bueno, bueno, bueno, bueno.
Jensen, señor, ¿qué hiciste? Fijaos. Decidme si se escucha bien.
¡Ah!
¡Ah!
¡Ah!
¡Ah!
One of the industries that benefited tremendously from scale, and you all know this one very
well, large language models. Basically, after the transformer was invented, we were able
to scale large language models at incredible rates, effectively doubling every six months.
Vale. Esta gráfica atrás me hace mucha gracia. Fue como mi primer momento en la presentación
de echarme las manos a la cabeza y decir, ¿qué ha pasado aquí? ¿Qué ha pasado aquí?
A ver si sabéis por qué, a qué me refiero. Pero bueno, esta gráfica lo que nos está
mostrando es como, por una parte, en el eje temporal, pues como a lo largo de los años,
diferentes modelos van apareciendo y van teniendo mayores necesidades en escala logarítmica,
¿vale? Van teniendo diferentes necesidades de computación, de cantidad de petaflops en
este caso, ¿no? Y vemos cómo aparecen modelos, el transformer, GPT1, GPT2, GPT3,
palm, plum, chinchilla, tal. Uy, y aquí arriba hay un punto. Aquí arriba hay un punto,
perdón. Estoy tapando la gráfica, no me había enterado. Uy, a ver. Aquí tengo una pantalla
de estas enormes. Claro. Vale, vale, vale, vale. Si pongo el vídeo en pantalla completa,
se tapa. Vale, vale, vale, vale. Sí, sí, sí, tranquilos, tranquilos. No os pongáis nerviosos.
Vale, vamos a hacer una cosa. Lo voy a poner como a pantalla así. Así. Tiene más sentido.
Y esto así. Vale, aunque la interfaz se vea bastante grande. Modo cine. Venga, así. Así lo veis bien.
Fijaos en la gráfica.
Aquí arriba marcan GPT-MOE 1,8T. GPT-MOE 1,8T. Si recordáis el vídeo que saqué sobre Mixter of Experts,
MOE, ahí os hablaba de una cosa muy curiosa y es que no tenemos información sobre cómo GPT4 se ha entrenado,
no tenemos información de qué arquitectura utilizan, no sabemos qué tamaño tiene, pero sí sabemos,
porque se ha filtrado desde el año pasado, creo que fue George Hotz el primero que lo estuvo,
que lo hizo público, sí sabemos que GPT-4 es un Mixter of Experts, sí sabemos que su tamaño se estima
que son, si no recuerdo mal, creo que 8 expertos por 200 y pico billions de parámetros.
Si lo sumas te sale 1,8 trillions, ¿vale? Es decir, sí sabemos que GPT-4, pero por filtraciones no oficiales,
es un Mixter of Experts de 1,8 trillones de parámetros. Entonces, que de repente en una conferencia oficial,
y digo oficial porque, a ver, aquí tenemos que entender una cosa. Jensen y Sam Alman se hablan, ¿vale?
Son clientes, cliente tal, y saben cosas entre ellos. Que hayan puesto en una charla la confirmación oficial
de que este es el tamaño de GPT-4 es salseante, es una salsa. No cambia nada porque es información que sabíamos,
pero es como una confirmación, ¿vale? Es una confirmación pública de esto y durante toda la presentación
habla de esto, no habla explícitamente como GPT-4, pero sí siempre habla de un MOE de tipo 1,8T
y es bastante gracioso. Y luego preguntándole a la gente de ahí, pues me dijeron que posiblemente
algún, alguien se haya equivocado internamente de esta gente que se encarga de preparar la diapositiva y tal.
Bueno, de preparar la conferencia en sí, porque obviamente esto no es Jensen que se siente y lo prepare.
Pero bueno.
Aquí, mira.
Es que lo dice explícitamente. O sea, a lo mejor pidieron permiso, puede ser, ¿eh? A lo mejor pidieron permiso,
pero dice, el último modelo de OpenAI, State of the Art OpenAI Model, es aproximadamente 1,8 trillones de parámetros.
Tela.
Sí, perdón.
1,8 billones en español, que es un lío lo de billions, mil millones de parámetros, trillions, billones de parámetros.
¿Vale? No nos confundamos.
Per second.
Now we just have to do some CO math right now, just hang with me.
So yeah, 30 billion quadrillion.
Bueno, aquí lo que nos está contando es eso, ¿no?
Que la escala de los modelos va creciendo y que como la escala de los modelos va creciendo,
pues las necesidades en computación también van escalando de la misma forma.
Entonces, que tienen que responder a esta escala.
Y esto es un poco lo que se habla siempre de la ley de Juan, que rompe la ley de Moore
y que la computación está creciendo a un ritmo no predicho por la ley de Moore,
sino que está siendo como mucho más rápido.
Y todo esto acaba en, bueno, pues la presentación del nuevo chip, que es Blackwell,
que es a donde quiero saltar, que quiero que veáis, porque el vídeo está bastante guapo.
Esas innovaciones fundamentales es lo que nos trae aquí.
Y aquí estamos, como vemos el marido de ChatGPT emergir en frente de nosotros,
también nos cuenta que tenemos un largo camino para ir.
Necesitamos modelos más grandes.
Necesitamos modelos más grandes.
Necesitamos modelos más grandes que se entrenen de forma multimodal,
Necesitamos más computación.
Básicamente es la conclusión de Garcet.
Necesitamos modelos.
Y justo como aprendemos de ver la televisión.
Y así, habrá un montón de videos de ver.
Así que estos modelos puedan ser basados en física.
Entiendan que un arma no va a través de una pared.
Y así que estos modelos tendrán un sentido común.
En ver con muchos videos del mundo,
combinados con muchos idiomas del mundo.
Utilizarán cosas como generación de data sintética.
Utilizarán estos modelos.
Y esto es una cosa que ya también nos predije en el vídeo de septiembre
de cómo será el futuro de la IA.
Vídeo que está muy vigente porque parte de las predicciones que hacía en ese vídeo
estamos en ese punto ahora.
Estamos en el punto de cumplirse mucho de lo que estábamos comentando.
Uso de datos sintéticos.
Tenemos IA generativa capaz de generar datos que ya pasan a ser como...
Pasan a ser datos de calidad para poder entrenar al modelo.
Y esto es una cosa que se está investigando.
¿Hasta qué punto los datos sintéticos tienen el mismo valor en el entrenamiento
que datos reales?
¿Vale?
Súper interesante.
Uso de datos sintéticos.
Ojo con esto también.
Usar la imaginación para entrenar a la IA.
De la misma forma que nosotros la utilizamos para aprender.
Este va a ser el tema del próximo vídeo que saldrá este domingo.
Guapísimo.
Vídeo que llevo currando en él.
Llevamos currando en él.
Y también mi editor ya tres semanas.
Bastante espectacular.
Sobre modelos del mundo.
Temazo.
Vale, la verdad, chiste de Jensen.
Vamos para adelante, venga.
Chiste, chiste.
Chiste, chiste.
Chiste, chiste.
Vale, eso.
Modelos más grandes con mayor necesidad de entrenamiento, de cantidad de datos,
de computación y de computación y que eso va a requerir entrenar, o sea, crear, diseñar
nuevas y más potentes GPUs.
Hopper es fantástico.
Pero necesitamos más GPUs.
Y así, señoras y señores,
y hacen falta nuevas GPUs más grandes.
Y nos va a presentar una GPU muy, muy, muy, muy grande.
¿Vale?
Named after David Blackwell.
Mathematician.
Game theorists.
Probability.
We thought it was a perfect, perfect name.
Blackwell, ladies and gentlemen, enjoy this.
¿Vale?
Y entonces aquí tenemos el chip.
Entonces, este video es lo típico que le gusta hacer en video de ir componiendo
desde la propia, del propio chip, desde el silicio hasta ir haciendo todo el datacenter.
Esto sería Blackwell.
Y esto es interesante porque realmente esto es Blackwell.
¿Vale?
Esta es una GPU Blackwell.
Este sería como el chip, el chip de lo que sería esta arquitectura.
Entonces, aquí hay una cosa muy interesante y un poco tramposa.
Entre comillas, tramposa.
A ver, tenían que escalar de alguna forma.
Y es que al final pensad que un procesador, o sea, un chip de estos,
lo que hace es meter en una, en un espacio de silicio,
meter muchos transistores.
Y estos transistores son los que van a hacer toda la circuitería
para poder procesar, pues, todos los cálculos que necesitemos.
En este caso, pues, cálculos destinados a inteligencia artificial,
multiplicación, sumas, bla, bla, bla, bla, bla.
¿Qué pasa?
Que si tú quieres tener un chip de un mismo tamaño
para meter en un mismo espacio más transistores,
tienes que hacer los transistores más pequeños.
Y eso es lo que hemos ido haciendo desde décadas y décadas,
cada vez más los transistores más pequeñitos
para meterlos cada vez más en este espacio.
Eso es lo que la ley de Moore te habla, ¿no?
La cantidad de transistores que podemos incluir dentro de un espacio concreto.
Llega un punto en el que la física te dice,
hey, amigo, relax.
Efecto túnel, problemas cuánticos, ya no puede bajar.
Creo que estamos en 4 nanómetros.
Creo que Blackwell, si no recuerdo mal, 4 nanómetros.
Estamos en un punto donde dar un pasito más
para hacerlo más pequeñito nos cuesta la vida.
O sea, nos cuesta la vida e incluso empezamos a chocar
con problemas físicos.
Entonces tenemos que buscar otras cosas.
Y en este caso, una de las cosas que han encontrado,
porque aquí ha habido problemas con el que es el proveedor de NVIDIA,
que es TSMC, la empresa que genera realmente todos estos chips,
han tenido problemas en la fabricación de chips de 3 nanómetros.
No me conozco la historia, solo sé que han tenido problemas.
Y por eso NVIDIA, pues en este caso,
se ha quedado con 4 nanómetros,
que creo que es igual que la arquitectura de Hopper
en el tamaño de los transistores.
Entonces, si de repente tú no puedes dar el salto
de hacer el chip más potente metiendo más transistores
en un mismo espacio, ¿qué tienes que hacer?
Hacerlo más grande.
Entonces, por eso han cogido, si os dais cuenta,
nos han mostrado como un chip y luego otro chip.
¿Vale?
Y los han juntado.
¿Vale?
Entonces, fijaos.
Blocks.
También os digo, la parte de hardware a mí me cuesta...
No es mi expertise.
A lo mejor estoy patinando en alguna de las cosas.
Tenedme a presión esto, pero...
Va por ahí los tiros.
¿Vale?
Entonces, aquí han juntado estos dos trozos.
Y ahora han hecho el chip más grande.
Si te dais cuenta...
Aquí lo comparan con...
Entiendo que el espacio sería este de Hopper.
¿Vale?
Este sería como el espacio.
Y esto es lo nuevo.
¿Qué has añadido?
Bueno, realmente este tamaño.
Es como que has cogido dos chips y los has puesto ahí pegado.
Twice the size.
Un salto masivo en computación.
Entonces, esto es un poco tramposo cuando haces comparaciones.
Porque realmente, en el momento en el que tú dices, vale, Blackwell, ¿cuánto más rápido es respecto a Hopper?
Pues a lo mejor tú dices, pues mira, 30 veces más rápido.
Pero claro, es 30 veces más rápido, pero porque has metido dos trozos de lo que antes era uno.
¿Vale?
Dos trozos de lo que antes era uno.
Entonces, ahí ha dado un salto, ha doblado esa velocidad.
Luego vamos a ver que hay otras trampas, entre comillas.
Y eso lo vamos a ver con el famoso gráfico que se muestra siempre que hacen un salto de arquitectura.
Bueno, me estáis comentando que los M3 Max tienen 3 nanómetros y puede ser.
O sea, no lo niego.
No sé si los M3 Max vienen por parte de TSMC o si vienen de otro proceso de fabricación.
No lo sé.
Pero lo que sé es que en este caso, NVIDIA a través de TSMC, pues sí ha tenido problemas con llegar a los 3 nanómetros.
Y me imagino que bajar de los 3 nanómetros va a ser algo...
Bueno, no lo sé.
Nunca digas nunca, ¿no?
Pero desconozco.
Pero sí sé que obviamente se está intentando dar esos pasos a nivel de fabricación.
Porque ahí es donde está realmente el jugo, ¿no?
Donde puedes sacarle un montón de rendimiento a estos chips.
Pero estamos topándonos con este límite de la física.
Vale, entonces aquí ya empiezan a componer todo esto.
Y bueno, vamos a dejar el vídeo entero porque está bastante chulo.
Coges este chip.
Coges dos Blackwells.
Le pones una CPU de Grace.
De estas que presentaron hace un año.
Y entonces ya tienes una placa de estas.
Que esto es lo que le van a vender a las empresas, ¿no?
Las GB200...
No.
Las...
Bueno, no sé cómo le llaman a esto.
Que aquí ahora todo esto va escalando.
Este es un nodo de computación.
Que tiene cuatro Blackwells ahí ya metidas.
Ahí atrás, lo que hemos visto.
Vale, le empiezan a meter historias.
Ir pensando, ¿no?
¿Cuántos dólares y cuánta computación hay metida en todo esto?
Ojo, eh.
Ojo.
Este armario, este armario es 1,4 exaflops de rendimiento de inteligencia artificial.
Y como tiene una...
Con los temas de Envilink para poder compartir la memoria y hacer como que todo el sistema sea uno,
se perciba como uno, aquí le llaman una GPU CUDA gigante, ¿no?
Y este fue un poco el mensaje que tenía Jensen durante la ponencia.
Y es, ya no hacemos GPUs como GPU, ¿no?
El concepto de esto es una GPU para nosotros.
Este pedazo de armario que tiene no sé cuántas...
No sé si está por aquí el dato...
No lo pone.
Que tiene no sé cuántos Blackwells.
Y que costará millones y millones de dólares.
Todo esto para nosotros es una GPU.
Hombre, amigo.
Claro, porque tú quieres vender esto a OpenAI, a Meta, a todos estos, ¿no?
Pero...
Madre de Dios.
¿Te peta la cabeza o te exa la cabeza?
El armario, me decís, son 128 chips.
Ojito, ¿eh?
Vale.
Tema de refrigeración.
Racks de computación.
Aquí tenemos...
576 Blackwells.
576 Blackwells.
¿Podéis creer que me dijeron...
Alguien...
Me dijo el dato de cuántas H100 habían utilizado para Zora?
Así como típico dato que te sueltan en Silicon Valley.
De rumores y tal.
Y no me acuerdo.
O sea, tengo una cifra en la cabeza, pero no la quiero decir porque no la recuerdo con certeza.
Entonces no quiero dejar el dato.
Pero eran muchas.
Entonces, fijaos, todo esto podría ser un centro de computación moderno o a futuro, ¿no?
Esto no existe todavía.
Esto no está disponible.
No sé ni siquiera si NVIDIA habrá montado su propio centro de computación con Blackwells.
No sé cómo va todo esto.
Pero el futuro GPT-6, porque GPT-5 se estará entrenando ya o ya se habrá entrenado.
Ah, luego comentamos.
GPT-6, GPT-7 se entrenarán en este tipo de data centers.
De hecho, saltó la noticia esta semana de que creo que Satya, Nadella y Sam Allman quieren entrenar...
O sea, quieren construir un centro de computación también para 2028 donde entrenar futura inteligencia artificial.
Una burrada de inversión seguramente estará basado en gran parte de estos chips si no aparecen otros competidores que puedan ofrecer algo mejor que esto.
¿Vale?
AI Factory for the New Industrial Revolution.
32.000 GPUs, 32.000 multiplicado por estas 576 creo que hemos leído antes.
Bueno, una locura.
Una locura.
Y nada, aplausos, aplausos, increíble, ta, ta, ta.
Es una locura, ¿no?
Y aquí ya luego enseña pues los chips y es bastante loco.
Entonces quiero...
Había una comparación, a ver si la encuentro rápido.
Vale, aquí empieza a pasar un poco por los diferentes elementos que hemos visto.
Pues como se compara en rendimiento con la arquitectura anterior, ta, ta, ta, ta, ta.
Pude ver de cerca una de estas porque cuando hicimos...
Aquí está, este es el dato que quería ver.
Cuando hicimos el pase de prensa yo al final estaba como acreditado como prensa.
Entonces tuvimos, donde yo me saqué el selfie con Jensen, era un apartado que se celebró otro día en privado con él donde podíamos hacerle preguntas, Q&A y tal.
Bueno, prensa de todo el mundo, una sala llena de gente.
Y ahí estaban colocadas.
Entonces sí pude verlas de cerca.
Y bueno, pues sentí el poder de la IA, ¿no?
Ahí puse la mano y se calentó.
Vale, entonces, aquí este dato es el que me interesaba encontrar.
A ver si lo podemos replicar para verlo.
Fijaos, dice, para entrenar un modelo, un hipotético modelo, vamos a decir un GPT-MOE de 1,8 trillions.
Una empresa, imaginemos, OpenAI quiere entrenar un modelo así.
Si lo hubieran hecho con la arquitectura anterior, con Hopper, hubieran tardado 90 días, ¿vale?
Usando 8000 GPUs y hubieran gastado unos 15 megavatios.
Si saltamos.
Vale, si saltamos.
Vale, si quisiéramos entrenar GPT-4, ¿vale?
Estas son las cifras de GPT-4.
Si quisieras entrenar a GPT-4, en vez de usar Hopper, usas Blackwell, no tendrías que gastar 8000 GPUs, sino que podrías hacerlo por el aumento en computación que te añade.
Tendrías que tener 2000 GPUs, ¿vale?
Es el dato que nos están dando, 2000 GPUs.
Lo cual es interesante.
Y un cuarto de potencia, de gasto de electricidad.
Lo cual está muy bien porque al final aquí es donde se va parte del coste de entrenar a los modelos.
Bueno, gran parte del coste realmente.
Vale, entonces, 2000 GPUs.
Entiendo que se refiere a GPU a la cantidad de chips.
No me determina de qué...
Bueno, no, a ver.
Porque aquí te pone el Blackwell GB200.
Habría que ver si se refiere a los RAC.
Habría que ver exactamente a qué se refiere.
Pero bueno, la equivalencia está ahí, ¿no?
Y sobre todo lo interesante es...
Molaría que lo tradujeran no tanto en esto, sino en cuánto les cuesta a las empresas, ¿no?
Cuánto costaría comprar esas 8000 Hoppers y esas Blackwells.
Que no sé si todavía se ha filtrado el precio.
Pero bueno, que básicamente lo que nos están diciendo es que requieres menos GPUs y esto te consume menos energía.
Lo cual, pues, está bastante guay.
Vale, aplausos y ta, ta, ta.
Eso es parte de lo que venimos a hablar hoy.
¿Vale?
Estamos empezando por abajo.
La arquitectura, o sea, los centros de computación de la revolución de la IA, ahora mismo, vamos a poner muchas comillas, están obsoletos.
¿Vale?
Están obsoletos.
¿Por qué?
Porque llega una nueva arquitectura.
Así que dentro de nuestras estimaciones, en esta curva exponencial que estamos comentando al principio,
oye, que GPT-5 no va a salir nunca, que la IA, los investigadores se van todos de vacaciones, que la IA se para.
Ya no se investigan más.
Aún así, todos los modelos que tenemos actualmente, con el aumento de computación que tenemos y con las técnicas actuales,
podremos entrenar con estos nuevos chips.
Va a haber un salto en cuestión de años cuando se empiecen a crear estos centros de computación con esta infraestructura.
Primer punto a favor, ¿vale?
Primer factor de esta lista de factores que vamos a ir añadiendo para pensar si realmente, pues, el futuro puede ser mucho más grande
o si se va a quedar más o menos igual las cosas.
¿Ok?
Luego en el GTC, así por comentar, pues también presenta...
Ah, bueno, espérate, perdón.
Quiero enseñaros la famosa gráfica.
A ver si la encontramos rápido.
Sí, hay dos cosas que os quiero enseñar.
Una, que es la gráfica...
La famosa gráfica.
Aquí esta es la famosa gráfica.
¿Vale?
Esta es la famosa gráfica.
Bueno, esta gráfica siempre la quieren enseñar cuando hablan del tema de la ley de Juan
porque es lo que justifica un poco el titular este de...
Hemos roto la ley de Moore que nos dice que se duplica la cantidad de transistores
o que la cantidad de computación, entre comillas, se va duplicando cada dos años.
Esto lo hemos roto porque nuestra curva crece mucho más rápido
y hemos conseguido un por diez, o sea, un por mil, perdón, en ocho años.
¿Vale?
Esta gráfica es muy tramposa, tiene varias trampas.
La primera trampa no hay eje X, ¿ok?
Pero vamos a entender qué es la cantidad de flops, ¿ok?
Porque es lo que nos están poniendo como valor.
El eje de abajo, el del tiempo, no es lineal.
Nos están hablando de los hitos de la salida de las arquitecturas.
Entonces, tenemos 2016, 2017.
Luego hace un salto de tres años, dos años, dos años.
¿Vale?
Hay que hacer un esfuerzo mental para que no nos engañe un poco esta gráfica.
Querían colocar el dibujo de la Blackwell al lado, pues no cabía hacerla con el eje temporal como toca.
Ok.
Y luego la trampa, que hay que entender aquí, es un poco lo que veníamos comentando.
Sí, perdón, el eje Y, que he dicho el eje X.
Lo que veníamos comentando y es esta curva exponencial, que parece que cada nueva arquitectura que presentan
es un salto brutal respecto al anterior, tiene un poco de trampa.
Primero, por lo que hemos dicho antes.
Aquí estás metiendo lo que eran dos chips antes, ahora es uno.
Y lo estás contabilizando como un chip.
Claro, y si coges ese chip ahora y le pegas otro chip, también duplicas.
¿Vale?
Eso es un poco tramposo, pero bueno, lo aceptamos.
¿Lo aceptamos?
O sea, molaría aceptarlo si realmente ahora llega Jensen y dice, mira, las Blackwells va a costar lo mismo que te costaba antes una arquitectura Hopper.
Entonces, bueno, está dando un 2x1, ok, compro, perfecto, a tope.
Que esto lo pueden hacer porque la arquitectura Hopper, por la ventaja competitiva que tenía NVIDIA,
la estaban vendiendo a unos márgenes brutales.
Si no recuerdo mal, creo que un 85% de margen de beneficios, una burrada.
No me hagáis mucho caso con esa cifra, pero algo así, muy bestia.
Ahora NVIDIA, si empiezan a entrar nuevos competidores y quieren seguir siendo competitivos,
a lo mejor no te pone un precio tan alto para la Blackwell, sino que directamente te baja el precio
y se come un poco de esos márgenes de beneficios, pero consigue que el mercado esté contento y la siga comprando.
Ok, entonces, eso es una cosa a tener en cuenta.
Otra cosa a tener en cuenta, muy importante, es...
Esto no sabría catalogarlo si es una trampa o no es una trampa.
Yo personalmente considero que no es una trampa, hay gente que sí.
Y es el tema de la representación de los datos, representación mixta y todo esto.
Rápidamente, y esto lo explico porque va a tener mucho sentido cuando lleguemos a la parte final del directo,
de aquí a 8 horas.
Estos chips, estas GPUs, y de hecho quiero hacer un vídeo del tema,
posiblemente sea el vídeo que venga dentro de dos semanas para hablar de Bitnet.
Estas GPUs originalmente estaban pensadas para hacer cálculos, procesamientos en paralelo.
Y para eso, tú querías procesar diferentes tipos de datos,
querías representar números enteros, números en decimales y todo esto.
Y para esto, en informática, tenemos diferentes representaciones de datos
que son el F16, el FP32, el INT8, que es cuántos bits estás destinando
para hacer un determinado cálculo, ¿vale?
Voy a explicarlo muy por encima, muy de forma superficial,
pero quiero que entendáis un poco la explicación.
Eso está muy guay, por ejemplo, si tú estás haciendo alguna aplicación científica,
tú necesitas tener que tu GPU calcule bien estos números decimales.
A lo mejor estás haciendo una simulación de teoría del caos, de metrológica,
y necesitas que todo esté con una precisión muy rigurosa
para que ningún número te baile y que por bailar, pues de repente, todo empiece a fallar.
Entonces, para eso, tú necesitas una representación de datos,
FP32 te da una cantidad de precisión correcta, ¿no?
O sea, bastante buena para poder hacer una representación de números decimales.
¿Qué pasa? Con la inteligencia artificial es diferente.
Porque nosotros en inteligencia artificial, cuando tú estás entrenando una red neuronal,
los parámetros, no hace falta tener una precisión exquisita.
No hace falta tener una precisión de 32 bits para representar a un número decimal.
Y de hecho, muchas de las técnicas que a día de hoy se están utilizando
para reducir la cantidad de bits que representa un parámetro en un modelo,
pues están utilizando bastante, que son técnicas de cuantización, para eso, ¿no?
Para hacer que el modelo quepa menos en memoria.
¿Por qué?
Si tú un parámetro usas 32 bits, si tú multiplicas esos 32 bits por el 1,8 trillions de GPT-4,
te sale una cosa, un modelo que no te cabe ni en una GPU, ni en 100, ni en 1000.
O sea, tienes que distribuir todo esto en un montón de memorias.
Me lo llevo a vuestro terreno, porque aquí, recordemos, somos todos GPU PURS.
Somos pobres de GPUs.
Con suerte, tenéis como yo 2 a 6000 con 96 GB de VRAM.
Seguramente es el caso de todos vosotros.
Si yo quiero meter un modelo como Stable Diffusion en mi GPU,
yo quiero que los parámetros de ese modelo estén, que quepan en mi GPU para poder ejecutarlo,
porque no tengo más GPUs que esas.
Entonces, para hacer eso, la gente lo que hace son técnicas de cuantización,
de decir, mira, estos 32 bits, ¿qué pasa si quitamos bits para representar ese número decimal?
¿Lo dejamos en 16 bits?
Oye, pues, si pasas de 32 bits a 16 bits, esto hace que los cálculos sean más rápidos,
porque tienes que mover menos datos por memoria,
haces que ocupe menos memoria, son todas ventajas.
Entonces, reduces a 16 bits.
Genial.
Y ha reducido el tamaño que ocupa todo este modelo en 1x2.
Vale.
Hemos perdido un poco de precisión en estos números decimales,
pero esto hace que en inteligencia artificial, como decía,
los parámetros no son números precisos que hace falta que sea exactamente ese valor para que funcione.
Pensemos que los parámetros, al final, lo que están definiendo en este espacio geométrico
que representa una red neuronal son estas fronteras de decisión para decidir si perro o gato,
o si lo que sea, ¿no?
O de esta distribución salen estas palabras que luego se escriben como chat GPT.
No hace falta que sea tan riguroso y esas fronteras se pueden mover un poquito.
Entonces, podemos empezar a quitar precisión.
Podemos hacer esos números decimales menos precisos.
16 bits hemos dicho, no, menos, 8 bits, pues ha reducido a un cuarto.
De los 32 bits que teníamos originalmente estamos a 8.
Hemos perdido precisión.
¡Ah!
Se empieza a deteriorar un poco el rendimiento del modelo,
porque algunos de los parámetros a lo mejor sí estaban situados en una frontera un poco más precisa
y este cambio de precisión de los decimales hace que el rendimiento se pierda.
Bueno, pero nos cabe en la GPU ahora.
Vale, bajamos más todavía, FP8, FP4, y así podemos seguir hasta,
y luego ya veremos al final del directo a dónde podemos llegar.
Entonces, lo que pasa es que cuando reduces esta cantidad de bits con técnicas de cuantización,
también te interesa que los chips actuales tengan los circuitos diseñados
para poder ejecutar con eso, con ese tipo de representación.
Entonces, NVIDIA ha ido jugando a reducir estas representaciones
y eso trae un montón de problemas que luego también hay que tener en cuenta,
pero bueno.
Ha ido diseñando sus arquitecturas pensando en el futuro de la inteligencia artificial
trayendo cada vez representaciones más bajas, con menor cantidad de bits.
Vale, entonces, FP16, fijaos, en 2016 teníamos representación FP16, FP16, FP16,
de repente aquí saltan a FP8 y esto hace un salto bastante drástico.
Esto es la arquitectura Hopper, Hopper aceptaba FP8.
Entonces, ahí duplicas también los tiempos porque, como digo, puedes ejecutar más instrucciones
porque donde antes tenías que computar 16 bits para una instrucción concreta,
ahora tienes que ejecutar 8 y 8, con lo cual es el doble.
Seguramente, a nivel de chips, las cosas son un poco más complejas,
pero quedaos con esta sobresimplificación de lo que os estoy explicando.
Entonces, el salto que tenemos de Hopper a Blackwell,
el salto que tenemos de Hopper a Blackwell, también viene dado por eso.
Hemos, por una parte, duplicado los chips, dos Hopper,
los hemos conectado, que no son dos Hopper, pero dos chips,
los hemos conectado como uno por dos,
y luego hemos dividido también FP8 a FP4,
con lo cual, de repente, otro salto, entonces ya tenemos un por cuatro,
más luego otras mejoras que habrán introducido y ta, ta, ta.
Eso es lo que hace que pasemos de 4.000 Teraflops a 20.000 Teraflops,
que es un 4, algo de mejora de rendimiento.
Entonces, esto es un poco tramposo, entre comillas,
porque, bueno, no todos los modelos se van a ejecutar en FP4.
A lo mejor los modelos, hay gente que necesita entrenar los FP16,
a lo mejor estas GPU las quieres usar para otras cosas,
que hace falta una precisión más exacta.
Entonces, no es que Blackwell, de por sí, te dé ese rendimiento siempre,
sino que depende del tipo de aplicación que estés utilizando.
¿Vale?
Hasta aquí, bien.
Vaya turra os estoy pegando, amigos,
pero creedme que llevo semanas con la cabeza torcida,
porque me pesaba todo lo que os quería contar.
Tenía tantas cosas metidas aquí que vomitaba.
De hecho, a la pobre Sandra la tengo loca,
porque todo el rato, desde que puedo, le cuento cosas como esta.
Ella está fascinada, ha estado en Silicon Valley,
ha aprendido un montón de cosas de chips.
También estaba Nate conmigo, estábamos ahí.
Nate, yo y Sandra, de ruta por Silicon Valley.
Claro, ella aprendió un montón de cosas,
pero yo de repente ahora llego en casa y le digo,
te tengo que contar sobre la representación de los Float, tal.
Y me dice, cállate.
Y yo digo, pues tienes razón.
¿Vale?
Que si quieres bolsa, exacto.
Esa es la cosa.
Bueno, esto es un poco la,
para que entendáis el salto de rendimiento de todo esto.
¿Ok?
El salto de rendimiento que hemos tenido en computación.
Si de repente la industria, por cierto,
el tema de FP4 tiene sentido si conseguimos entrenar modelos
que se puedan ejecutar en esta representación,
que habría que verlo, ¿vale?
Al final hablamos un poco de este tema.
Bueno, más cosas que hablaron por aquí.
Rápidamente me salto.
Había otro gráfico que os quiero enseñar,
que es bastante naif para los que seguís el canal,
pero me parece muy interesante porque ilustra muy bien el futuro.
Al menos el futuro, en el corto o medio plazo, es este.
Y me parece fascinante.
¿Qué es esto?
El mejor diagrama, a mi gusto,
de lo que es la revolución de la IA generativa a día de hoy.
Modelos.
Tenemos en medio dos tipos de arquitectura.
En concreto tenemos el Transformer.
Este es el diagrama del Transformer.
Y esta es la arquitectura de lo que sería...
A ver, entiendo que es un autoencoder,
pero pretende ser un poco un modelo de difusión.
¿Vale?
Por mi forma de entenderlo es que viene a representar esto
porque es como un vector, otro vector.
Aquí está el encoder, pero esto estaría como aquí.
¿Vale?
Imaginad que esto se refiere al modelo de difusión,
que es básicamente las dos arquitecturas que están potenciando
todo, todo, todo lo que estamos utilizando a día de hoy.
Y lo que viene a representar es el esquema multimodal
en el que estamos entrando.
Texto.
Texto.
No sé por qué ponen texto dos veces.
Bueno, será programación.
Texto.
Código.
Imágenes.
Vídeo.
Más texto.
No sé qué será eso.
Lenguaje.
Señales multimodales de robótica, ¿no?
Multisensorial.
Tema de posiciones del brazo robótico.
Cámaras que estén detectando cierta información.
Lo que puedan detectar giroscopios.
Todos esos sensores también lo metemos.
Ondas cerebrales.
Datos.
La IA a día de hoy es muy buena analizando estos datos.
Y es muy buena generando estos datos.
Hemos visto éxito absoluto en generación de imágenes.
Hemos visto éxito absoluto con OpenAI SORA.
En vídeo.
Generación de imágenes.
Esto es como cuando tienes que rellenar texto y repites cosas.
Imagen e imagen.
No sé.
Aquí creo que se les ha ido este gráfico.
Puede ser.
3D.
Interesante porque han cogido como 3D.
Parece como el ejemplo de SORA que se convirtió luego a Nerf.
Bueno.
Sonido, animaciones.
Robots.
Manipulación de robots.
Esto ya está pasando.
Se están entrenando a día de hoy robots.
Y lo vamos a ver luego con la demo de Figure01.
Figure.
¿Cómo se llama esta empresa?
Figure, ¿no?
Figure.
El robot.
Y Figure.
La empresa.
Creo que se llaman igual.
Que están entrenando robots end-to-end para que un modelo tipo Transformer pueda generar como esos movimientos.
O un catálogo de movimientos generados por IA.
Proteínas.
Speech.
Todo lo que quieras.
¿Vale?
Este es el esquema.
Este es el esquema.
De la realidad en la que estamos viviendo ahora.
Que incluso con SORA me podría adelantar a decir que el Transformer por ahora domina.
Porque pensemos que SORA es un Diffusion Transformer.
¿Vale?
Aquí estarían los vectores que se están difusionando.
O sí.
Que están pasando por el proceso de difusión.
Y aquí en vez de utilizar tipo arquitectura tipo convolucional estamos utilizando Transformers.
¿Vale?
O sea que el Transformer por ahora domina.
Pero luego haré también una breve mención a arquitecturas actuales que están apareciendo.
¿Vale?
Este esquema me encantó cuando lo vi.
Y nada.
Luego presentaron ¿qué más cosillas?
Pues los NIMS.
Que me pareció una idea interesante.
Que es una forma como de encapsular como servicio a la inteligencia artificial.
Donde tú puedes coger modelos.
O sea que tú te puedes descargar como una especie de paquete ejecutable en modelos de inteligencia artificial.
Y que este NIMS se va a ocupar de todo.
Desde la configuración con tu hardware.
La optimización para tu hardware.
La ejecución del modelo.
Y es como un servicio encapsulado.
Que tiene mucho sentido para que en un futuro pues la IA sea más interoperable.
Y que incluso.
Y es el ejemplo que me gustó también que mostraron aquí.
Para que la IA pueda hacer uso de la IA.
¿Vale?
A ver cuál es el esquema.
Hay un esquema.
Bastante.
Hay un esquema.
Bastante interesante.
No sé si lo voy a encontrar.
Vale.
Bueno.
Es un poco esto.
Y hablaba como de un futuro donde tengamos una IA encapsulada.
Un NIMS de este tipo.
Que actúe como una especie de planificador de una tarea amplia.
¿Vale?
Pensad que le dices.
Quiero que me diseñes un nuevo chip.
Quiero que me diseñes la próxima arquitectura Blackwell.
Entonces a lo mejor este es una inteligencia artificial.
Un modelo encapsulado.
Que tú lo has entrenado.
Como han hecho ellos con Nemo Chip.
Para que entienda pues toda la documentación de NVIDIA.
Y toda la información que existe.
Y que es relevante para que se hagan los procesos de diseñar un nuevo chip.
Y entonces esta IA lo que va a hacer es como planificar los diferentes pasos que tiene que hacer.
Orquestar las diferentes tareas que se tienen que ejecutar.
Y llamar a IAs especialistas.
En este caso a NIMS especialistas.
Que a lo mejor uno está diseñado para entender cómo hacer la documentación necesaria.
Me invento.
No sé cómo se hace un chip.
Otro para hacerte que si el proceso de litografía.
Otro para diseñarte.
Hacer las peticiones en la fábrica de los proveedores que necesitamos.
Otro que tal.
Es decir que haya como una IA que genere esa coordinación y esas llamadas a otras IAs.
Y que todo sea como una especie de orquestación de varias IAs.
Más allá de si se va a llamar NIMS.
De si va a estar diseñado sobre lo que NVIDIA está diseñando.
Esta idea.
Esta idea.
Refleja mucho lo que para mí va a ser el futuro a medio plazo de la inteligencia artificial.
Una IA.
Generalista.
Muy potente.
Llamémosle.
Yo qué sé.
Generalista potente y tentadora.
GPT.
¿Cuál?
El 5.
GPT-5.
Vamos a llamarle.
Por decir.
Una IA que va a tener un conocimiento general de cómo hacer muchas tareas.
Y que va a poder planificar la utilización de otras herramientas.
Que pueden ser otras IAs especialistas.
Y que incluso hasta podría decir.
Ostras.
No tengo una IA especialista para esta tarea.
Genero datos sintéticos.
O busco datos.
Navego.
Internet.
O hago algo para generar nuevos datos.
Y entreno en una IA que pueda hacer esto.
¿Vale?
Sé que ahora mismo este esquema suena como muy de flipada y tal.
Pero él lo ha dicho.
La industria sabe que esto es un camino a explorar.
Y este podría ser un futuro bastante probable de cómo evolucione todo.
IAs coordinándose por IAs.
Ok.
¿Cómo estamos?
Bien, ¿no?
Bien.
Perfecto.
Y luego al final.
Nada.
Al final hablaron del proyecto Rugrut.
Y fue bastante guay cuando salieron todos los robots.
Bueno, esto eran como pantallas.
Pero salieron los robots de Disney.
Que estaban bastante guay.
Estos robots me encantan.
Me parecen fascinantes.
Y el vídeo que pusieron de los robots.
Lo vamos a ver porque me gustó bastante.
Y con esto cerramos ya el apartado GTC.
Pero creedme.
Ver este vídeo en directo allí.
Con cómo se oía.
Claro, esto me imagino que también se usará para conciertos.
Increíble.
O sea, yo estaba con la lagrimilla a punto de salirme.
Bastante emocionado.
Vamos a verlo.
No es suficiente para los humanos imaginaros.
Tenemos que inventar.
Y explorar.
Y puse más allá de lo que ha sido hecho.
A fair amount of detail.
Nos creamos más inteligentes y más rápido.
Eureika.
Este proyecto es chulo.
Que te quedes.
Y conseguir.
Nos vemos.
Nos hacemos percibir.
Y mover.
Y incluso reason.
Para que pueda compartir nuestro mundo con nosotros.
Esto es donde la inspiración nos lleva.
La próxima frontera.
Esto es NVIDIA Project Grid.
Antes de entrar al sitio.
Y de repente empiezo a escuchar como.
Y me doy la vuelta.
Y era este de aquí.
Este jodido.
Pero iba sin gorra.
Caminando.
Y con dos personas detrás.
Era muy gracioso.
Porque era como el robot caminando.
Que lo estaba haciendo bien.
Pero había uno que estaba como controlando.
No sé si algún controlador o un ordenador.
Y el otro como sujetándole.
Dejándole cuerda para que no fuera como guiándole.
Pero sí por si se caía.
Para evitar tener una rotura de hardware.
Porque al final.
Coño.
Esto cuesta.
Y me hacía mucha gracia.
Porque era como.
Es espectacular.
Pero al mismo tiempo es muy irónico.
Porque son dos humanos.
Para hacer que un robot se mueva.
Entonces.
A lo mejor.
No es el futuro.
Por ahora.
Por ahora los números no salen.
¿No?
Pero bueno.
Muy gracioso.
Y bastante sorprendente ver este tipo de bichos.
Luego este estaba también en el GTC.
En el evento.
Y este también estaba.
No.
Perdón.
Este de aquí.
No.
Este es el de One X.
De Eric Yang.
Creo que era este.
Que este se parece al de OpenAI.
Bueno.
El de Fior.
Pero no.
Este creo que es diferente.
Este es el de NVIDIA Project Group.
A general purpose foundation model for humanoid robot learning.
The group model takes multimodal instructions and past interactions as input and produces
the next action for the robot to execute.
We developed Isaac lab a robot learning application to train group on omniverse Isaac sim and we scale
out with Osmo a new compute orchestration service that coordinates workflows across DGX systems
for training and OVX systems for simulation with these tools we can train group in physically
based simulation and transfer zero shot to the real world.
Aquí hay un guiñito.
Aquí hay un guiñito que es el robot sacando la GPU del horno como hizo Jensen hace cuatro
años en un GTC de estos virtuales que lo hizo desde la cocina de su casa y sacó
una GPU del horno.
The group model will enable a robot to learn from a handful of human demonstrations so
it can help with every day tasks.
And emulate human movement just by observing us.
This is made possible with NVIDIA's technologies that can understand humans from videos, train
models and simulation and ultimately deploy them directly to physical robots.
Connecting group to a large language model even allows it to generate motions by following
natural language instructions.
Hi, JL1.
Can you give me a high five?
Sure thing.
Let's high five.
Can you give us some cool moves?
Dirt.
Check this out.
All this incredible intelligence is powered by the new Jetson Thor Robotics chips designed
for Groot built for the future with Isaac Lab, Osmo and Groot.
Ahí estuve yo.
We're providing the building blocks for the next generation of AI powered robotics.
Bastante guapo, bastante guapo, bastante guapo.
Muy buen vídeo.
Y aquí lo que estaban presentando era como de ahí tenemos todos estos robots y es una cosa
que le gusta hacer mucho a NVIDIA que una cosa es que lo hagan y otra cosa es que realmente
sirva, ¿vale? Y es que le gusta como presentarlo todo como un completo, ¿no? En plan de esto
y esto y esto que te he presentado aquí también, tal, y entonces esto, tal. Que es un poco
Omniverse, ¿no? Que lo hemos visto durante años y todavía a día de hoy cuesta definir
qué es Omniverse, que es una acumulación de muchas de las ideas de NVIDIA. Pues aquí
lo han hecho igual, ¿no? De decir, oye, te hemos presentado los NIMS, te hemos presentado
los robots, tal, los chips, no sé qué. Pues mira, aquí esto es el futuro porque tenemos
el proyecto Groot, que creo que no hay muchos detalles, simplemente te hablan de un modelo
fundacional, multimodal, le metes datos y esto te da acciones del robot. Súper interesante,
pero bueno, más gente en la industria lo está haciendo. Y de ahí el robot pues se puede
manejar y lo puedes entrenar en el sistema ISAAC que también tenemos, que es el simulador
y tal, en Omniverse, o en Omniverse. Como que te hacen todo el chip y esto es el mapa con
los chips de la Jetson y no sé qué historia. Bueno, muy guay. A mí el vídeo es lo que
me gusta, que al final es lo que me voy a descargar y voy a poner los vídeos y va a
quedar excelente. Pero bueno, es muy guay, ¿no? Y es un poco una demostración y vamos
a adelante aquí que salga Jensen con los robots. Me gusta esta toma. Esta toma sería
como el comienzo de una película que acaba mal, ¿vale? De robots, de típica escena de
bueno, estamos creando el modelo tal. Es una escena interesante porque más allá de si lo que
están haciendo ellos va a marcar el futuro de la industria o si es un proyecto más que
están arrancando. Hay que entender cómo que esto ya está pasando. Es decir, los robots
humanoides hace 3-4 años todavía no tenían tanto sentido porque ni siquiera la inteligencia
artificial estaba tan madura como para decir, hey, podemos entrenar un robot de forma eficiente
con lo cual, o sea, para que entendáis, para que estos robots tengan sentido, invertir en
estos robots, tiene que haber un sentido de mercado. Tienen que ser útiles. Y si tú estás
haciendo como Boston Dynamics, robots espectaculares, pero que si se caen al suelo, se rompen y
empiezan a echar líquido hidráulico y todas estas cosas, tú eso no lo puedes poner en una
cocina de una casa. O si las técnicas de deep learning que teníamos, no es que no me voy
ni hace 4 años, hace 2 años, no te permitían que un robot pudiera coger un plato y no romperlo,
no tiene sentido ponerlo en una casa. Carlos, a día de hoy estamos ahí, ni de lejos, pero
empezamos a ver un momentum y una aceleración en el campo de la robótica que me hace pensar
que, oye, dentro de 5 años podríamos estar ahí. Podríamos estar en un punto, no digo
con robots en casa, digo con tecnología como para que esos robots pudieran hacer esas tareas
y entonces pudiera alguna empresa plantearse, si lo consigue hacer de forma no costosa, poner
estos robots en casa, ¿vale? Ahí tiene explicación pues que, por ejemplo, Tesla estuviera invirtiendo
en robots humanoides hace 2 años, etc, etc, etc, porque esta gente siempre va un poquito por
delante de la industria. Y con esto vamos a hacer un salto a otro de los temas, ¿vale?
que es esto de aquí. Y esto para mí es la mejor explicación de por qué creo que el
campo de la robótica está empezando a llegar a los lugares interesantes. Y es lo siguiente,
gracias a la revolución de la IA generativa, gracias a tener principalmente modelos como
GPT, una cosa que se ha demostrado es que lo que antes era muy complicado que era entrenar
robots desde cero que pudiéramos enseñarles ciertas tareas y que pudiera ejecutarlas, en este
caso, la técnica de usar modelos autoregresivos que predicen tokens, se ha demostrado que no
solo sirve para generar texto, sino que hemos visto que sirve para generar código, sirve para
generar modelos que razonan, que desarrollan cierta lógica e incluso esta técnica, y esto es una cosa
que se empezó a demostrar con Gato, no sé si recordáis este modelo de DeepMind que cogía
diferentes modalidades, las tokenizaba, cogía imágenes, cogía vídeos, cogía movimientos de
robots, los tokenizaba, lo juntaba todo, y entonces el modelo predecía siguientes tokens,
que podían ser de cualquier tipo, era el comienzo de este diagrama que nos ha enseñado Jensen,
de una IA que toma todo, multimodal, y que genera todo. Y ese paper de Gato ya empezaba a demostrar
que estos Transformers podían generar pues estas acciones para los robots. Y esto es muy interesante
porque si lo empezamos a combinar podemos empezar a hacer cosas chulas como si yo te doy una
instrucción, tú genera los tokens de acción necesaria. A lo mejor yo te digo, oye, quiero que cojas el vaso
de la mesa. Y eso se traduce, igual que tenemos modelos de texto a imágenes que te generan a partir
de un prompt una imagen, pues a lo mejor podemos tener modelos, que ya los hay, de texto a acciones
de robots. Y entonces que te ejecute una acción el robot. ¿Vale? O que entienda de un catálogo de
acciones ya aprendidas cuál tiene que coger y cómo ejecutarla según lo que está sucediendo.
O metemos una modalidad más, cámaras de texto y lo que el robot está viendo que pueda sacar
acciones. ¿Vale? O que pueda generar voz, que te esté hablando mientras está ejecutando una acción.
Eso es súper interesante. Y eso es tan interesante que hay una empresa que es Figure, que ha desarrollado,
es una de las pocas pero varias empresas que ya existen de generación de robots humanoides.
Y en este caso es una empresa que está invertida por OpenAI. ¿Vale? Figure. Y entonces de ahí salió esta demo
de Figure con OpenAI hace un par de semanas que es espectacular y que quiero que veáis.
¿Vale? El robot, como si usa la aplicación de ChatGPT, la pregunta,
el robot ha preguntado, oye, figura, vamos a llamarle figura, oye, figura, ¿qué has visto?
Entonces el robot ha visto y va a hablar. Y te va a hablar y te va a decir, he visto esto.
Hasta ahí, lo mismo que te hace el móvil con ChatGPT.
Vale, el robot ha dicho, veo una manzana sobre un plato que está delante de mí, tal, tal, tal.
El tío le dice, ok, ¿puede darme algo de comer? Algo de lo que esté aquí.
Vale. El robot aquí, el robot aquí, ha dicho, sí. Y ha cogido la manzana y se la ha dado con bastante agilidad al humano.
Entonces esto es, para que entendáis un poco el diagrama de funcionamiento de esto,
si no recuerdo mal el esquema, que esto lo vi antes de ir a San Francisco,
aquí lo que tenemos es, el robot está orquestado por GPT-4,
lo que hemos dicho antes, una IA general que planifica lo que quiere hacer,
entiende que se le ha pedido, oye, quiero que me des algo de comer,
multimodal, ve la manzana dentro de todo lo que tiene, quiero coger la manzana.
Esa instrucción, GPT-4, la puede, tú le puedes dar una serie de rutinas de,
oye, el robot anteriormente en el laboratorio hemos entrenado al robot para coger cosas
y dárselas a personas, o para mover esto de aquí a acá, o para mover sus brazos y no sé qué, no sé cuánto.
Entonces, esas son como instrucciones, como rutinas que puede llamar.
Entonces GPT-4 puede decir, vale, si quiere darle la manzana, necesito coger manzana,
dar manzana a la persona, soltar manzana.
Y entonces puede orquestar con eso.
Esas rutinas que se están llamando, es un poco el concepto del diagrama que hemos visto antes de los NIMS,
de la IA general llamando a IA específica, porque también son redes neuronales,
o sea, no son movimientos preconfigurados de cojo de A y suelto a B,
sino que son redes neuronales entrenadas en simulación posiblemente
y con mucho imitation learning, aprendizaje por imitación, para coger cosas.
¿Vale? Entonces, han generalizado ese movimiento.
Es a lo mejor una red neuronal que está diseñada perfectamente para coger cosas.
Entonces GPT-4 llama a coger cosas.
Estamos hablando aquí de GPT-4 como si no pudiera ser otro modelo más potente
que esta gente haya podido tener acceso por estar invertida en OpenAI.
Pero bueno, vamos a dejar que es GPT-4, ¿vale?
Entonces le damos.
Perfecto. ¿Puedes explicar por qué haces lo que haces antes que haces este tránsito?
Entonces ahora le dice, ¿podrías explicarme por qué me ha dado la manzana
al mismo tiempo que haces otra tarea?
Espectacular.
Los movimientos del robot son espectaculares.
O sea, tiene una gracilidad al moverse y trabaja un poco con la inercia del objeto.
Hay veces que no es que mueva y suelta sobre la cesta, sino que lo lanza un poco, ¿vale?
O sea, como que entiende, bueno, que lo puede lanzar y que el objeto va a entrar.
Great. So, based on the scene right now, where do you think the dishes in front of you go next?
¿Vale? Multimodal de nuevo. A partir, bueno, para empezar, escucha el audio, ve y la voz,
que también se está sintetizando y ahora hablaremos un poco del tema de voz.
Le ha preguntado, basado en lo que está viendo, ¿dónde crees que pueden ir los platos que están delante?
The dishes on the table, like that plate and cup,
are likely to go into the drying rack next.
Great. Can you put them there?
Of course.
All right. So, how do you think you did?
I think I did pretty well.
The Apple found its new owner, the trash is gone, and the tableware is right where it belongs.
I agree. Thanks, figure one.
You're welcome. If there's anything else you need help with, just let me know.
¿Qué os parece? Bueno, mira, vamos a ver esto, ¿no?
Tintín.
Ciertamente lo decíais por ahí, ¿no? La voz impacta.
¿Cuál es mi propósito? Es pasar la mantequilla.
Correcto.
La demo es impresionante, ¿vale?
Recordemos también que son demos.
Alguien lo ha puesto por aquí por el chat.
Me recuerda la demo de Gemini.
Ey, vamos a coger todo, todo, todo lo que nos llegue con pinzas.
Me cuesta pensar que si tienen esto, o sea, pensad que al final esto lo hacen un poco por,
obviamente, llamar la atención y atraer inversión.
Puedo creerme que si ellos quieren atraer inversión, un inversor diga, bueno, llevadme a vuestra empresa, mostradme la demo.
Es decir, eso tiene que estar ahí y es cierto que todavía se puede simular, se puede fingir y todo lo que quieras,
pero quiero pensar que sí, que estos avances se están dando porque la tecnología está llegando a esto.
Y es impresionante.
Y una de las cosas que impresiona de esto es el tema de la voz.
El titubeo de la voz, exacto.
Es una locura, es una locura.
Voces naturales.
Vaya, vaya, ¿quién habrá proveído a esta empresa de unas voces tan naturales?
Y amigos, ojito a esto porque esta es otra de las cosas que han pasado en las últimas semanas, ¿vale?
Ahora comentaremos.
Del tema de robots, creo que no tengo mucho más que comentar más que esta demo.
Lejos de ser lo más avanzado que tenemos ahora, quiero que lo penséis como lo menos avanzado que vamos a tener a partir de ahora.
Vale, esa es la clave.
Podría ser que el campo de la robótica todavía viva alguna ola de bajada y subida.
Es decir, creo que todavía se tienen que romper ciertos límites, pero hay una paradoja que se llama, a ver si no me acuerdo mal,
la paradoja de Moverick, creo que se llama, o Maverick, Moverick o Maverick, que es una paradoja que se repite mucho en robótica,
que es lo sorprendente que es que la inteligencia artificial esté tan desarrollada y la robótica no lo esté tanto,
que de repente lo que uno pensaría que son las habilidades más complejas de reproducir,
porque son las más avanzadas, pues las habilidades cognitivas, el poder hablar, el escribir un poema,
el generar una imagen, de repente lo hemos conseguido.
Y sin embargo, el de la robótica, que son las habilidades motrices, que lo vemos a la naturaleza todo el rato,
son las que más cuesten reproducir.
Y una explicación de esto, pues puede ser el tema de tener datos, el tener datos suficientes para poder entrenar a estos robots.
A través de aprendizaje por imitación se está consiguiendo mucho, a través de simuladores se está consiguiendo mucho,
y en este caso, también creo que la inteligencia artificial, la generativa, está apoyando mucho en esto,
y también todo lo que se logró en la década pasada con la parte de visión, para poder estructurar muchos de los vídeos
sobre los cuales estos sistemas aprenden, pues también ha ayudado bastante.
Movarek. Gracias, Manuel. La paradoja de Movarek.
Y nada, esto es un poco lo que estamos hablando de robots.
Hemos comentado el tema de bosses. Vamos a pasar un momento a comentar este artículo.
De aquí no quiero hablar mucho, simplemente que...
Bueno, una de las noticias que hemos tenido estas semanas también es que OpenAI ha sacado este artículo
y también había registrado la marca Voice Engine.
Estos Voice Engine son las voces, los modelos de texto a habla que OpenAI viene desarrollando
y ha desarrollado, y esto es lo más impactante de este artículo.
Os lo pongo en grande para que lo veáis bien.
Esto.
Esto es para leerlo y dejarlo reposar.
Voice Engine es el modelo de texto a habla.
Es un modelo que te permite hacer clonación de voz de, a partir de un audio de 15 segundos,
te permite clonar la voz.
Pues, por ejemplo, rápidamente escuchamos una.
Esto sería la referencia que se le pasa al modelo
y el audio que genera sería esto.
¿Vale?
Esto es una voz clonada.
Y a día de hoy, en 2024, a lo mejor no nos parece tan impresionante
porque ya hemos visto empresas como Rask, como HeyGen,
hemos visto Eleven Labs, que también tienen sus voces sintéticas,
bueno, no sorprende tanto porque 2023 nos dio varios ejemplos
de clonación de voces muy impresionantes.
Pero es que esta tecnología, OpenAI la desarrolló,
o al menos dicen que su primer modelo es un poco ambiguo,
empezaron a desarrollarla a finales de 2022, cuando salió ChatGPT.
Época Whisper, época ChatGPT.
Eso significa que ellos eran pioneros.
Es decir, que internamente ya tenían un modelo con estas características
que ya estaban, bueno, que internamente lo tenían, ¿no?
Y que no lo han sacado por el miedo a lo que tienen estos modelos.
Un poco este artículo viene a presentar oportunidades positivas
de contar con un modelo así, pues, gente que tenga problemas en el habla
o para poder hacer asistentes con voces, bla, bla, bla.
Es un poco de lo que habla el artículo.
Pero es cierto que es una tecnología que tiene más perjuicio que lado positivo.
Y entonces ahí es donde OpenAI ha decidido no sacarla.
Pero es muy curioso porque incluso uno diría, bueno,
pero hay competidores que sí la tienen.
No, no, es que HeiGen, el sistema de clonación de voz de HeiGen,
también está utilizando el Voice Engine porque era una colaboración
que habían mantenido en privado con OpenAI.
¿Vale?
Entonces es bastante loco.
Pero claro, si esto es lo que tenían en 2022,
que son las típicas voces que podemos escuchar cuando usamos ChatGPT,
hay diferencia.
Hay dos tipos de voces, ¿vale?
Hay una versión HD de la voz.
Y esto lo podéis ver si entráis en Azure.
Si entráis en los servicios de text-to-speech que tienen,
tienen los modelos de OpenAI por la colaboración estrecha que tienen.
Los modelos se dividen en dos tipos de voces.
La HD, que requiere más procesamiento y por tanto no es en tiempo real,
tiene más calidad.
Y la voz que nosotros escuchamos en ChatGPT,
que es esa voz que a veces se equivoca y a veces te habla como un poco raro,
se buguea, que te dice 1, 2, 3, quarter, ¿vale?
Y te lee mal siempre el 4.
Esa es la voz no avanzada.
Pero esta es la tecnología que ellos tienen en 2022.
En 2024, en 2024, ¿qué podría tener OpenAI internamente?
Que a lo mejor nos enseñan este año.
Pues yo creo que es como la voz del robot que hemos escuchado, ¿no?
Una voz que tenga este titubeo.
Este rollo, este rollo que tú lo escuchas y dices,
por errar, errar le hace humano.
Este titubeo, que no es exactamente como ChatGPT cuando se buguea,
sino es como un...
Eso es súper interesante.
Y eso puede ser Voice Engine, ahora que han registrado la marca.
Es decir, si han dado este paso de sacar este artículo
y de presentarnos Voice Engine como marca,
mi sensación y mi predicción de lo que creo que va a pasar
es que van a sacar algo relacionado con voz.
De hecho, y ahora pasaremos a hablar un poco de Sam Allman
y su entrevista con Lex Friedman y todo lo que comentaban,
yo creo que este año vamos a ver dos o tres cosas importantes de OpenAI.
Dos o tres cosas importantes de OpenAI.
que tienen que ver con GPT-5, ¿vale?
Creo que GPT-5 lo vamos a ver este año,
que hay gente que cree que puede salir el año que viene.
Yo creo que va a salir este año.
Luego os comento por qué.
Agentes autónomos, que eso podría venir de la mano de GPT-5
o por separado.
Puede ser.
Agentes y una nueva forma de interactuar
que sea mucho más natural.
Vale, un rollo más asistente de voz tipo Her.
Porque yo creo que si OpenAI aspira a tener un público masivo
de gente que utiliza, por ejemplo, su aplicación móvil,
para mí, a mí me pasa,
la aplicación móvil la utilizo principalmente para hablar con voz.
Y muchas de estas interacciones son muy, muy guapas
y muy, muy enriquecedoras para mí.
El poder preguntarle un tema y que me empiece a hablar
y que me empiece a conversar y yo poder responderle.
Eso está muy bien.
Pero me parece una versión primitiva de lo que podría ser.
Ahora, pensad que cuando ellos sacan ChatGPT
es a finales de 2022, en noviembre.
Tres meses antes sacaron Whisper, dos meses antes sacaron Whisper
y tal cual nos cuentan aquí,
Voice Engine también se empezó a diseñar a finales de 2022.
O sea que internamente ellos vieron la necesidad
de tener un modelo que escuche muy bien,
que hable muy bien, justo en la época en la que sacan ChatGPT.
Esto tiene un sentido obvio y ya lo predije cuando salió ChatGPT
de esto va a evolucionar a asistentes de voz.
Ya lo tenemos, pero creo que ahora se tiene que refinar
para que la experiencia sea realmente buena.
¿Vale?
Entonces yo creo que eso va a pasar.
¿Por qué no hablo de Rabbit R1?
Porque no me ha llegado.
Me lo compré el día que salió.
Me estoy arrepintiendo porque cada día que pasa
es como que se hace más obsoleto.
Pero todavía no...
Tampoco puedo hablar de todos los temas.
Mira qué chapas os estoy dando y solo vamos por la mitad.
No, no, no.
Vamos más, tranquilos.
Entonces, bueno.
Esta tecnología, declonación de voz,
no creo que la veamos.
Disponible dentro de mucho.
O sea, no creo que la veamos, la declonación de voz,
pero el texto speech con voces más naturales
como las del robot.
Seguramente sí las veamos pronto.
¿Qué más, qué más, qué más quería comentar?
Bueno, aquí hay una curiosidad, por cierto,
que no he podido verificar 100%,
pero era un ingeniero de la empresa esta,
decía lo siguiente, y os quiero preguntar.
O sea, ¿la voz os suena de algo?
Pensad que el modelo de OpenAI hace clonación de voz,
con lo cual ellos han podido seleccionar la voz que han querido.
Entonces ellos te lo decían como,
¿os suena de algo esta voz?
Hemos clonado la voz de alguien,
a ver si sabéis de quién, ¿vale?
Es un poco el rollo.
Y ciertamente yo cuando lo escuchaba digo,
esta voz me suena de algo.
La respuesta la dio otra persona,
y no hay confirmación de eso.
No sé si esa confirmación es oficial,
con lo cual no lo sabemos,
pero quiero que me digáis vosotros.
No digo que sea una clonación perfecta,
pero hay matices.
A mí me recordaron en su momento...
Ilya, me encanta.
Eh, Luxo, lo tiene.
Steve Jobs.
Steve Jobs.
Y ojo, ¿eh?
Steve Jobs.
Y dicen,
las malas lenguas,
que incluso hay un guiño
en el rollo de coger la manzana
y pasarle como el testigo de la manzana
a esta nueva empresa, ¿no?
Como que está un poco hasta interpretado como,
hey, somos la nueva Apple.
Un poco así,
pero bueno,
estos son salseítos de Twitter
que yo os traigo
porque sé que esto os gusta.
La cosa es,
no hay confirmación oficial
y a mí
se me hace muy raro
que cojan la voz de Steve Jobs
y la usen, ¿vale?
Y además como digan,
eh, hemos clonado la voz.
Se me hace raro,
así que vamos a dejarlo como rumores, ¿vale?
Rumorología de esta que suena de fondo,
pero es curioso y es icónico.
Sería, si no hay permiso,
sería de mal gusto, ¿no?
Haber cogido la voz de Steve Jobs
para esto.
Bueno,
tema de robots.
¿Qué hemos visto hasta ahora, no?
Hemos visto chips,
hemos visto
cómo puede evolucionar esto
dentro de asistentes físicos reales,
robots.
Vamos a hablar de otro de los temas
que ha sido bastante popular
en las últimas semanas
y vamos a conectarlo
con lo que hemos visto ahora.
Vamos a hablar de Devin.
Devin, Devin, Devin.
Todo esto va a acabar
concluyendo
todo lo que estamos hablando
en lo que serán
los próximos modelos.
Los modelos que vamos a ver
los próximos meses, tela.
GPT5 y todo esto.
Pero una cosa que quiero que veáis
es que yo cuando hace un año
os hablé de GPT4,
os dije,
GPT4 va a ser más potente.
Y es una cosa
que he intentado insistir mucho
durante los vídeos que hice
en marzo, abril y mayo del año pasado
con el vídeo de GPT4 será más potente
y otro vídeo era el de Minecraft,
que es un vídeo
que mucha gente ignoró
porque pensaban
que era un vídeo de Minecraft
y era un vídeo
sobre agentes autónomos.
Y eso es muy importante
porque GPT4
a día de hoy
no lo tenemos que pensar
y está claro
viendo la demo del robot,
no lo tenemos que pensar
como un modelo de lenguaje
que genera lenguaje,
tenemos que pensarlo
como un procesador
de información.
Y como procesador
de información
que es,
ya está demostrado
en varios papers
y en varios ejemplos
y en el vídeo de Minecraft
se demostraba muy bien
de que estos cerebros artificiales
sirven para introducirlo
dentro de plataformas,
herramientas, robots
y que pueden coordinar
y planificar tareas complejas
y ejecutarlas
a partir del uso
de otras herramientas
llamadas de APIs,
un poco la idea
que hemos visto antes
con la orquestación
de herramientas.
Y el mejor ejemplo
que tenemos de esto
es el de Devin,
que está por aquí,
¿vale?
El de Devin.
Para mí es una de las demos
más interesantes,
además justo han salido
como las mismas semanas,
¿no?
Creo que una muy interesante
es la del robot figura,
el figure,
porque es como
la materialización,
el embodiment
de la IA
dentro de un robot
y luego tenemos
el de Devin,
que es la materialización
de la IA,
de GPT-4,
como agente autónomo
en el mundo digital,
haciendo tareas complejas
como las que vamos a ver aquí.
Vamos a verlo.
Hey,
soy Scott
de Cognition AI
y hoy estoy muy emocionado
de la introducción
de Devin,
el primer software software
de la IA.
Déjame mostrarles
un ejemplo
de Devin en acción.
Voy a preguntar a Devin
la performance de Lama
y un par de diferentes
providers.
Desde ahora,
Devin está en la silla de la driver.
Primero,
Devin hace un plan de paso a paso.
Vale,
¿qué es Devin
para el que no lo conozca?
Devin es
una inteligencia artificial
que lo que pretende ser
es un,
bueno,
hacer tareas,
ciertas tareas
de un ingeniero de software,
¿vale?
Cuando tú te enfrentas
a una determinada,
yo qué sé,
quieres instalarte,
quieres hacer un proyecto,
te metes en GitHub,
te descargas el proyecto,
tienes que hacer una serie
de tareas
que te van a obligar
a tener conocimientos
de informática
y de cómo instalar
diferentes librerías,
cómo descargarte el código,
instalar el código.
si el código no funciona,
meterte a tocar cosas,
tocar cosas de tu sistema operativo,
tienes que hacer
un montón de pasos
independientes,
pero que tienen que darse
todo bien
para que la tarea
se concluya satisfactoriamente
y en este caso,
Devin es un poco esto,
es un GPT-4
que va a poder utilizar
diferentes herramientas,
pues va a poder utilizar
la terminal del sistema,
va a poder leer documentación,
va a poder acceder
a internet,
va a poder hacer
un montón de cosas
para hacer la tarea
que se le proponga,
¿vale?
tareas de ingeniero de software.
En este caso,
lo primero que se le ha propuesto,
no sé exactamente
el ejemplo que se le ha pedido,
a ver,
vale, dice,
la tarea que se le está proponiendo
es quiero que hagas
un test
del modelo
de inteligencia artificial
llamados
con diferentes proveedores
de este modelo,
¿no?
Con Replicate,
con Together,
con Perplexity,
que figures la forma
en la que te puedes conectar
a su API
para poder hacer
estos benchmarks
y luego darme
un reporte
de cuál funciona mejor.
Todo esto,
todo esto
nos obliga
a tener que ejecutar
varias tareas,
como digo,
que no son sencillas tampoco
si no tienes nociones
de informática.
Lo primero que hace el modelo,
si tú le preguntas
a GPT-4,
quiero hacer esta tarea,
planifícalo punto por punto,
pues te hace esto.
Primero,
tengo que leer
la documentación
para Replicate Together
y Perplexity
para entender
cuáles son sus parámetros
y sus formatos
de request.
Escribir un script
de Python
que construya
y envíe el HTTP request,
bla, bla, bla, bla, bla,
todo,
paso por paso.
Ahora,
cuando tienes desglosada
la tarea compleja
en tareas más sencillas,
vas ejecutándolas
una a una
y al modelo
le das acceso
a las herramientas.
Oye,
terminal,
para poder
un intérprete de código,
todo.
Devin
has its own
command line
its own
code editor
and even its own
browser.
In this case,
Devin decides
to use the browser
to pull up
API documentation
so that it can read up
and learn how to plug
into each of these APIs.
Here Devin runs
into an unexpected error.
El modelo
va generando el código,
se lee en conversación,
o sea,
esto no es 100% autónomo,
sino que,
si no te dais cuenta,
según avanza el vídeo,
aquí ha habido interacción humana,
¿vale?
Puedes asegurarte
de que tengas
el nombre correcto
a los modelos,
quiero que todos sean
llamados 70 veces,
es decir,
hay una interacción,
no es que sea 100% autónomo,
pero bueno,
el modelo va ejecutando
paso por paso
y cuando encuentre un error,
pues puede incluso
decir,
vale,
me he equivocado aquí,
voy a leer cuál es el mensaje
de error,
vamos a intentar repetir
el paso iterativamente
hasta que llegue
a un resultado favorable.
Y aquí vemos que al final,
pues arregla el error
que había encontrado
y ya tenemos
los diferentes benchmarks
de cuántos token por segundo
genera el modelo
replicate together
y perplexity,
¿ok?
Esto es heavy,
preguntan por aquí,
esto es como
autointerpretación,
ah, vale,
pensaba que decías
el interpreter de chat GPT,
o sea,
el interpreter de chat GPT
sí se parece a esto
de que tiene un intérprete
de código
que puede ejecutar código
dentro de su propio terminal
pero no tiene el acceso
a internet
para leer documentación,
no tiene diferentes,
bueno,
ahora sí lo tiene,
claro,
pero no tiene
tanta libertad
como parece que tiene
este sistema,
pero tú te refieres
a autointerpreter
que no lo he probado.
y al final incluso
te ha generado
una página web
para hacer,
o sea,
te hace un deploy
de una página web
que ha diseñado
con gráficas
que te muestran
los valores
que ha calculado
del benchmark
de llama 2
que tú le has pedido.
Vale,
y está la página web
que te ha generado.
Todo esto,
claro,
tú le das la instrucción
y el modelo
va trabajando por ti
todavía en modo copiloto,
todavía no es el piloto
porque tú tienes
que estar dándole
este feedback,
pero ostras,
ostras,
¿vale?
Tela marinera.
Vale,
entonces,
esta gráfica
me interesa
que la veamos.
No sé si voy a poder
quitar como el
el menú de abajo,
pero bueno,
así.
Bueno,
más o menos
os lo leo.
En este caso,
mola mucho
porque esta gráfica
ilustra bastante
lo que va a pasar
en los próximos meses
si nada mejora,
¿vale?
Si nos quedamos
Ceteris,
Paribus,
todo lo demás.
Y es,
aquí lo que nos están
hablando es,
Devin está haciendo
estas tareas
que son tareas
que uno podría encontrar
en GitHub
o que un software,
un ingeniero de software,
tareas sencillitas,
podría ser,
oye,
quiero comparar
este modelo
en esta librería,
quiero diseñar
un juego
con ciertas características,
quiero diseñar
una página web
de este tipo,
quiero hacer un,
hay un error
en este repositorio,
haz un pull request
con este,
todo este tipo
de tareas,
se han cogido
y se ha hecho
un dataset
con estas tareas,
perdón,
un benchmark,
¿vale?
Un test
donde hay un montón
de pruebas
de este tipo
que es el test
que aparece listado
aquí arriba,
el SWL,
Software Engineer
Benchmark,
y entonces
se ha probado
Devin
y en este caso
se indican,
a ver,
Devin
y GPT-4
están evaluados
sobre un subset
del dataset
del 25%,
es decir,
con un cuarto
de las pruebas
y sin asistencia
humana,
¿vale?
Es decir,
a pesar de que
en el vídeo
si hemos visto
que hay interacción
con un humano
para ciertas cosas,
entiendo,
entiendo que aquí
el modelo
está sin asistencia,
¿vale?
Mientras que
los otros modelos
que nos ponen aquí
en barras azules
sí han tenido asistencia,
¿vale?
Para poder cumplir
este benchmark.
Pues de todas
esas tareas,
del 25%
de tareas
del SWL
Bench,
Devin
ha conseguido
lograr
el 14%
de ellas,
¿no?
El 13,86%.
¿Ok?
Donde modelos
como Cloud2
llama
entrenado
para hacer
estas tareas,
GPT-4
y ChatGPT-3.5
solo logran
esto de aquí.
O sea que Devin
en su capacidad
de interactuar
como un agente
sí ha logrado
un rendimiento
superior,
bastante superior,
triplica
lo que Cloud2
puede hacer
llegándose
hasta esto.
A mí no me gusta,
o sea,
no es que no me guste,
lo que me gusta
de este gráfico
no es
hasta dónde llega ahora,
sino que una vez
tú estableces
como este benchmark
y esto,
cierto que los benchmark
son tendenciosos
y son peligrosos
y hay riesgo
de que se
filtren datos
y se entrene
sobre los test de prueba,
todo esto existe,
lo sabemos,
no sabemos que,
no nos podemos fiar
al 100%
de estos test,
pero es una guía
para poder ver
cómo va a ir evolucionando
esto
y van a empezar
a aparecer un montón
de opciones
y soluciones
privadas como esta
o open source
que van a intentar
que este 13%
siga subiendo.
De hecho,
yo me vuelo
que si OpenAI
se mete
a hacer esto
porque lo que estamos
viendo aquí
es el concepto
de agentes
autónomos
que es el siguiente paso
que creo que vamos a ver
en inteligencia artificial,
lo que OpenAI
quiere ofrecernos
este año
como la gran novedad,
todo el tema de
te doy una tarea,
la descompones
en subtareas
y de forma proactiva
consigues resolverlas
y eso va a ser
una bestialidad,
me creo que OpenAI
cuando saque esto
nos va a decir
mira,
¿recordáis el SWE Bench?
Pues hemos llegado
al 60%.
60% es
un montón,
es una burrada,
es un 60%
de tareas
que humanos,
developers,
hacen
a día de hoy
sobre el contexto
de tareas de GitHub
bla bla bla
pero estamos entrando
de nuevo
a que la IA
esto es una reflexión
que compartía hoy
en Twitter
de que si lo pensamos
estamos subiendo
niveles de abstracción
y esto ya empieza
a responder un poco
a la pregunta de
en qué punto
de la curva exponencial
nos encontramos
desde mi punto de vista
queda recorrido
queda recorrido
y cada
dos años
cada año
cada dos años
estamos subiendo
niveles de abstracción
en esta curva
GPT-2
y hablo de GPT-2
pero podríamos hablar
de otros modelos
pero nos centramos
en OpenAI
porque son los que
están liderando
por ahora
GPT-2
cuando salió
era un modelo
que OpenAI
se sorprendía
de que generaba
texto legible
punto
cuando sale GPT-3
ya nos olvidamos
de
oye
la IA puede hacer
texto legible
no
no
es que GPT-3
te hace texto
legible
punto
y ya no te preocupas
si hay faltas
de ortografía
si hay errores
tú ya a día de hoy
no miras
si GPT-4
se ha expresado mal
porque sabes
que se ha expresado
mejor que tú
vale
entonces
ese nivel de abstracción
lo hemos superado
hemos subido
a con GPT-3
oye
vale
habla bien
pero
puede resolver tareas
puede
si yo le doy un texto
me lo resume bien
o se deja información
si yo le doy
un texto
le puedo hacer preguntas
o se equivoca
vale
estamos evaluándole
con tareas sencillitas
sobre procesar información
ok
vale vale vale
pero es que con GPT-4
ya esos benchmark
que teníamos en 2022
para evaluar si la IA
hacía tareas correctas
o no
la IA
con GPT-4
ya esos benchmark
no nos sirven
y empezamos a examinar
a la IA
con exámenes reales
oye
esta prueba de derecho
de Estados Unidos
que tal
que pasa en la gente
que se tiene que
convertir en abogados
tal
la resuelve
si
con que porcentaje este
ahora estamos cogiendo
tareas que los humanos
hacemos
de ingeniería de software
de diferentes tareas
para evaluar
si la IA
lo hace
estamos subiendo escalones
y esto es súper importante
esto habla
de lo que hablábamos
al principio
de que no vamos lineales
vamos por órdenes
de magnitud
vamos por niveles
de abstracción
haciendo que la IA
cada vez sea
más capaz
y cada vez que sube
el agua
nos vamos ahogando
de tanto que llega
entonces
esos son los cambios
que tenemos que
darnos cuenta
que están ocurriendo ahora
y esto de Devin
este 13,86
¿cuándo
¿cuándo pasaremos
el 50%?
esa es la pregunta
recordad
este directo
SWBench
¿cuándo vamos a pasar
el 50%?
yo creo que
de aquí a un año
se pasa
y si no es un año
serán dos
pero yo creo que
de aquí a un año
se pasa
el 50
la mitad de las tareas
y de hecho
la buena noticia
que es por lo que
estaba hablando
hoy en Twitter
del tema
es esto
no
es esto
este
SWE
Agent
es un modelo
como Devin
pero no es privado
amigos
no es privado
este es open source
¿vale?
de las muchas iniciativas
esto pasa con todo
cada vez que hay un avance
cada vez que OpenAI
te saca el caramelo
pero no te lo da
con Sora
con GPT
tal
con todos los modelos
siempre la gente
intenta replicarlo
en open source
con stable diffusion
salió muy bien
así que
¿por qué no va a salir
con esto?
entonces
Devin
es
ya tiene su equivalente
que es SWE
al menos el que han
anunciado hoy
y fijaos que es la misma
gráfica que estamos viendo
aquí
GPT4
Cloud3
Opus
Devin
que está evaluado
con el 25%
de este benchmark
y
esta versión
open source
que es un poquito
menos de rendimiento
pero bastante
bastante bien
que también hace uso
de terminal
hace uso de navegación
de internet
bla bla bla
llega al 12,30%
pero evaluado
con el 100%
de las tareas
del SWE
benchmark
¿vale?
lo cual está
pues bastante bien
o sea
no tengo una métrica
más fiable
porque hay menos varianza
¿no?
porque aquí a lo mejor
pues yo que sé
a lo mejor justo lo han entrenado
con el 25%
de tareas más favorables
del modelo
entonces
de aquí para arriba
chicos
de aquí para arriba
es lo que comentaba hoy
¿vale?
de aquí para arriba
bueno
¿cómo estáis?
¿dejamos el directo aquí
y ya me callo?
¿o queréis que siga hablando?
somos
estamos constantes
2.800 personas conectadas
todo el rato
¿qué significa ese 13%?
os lo he dicho
es como si tú coges
el SWE
bench
son
te vas a GitHub
buscas tareas
reales
que están registradas
en GitHub
te coges unas cuantas
y te armas un listado
de un montón de tareas
que siga
que siga
seguiré
coges todas estas tareas
entonces tú dices
vale
de todas las tareas que tengo
que el modelo no ha visto
durante su entrenamiento
es el conjunto de pruebas
¿cuántas puede resolver
correctamente?
entonces
este modelo
el SWAgent
resuelve
de cada 100
12
tú no contratas
a un ingeniero de software
con este rendimiento
tú no contratas
a un ingeniero de software
que de cada 100 tareas
te resuelva 12
pero chicos
que hace un año
bueno no hace un año
hace
bueno sí
con GPT4
hace un año
estamos aquí
¿vale?
y ahora estamos aquí
y esto seguirá subiendo
según mejore todo
¿ok?
y luego creo que está
OpenDeving
que también lo estáis mencionando
por aquí
y hay varios proyectos
hay varios proyectos
entonces en eso estamos
yo creo que OpenAI
va a tirar por ahí
va a tirar por el tema
de agentes
esto lo decía
Andrew Carpathy
hace medio año
no hace un año
casi ya
que era lo siguiente
Andrew Carpathy
es uno de los
grandes ingenieros
que hemos tenido
en la industria
investigador también
que estuvo en Tesla
luego estuvo en OpenAI
y cuando estaba en OpenAI
salió GPT4
y ellos dijeron
mirad
nosotros
en OpenAI
tema de transformers
o sea
tema de modelos de lenguaje
lo hemos probado todo
o sea internamente
ahora que hemos sacado GPT4
y que hay mucha gente
que quiere probar esto
ah flash attention
tal
no sé qué
técnicas de este
lo hemos probado todo
somos expertos en esto
con lo cual aquí
realmente
poco
poco vamos a poder sacar
de los investigadores
de lo que está investigando
otros laboratorios
porque de esto
hemos probado todo
ahora lo que nos ha pillado
por sorpresa
lo que sí que
nos ha parecido
bastante novedoso
y no habíamos visto
fue toda la revolución
que empezó el año pasado
además justo hace un año
con el
ah
¿cómo se llamaba este
este proyecto
que se hizo súper exitoso
pero que no funcionaba?
los autos GPT
y todas estas historias
el tema de agentes autónomos
todo esto
es algo que OpenAI
no había
testeado como tal
el tema de agentes autónomos
entonces
ahí
ahí
es donde
han puesto el foco
seguramente
y han encontrado
un montón de valor
que es lo que vamos a ver
en los próximos meses
es mi intuición
aquí es mi intuición
¿vale?
¿qué más?
veo aquí
gracias por el superchat
sobre Gary Marcus
denle like
al vídeo
gente
denle like al vídeo
para saber que me queréis
y que os está gustando
entonces
bueno
venga
más cosas
Carlos
es que
siempre hablas de OpenAI
siempre hablas de OpenAI
vaya fijación
tienes con OpenAI
OpenAI
son unos mierdas
OpenAI
son unos
son unos mierdas
porque no sacan nada
y no dejan mucho tiempo
sin sacar cosas
mira que el Sam
el bueno de Sam
quiere
según dijo en la entrevista
de Alex Friedman
ahora vamos a ver
algunos cachos
quiere
poco a poco
ir haciendo
deploys más iterativos
quiere sacar
como versiones más
no
que no pase tanto tiempo
y que sean tan impact
tan impactantes
para la gente
sino que sea más progresivo
pues te está saliendo
muy mal colega
te está saliendo muy mal
saca más cosas
OpenAI
ya no digo
OpenSource
sacad cosas
sacad modelos
dadme noticias
que estoy sediento
estoy obsesionado
con esta gente
porque realmente
cada vez que sacan algo
generan un terremoto
pero
desde mi punto de vista
desde mi punto de vista
la mejor
la mejor
noticia
de lo que va por año
y sé que no se percibe como tal
pero la mejor noticia
de lo que va por año
es lo que ha hecho
Antropic
vale
es lo que ha hecho Antropic
y un poco lo que ha hecho Google
también
aquí le hemos dado mucho a Google
con el palo
por la demo fake
y todo esto
y porque Gemini
no ha llegado a cumplir
las expectativas
pero
vamos a situar las cosas
en el tablero
GPT-4
a día de hoy
podemos decir
que no es el modelo
más potente
muchas gracias
Javier
por el chat
GPT-4
ya no es el modelo
más potente
amigos y amigas
Antropic
la gente de Antropic
que si recordamos
es gente
que originalmente
trabajó en OpenAI
creo que
si no estaban en el paper
Darío Amodei
no sé si estaban en el paper
de GPT-3 o en el de GPT-2
pero estaban por ahí
en aquella época
se fueron y crearon Antropic
que era la versión más safety
más segura de OpenAI
mentira
es la
el spin-off de
ostras
estamos haciendo cosas con valor
y en vez de ser un currante
de esta empresa
prefiero hacerlo yo por mi cuenta
con mi filosofía
y ya está
entonces Antropic
entrenaron
Cloud-1
Cloud-2
y ahora han sacado
hace cuatro semanas
Cloud-3
y han sacado Cloud-3
con tres versiones diferentes
Haiku
Soneto
y Opus
pequeño
mediano y grande
Haiku
Soneto
y Opus
de menos potente
a más potente
de más barato
a más caro
Opus
sería el GPT-4
Cloud-3
Opus
sería el GPT-4
y
y es curioso
a día de hoy
ese modelo
se puede decir
que para muchas personas
porque aquí ya empieza
un aspecto de subjetividad
para muchas personas
es un modelo mejor
que GPT-4
superior
yo no digo que sea
superior al 100%
pero sí
en ciertas cosas
se le nota superior
aquí hay un problema
que es un problema intrínseco
del campo del Deep Learning
que vamos a tener que buscar
alguna forma de solucionar
que es
cómo evaluamos
a la inteligencia artificial
cómo podemos saber
que GPT-5
cuando salga
es mejor que GPT-4
porque hasta nosotros
como humanos
empezamos a estar limitados
en nuestra capacidad
de evaluar la inteligencia
de estos sistemas
a mí me pasa
que a veces me siento
frente al GPT-4
o Cloud-3
y digo
joder
este modelo
dicen que es más inteligente
y que le pregunto
un kilo de plomo
pesa más que un kilo de plomas
siempre hago la misma pregunta
y si falla
digo
más tonto
más listo
no
hay un punto
en el que confiamos mucho
en las evaluaciones
en los rankings
pero tampoco sabemos
si estas empresas
que tienen un interés genuino
en destacar
por la competencia
si no están
trucando los modelos
para que estas evaluaciones
se truquen
porque
si tú entrenas
al modelo
con estas evaluaciones
el modelo va a ser
mejor
y esto
puede estar pasando
incluso si no pensamos
que estas empresas
actúen de mala fe
lo que puede pasar
es que
se entrena
con una vasta cantidad
de datos
a estos modelos
que al final
lo que acaba pasando
es que
acaban absorbiendo
de alguna forma
u otra
estas evaluaciones
entonces
esto es un problema
porque no nos podemos
fiar tampoco
de estas métricas
cuantitativas
hemos hablado ahora
del SW benchmark
y ahora
cuando gane popularidad
no vamos a saber
si el Devin 2
que saquen a futuro
si se habrá entrenado
con estos
con este benchmark
¿vale?
¿entendéis?
entonces aquí
se basa uno
un poco
en lo que se llaman
las vibras
vibes
¿vale?
de hecho vamos a ir
un momento
a la web
de LM Arena
las vibes
son el
tú usas el modelo
y que percibes
que es mejor o peor
esto es un poco
las vibes
que habéis tenido
todos de
es que el GPT-4
se vuelve más tonto
¿por qué?
bueno
porque lo
tal
lo pruebo
y otra forma
en la que se puede evaluar
es esta de aquí
que es
esta página web
aunque creo que también
se puede trucar
de ciertas formas
pero bueno
esta página web
es quizás
de las fuentes
más fiables
para basarnos
en esto
porque es
una arena
una competición
donde para un mismo
prompt
pues por ejemplo
vamos a ponerle
en español
¿qué pesa más?
un kilo de plumas
o medio kilo
de plomo
la típica
¿vale?
entonces
el mismo prompt
se va a mandar
a dos ias diferentes
y te dice
ambos pesan lo mismo
un kilo
incorrecto
porque medio kilo
de plomo
es menos
que un kilo
de plumas
y aquí te dice
a pesar de que la pregunta
puede parecer una paradoja
o un juego de palabras
en realidad
ambos pesan lo mismo
los dos modelos
se han equivocado
¿vale?
se han equivocado
por
un tema de overfitting
porque
es una pregunta
que va
a la trampa
porque la pregunta habitual
suele ser
un kilo de plumas
o un kilo de plomo
entonces
tienden a tirar
por esta respuesta
típica
entonces le voy a decir
que los dos son malos
¿ok?
y ahora nos revelan
que uno era
el modelo
Cuen
de chinos
de China
de los chinos
y otro es el modelo
Command R
no estamos con ningún modelo
State of the Art
entonces tú aquí
puedes votar
Ice Better
Base Better
Empate
o los dos son malos
y con esto
la comunidad va votando
y vosotros podéis votar
y es muy guay
para conocer el rendimiento
de varios modelos
sin tener que instalar
nada en vuestro ordenador
y luego podéis ir
al leaderboard
que se va actualizando
cada cierto tiempo
esto
esto no sé si es nuevo
o qué
29 de marzo
o lo había visto
ya no me acuerdo
bueno
entonces aquí en el leaderboard
se ha estronado
a GPT-4
podemos ver cómo
rinden los mejores modelos
se evalúa con esto
del elo
que se usa mucho
en el ajedrez
y tal
y entonces con la puntuación
de la comunidad
se va haciendo un ranking
que se va actualizando
cada 15 días
de los modelos
y por primera vez
por primera vez
el 29 de marzo
Cloud 3 Opus
se ha puesto
en cabeza
destronando
a GPT-4
por la votación
de la comunidad
y esto es súper interesante
Cloud 3 Opus
por encima
de GPT-4
la versión
de
el developer
de
esta sería
la siguiente
Gemini Pro
Cloud 3 Sonnet
esta sería
la versión
intermedia
de Cloud
y luego
la versión
Haiku
vale
fijaos cómo
aquí tenemos
un montón
de modelos
todos privados
en cabeza
luego tenemos
el modelo
de Cuen
que si no me equivoco
es de los nuevos
que han sacado
Dalibaba
vale
tenemos un montón
de modelos
Command-R
que es el modelo
que justo nos ha salido
ahora de Cogier
bueno
un montón de modelos
y Cloud 3
ahora mismo
por las vibras
de la gente
parece que es el mejor modelo
que a lo mejor
es el mejor modelo
para tema
de escritura creativa
yo sinceramente
lo he podido probar
poco durante el viaje
pero cuando lo he probado
lo he probado
para escritura creativa
y es
verdaderamente
se nota
cuesta describir
por qué
pero se nota
en la forma de hablar
a mí de GPT-4
me molesta un poco
el rollo este
de decirte siempre
el
sí
es esto
esto
esto
uno
dos
tres
que siempre te lo doy
close así
de hecho en las
custom instructions
yo intento
quitarle siempre esto
porque prefiero
que me dé un texto
más redactado
más que una enumeración
de cosas
entonces ahí
Cloud 3
es bastante impresionante
yo os recomiendo
que lo probéis
el problema es que en Europa
por ahora no lo tenemos
pero con Opera
con una VPN
con NordVPN
con lo que queráis
no haz
no patrocinio
pues podéis probarlo
sin mucho problema
y es bastante impresionante
yo le pedí
sobre un tema concreto
quiero que me hagas una explicación
me pareció interesante
la explicación
le dije
quiero que me lo redactes
como un libro
quiero que me desarrolles
cada tema que me has dicho
como si fueran capítulos del libro
y es que me lo empecé a leer
y cuando me di cuenta
digo tío
pero si ya voy por el capítulo 6
y me sigue interesando
o sea
es bastante
bastante
potente
tema de programación
no lo he probado
hay gente que dice
que es mejor que GPT-4
hay gente que dice
que GPT-4 es mejor
hay gente que dice
que GPT-4 es mejor
para debuguear
y Cloud 3
para escribir código
estamos moviéndonos
como en ese punto
donde los modelos
parecen converger
a un mismo lugar
de inteligencia
y alguno supera
alguno en ciertas características
otro en otras
vamos a meter aquí también
a Google
venga
Gemini
1.5
ostras
ahí gana
por multimodalidad
con vídeo
y ventana de contexto
un millón de ventana de contexto
ni Cloud 3 la tiene
el tema de
por cierto
leer documentos
y sacar
información de documentos
Opus
lo hace súper bien
vale
es decir
tenemos como
una convergencia
de los modelos
a un lugar
que eso
es el punto
que para mí
me genera más incertidumbre
de todas
y es
hemos tocado
techo
ahí
vale
volvemos a la idea
de la sigmoide
de antes
este año
para poder demostrar
que estamos
realmente
que hay camino
por encima
vale
que estamos realmente
dando otro salto más
en la inteligencia artificial
no solo tiene que aparecer
el tema de los agentes
autónomos
no solo
tiene que haber
mejores interfaces
como el tema
de hablar con voz
y todo esto
sino que los sistemas
se tienen que volver
más inteligentes
y capaces
y ese es el punto
que no tengo del todo claro
sinceramente
creo que sí
creo que OpenAI
al final pensemos
que estamos diciendo
que todos estos modelos
están convergiendo
al mismo punto
pero ese punto
es un modelo
que OpenAI sacó
hace un año
y OpenAI
ha trabajado
y creo que van a sorprender
creo que este año
van a sacar
algo muy potente
de hecho
fijaos
cuando Google
sacó Gemini 1.5
creo que Google
perdón
creo que OpenAI
quiso sacar
chat GPT 4.5
vale
he quitado el tweet
lo tenía por aquí antes
creo que querían sacar
GPT 4.5
hace un mes
de hecho se filtró
si buscabais
como en algún navegador
se había visto
que en caché
OpenAI
había creado
la página web
incluso
para hablar
de GPT 4.5
turbo
que yo creo
que era un modelo
que lo que buscaba
era
ponerse un poco
por encima
de la competencia
para que no le destronen
creo que luego
Antropic
sorprendió
con Cloud
y creo que directamente
cancelaron GPT 4.5
y saltan
a GPT 5
que saldrá
ahora diremos
cuándo
ahora veremos
cuándo
vale
entonces
estamos en ese punto
de incertidumbre
de cómo nos podría
sorprender
GPT 5
más allá del tema
de agentes
más allá del tema
de
forma de dialogar
con el modelo
cómo nos puede sorprender
qué pueden sacar
para que sea
verdaderamente
algo
sustancial
sobre esto
sobre el tema
de los modelos
digo que Antropic
sacando Cloud 3
es una muy buena noticia
porque hay competencia
porque hasta ahora
OpenAI
nadie le destronaba
OpenAI
siempre iba por delante
y técnicamente
van por delante
porque
si movemos GPT 4
en el tiempo
a lo que pueden tener
ahora entrenado
va a ser algo
más potente
obviamente
pero ahora mismo
hay una empresa
capaz de entrenar
modelos
por encima
de OpenAI
y eso es muy bueno
eso es muy bueno
al mismo tiempo
que la comunidad
de OpenSource
sigue sacando modelos
no para
la cosa sigue para arriba
vale
entonces
hay una gráfica aquí
que os quiero enseñar
que me parece muy guapa
y que creo que
muestra
también otra de las mejores
noticias
vale
por cierto
hay rumores
de que esta semana
posiblemente Google
saque Gemini
1.5 Pro
la versión
nos anunciaron
GPT
perdón
nos anunciaron
Cloud
joder
vaya cacao
ya empiezo
ya la ventana de contexto
me falla
sacaron
Gemini
Ultra
1.5
lo anunciaron
nos presentaron
datos y tal
posiblemente esta semana
anuncien la versión
intermedia
1.5
hay rumores
veremos
pero bueno
esta gráfica de aquí
mola bastante
mola bastante
porque nos habla
de otro benchmark
el MMLU
Accuracy
uno de los benchmarks
que se utilizan mucho
como referencia
para ver
la inteligencia del modelo
y el coste
por millones de tokens
del modelo
en escala logarítmica
0.1
1.10
100 dólares
vale
entonces
mola mucho
porque esta gráfica
te lo desglosa
te dice
cuál es la tasa de acierto
de los diferentes modelos
que han ido saliendo
pensad
entre más a la derecha
mejor
vale
entre más a la derecha
mejor
fijaos
GPT4
fijaos
Cloud
Opus
están casi casi a la par
pero Cloud
está un poquito por delante
ok
y entre más abajo
mejor
porque entre más abajo
el precio
en escala logarítmica
va a ser más barato
vale
esta gráfica la voy a dejar
porque sé que mucho
os va a gustar
tenerla
entonces
fijaos como
con el paso de los años
se
es que se ve perfecto
esto
esto que hablábamos antes
de estamos dando salto
cada año que pasa
los puntos negros
2022
en aquella época
los modelos eran caros
con respecto a lo que tenemos ahora
y su rendimiento
en el MMLU
estaba entre un 25%
y un 45%
vale
esto es como la época antigua
GPT3.5
Instruct Text DaVinci 3
que es este de aquí
que fue el modelo
que salió
cuando salió
ChatGPT
este modelo de aquí
llegó al 65%
bastante impresionante
vale
a finales de 2022
pero su precio
era bastante caro
luego
2023
pum
de esplome
fijaos como la nube
de puntos
aquí
para empezar
estamos como
en una parte
de la distribución
de 40 al 80%
en el MMLU
pero además
con los precios
súper baratos
hemos pasado
de que antes costaba
el millón de tokens
entre 10 y 100 dólares
pues vamos a situarnos
como una especie
de 30 dólares
30 o 40 dólares
a que de repente
pua
2023
caemos aquí
y luego en 2024
ya estamos aquí
con modelos
este es
Claude 3 Opus
este es Claude 3 Sonnet
y este es el modelo
que ha dado la sorpresa
este es el modelo
que ha dado la sorpresa
chicos
este modelo
es Haiku
también de Claude
vale
un poquito mejor
que Gemini Pro
o sea
la versión baja
de lo que sería
la familia Claude
es
mejor
que
la familia
o sea
que la intermedia
la familia de Google
pero además
más barato
más barato
vale
esto
está siendo un bombazo
porque mucha gente
que genera aplicaciones
a través de la API
tener una inteligencia artificial
con esta inteligencia
y se está viendo
que Haiku
es bastante
performante
o sea
que tiene un muy buen rendimiento
para resolver muchas tareas
y se puede utilizar
en muchas aplicaciones
en producción
que tenga un precio
tan barato
que tenga un precio
tan barato
esto está siendo
un bombazo
creo
si no recuerdo mal
que su precio
siendo mejor
que ChatGPT 3.5
su precio
es 40 veces
más barato
si no me bailan
los números
vale
entonces
ojito
ojito
porque aquí
Antropic
creo que le ha hecho
un poco de daño
a OpenAI
tocado
vamos a decir
tocado
en toda esta historia
y como digo
es muy buena noticia
es muy buena noticia
tener
modelos
como estos
y luego vemos aquí
modelos como Gemini Ultra
donde se sitúan
GROC 1.5
importante también
por cierto
salió
GROC 1
Elon Musk
cumplió la palabra
de que lo iba a hacer
Open Source
vale
y luego anunciaron
a las pocas semanas
GROC 1.5
que ya empieza
a jugar
con los mayores
ya empieza a ser
un modelo
que rinde bien
pero no es Open Source
el 1.5
vale
y ya Elon Musk
ha dicho
que la versión 2
va a ser la leche
y no sé qué
no sé cuánto
bueno
habrá que verlo
ciertamente en el GTC
más allá de las
de las Keynote
y todo esto
luego habían un montón
de sesiones
con investigadores
que estaban por allí
y uno de los investigadores
que estaban
era el
Chris
no me acuerdo
cómo se llama
pero es uno de los investigadores
que llevan el tema
de
de GROC
es como el que creo
que está liderando
todo este proyecto
y escucharle
me dio bastante vibra
de este tío
ojo cuidado
o sea
es el que hizo
el paper de
batch normalization
un montón de
cosas importantes
de desarrollos importantes
es uno de los cabezas
importantes
del mundo del deep learning
y está detrás
del desarrollo
de GROC
y me dio expectativas
o sea
es un tío que
trabaja mucho
en el tema
de la IA
y el desarrollo
y la formulación
matemática
y me parece
que tiene ideas
bastante interesantes
para estos modelos
así que
vamos también
a tener un ojo
puesto
en GROC
esta gráfica
mola un montón
pero como digo
aquí nos falta un punto
y ese punto
es GPT-5
bueno
y llama 3
también
que
la gente de meta
les queremos mucho
porque nos están regalando
modelos súper poderosos
y súper interesantes
llama 3
que está proyectado
para salir
supuestamente en junio
a ver cuando
cuando sale la cosa
a ver
GPT-5
hablemos de GPT-5
¿cuándo va a salir GPT-5?
¿qué creéis?
¿sale este año
o sale el año que viene?
en mis predicciones
de lo que va a pasar
en la IA
en 2024
yo dije que este año
que me da la sensación
de que este año
yo creo que
OpenAI
no puede estar
un año
tirando de GPT-4.5
a menos que GPT-4.5
sea súper impresionante
pero
Sam dijo
que saldría en agosto
yo creo que agosto no
yo creo que eso
yo creo que eso
no lo ha dicho
si lo ha dicho
no me he enterado
y si no me he enterado
es raro
Julio o agosto
MMLU
es un benchmark
que se usa mucho
para evaluar
temas de
de inteligencia
¿vale?
es como
igual que hemos hablado
antes del SWE
benchmark
para tareas de ingeniería
de software
este es como un test
con preguntas complejas
de todo tipo
bueno
no sé
cuándo va a salir
GPT-5
pero sí sé
que va a salir
GPT-5
¿vale?
y sé que esto es como
ambiguo, etéreo
y poco informativo
pero puedo decir
que en mi viaje
a San Francisco
pude interactuar
pude interactuar
con gente
en abstracto
gente
que sé
que sabe
cuándo va a salir
GPT-5
no porque haya oído
un rumor de
no, no
gente que
sé que vas
que sabe
gente que tiene que saber
bueno, no
no que tenga que saber
pero sí
no sé
ambiguo
y entonces yo
mi pregunta
fue buena
la tiré bien
porque dije
¿cuándo va a salir
GPT-5?
o ¿va a salir
GPT-5
en los próximos meses?
y hubo una sonrisa
pícara
y no me dieron
nada de información
pero ya la pregunta
y esa sonrisa
o sea
esa forma
de saber
que va a salir
es que va a salir
no muy tarde
es decir
no creo que esté
proyectado rollo
sí
va a salir
en enero de 2024
perdón
en enero de 2025
no
esto me sonaba
a va a salir
yo creo
que va a salir
en junio
o en mayo
o en
o sea que va a salir
en este cuárter
vamos a decir
es lo único
que sé
y que me encantaría
saber más
pero no sé más
pero mola
porque
no es lo mismo
estar en Madrid
que estar en San Francisco
que sabes que
a tres calles
está OpenAI
estuve en
OpenAI
en las puertas
ahí
no es lo mismo
¿vale?
porque ahí
la información fluye
borbotea
y la gente es muy
o sea la gente habla
y se comentan cosas
entonces
mi sensación es que sí
que va a salir
más pronto
que tarde
y apostaría
que sale
en este cuárter
¿vale?
este que va a empezar ahora
abril, mayo, junio
ahí sale
pero no lo sabemos
es lo único
que
que tal
porque no tiene sentido
que
o sea
si ya tienes
cuánto tiempo crees
que puede esperar
OpenAI
con esto así
o sacan
la 4.5
lo cual sería
un poco decepcionante
pero
tiene sentido
sería como
una estrategia
como la versión
más
cómoda
no más
conservadora
pero
OpenAI
no es tan conservador
desde mi punto de vista
y
no creamos
que van primero
porque
van primero
y siempre van a ir primero
es decir
Google
está calentando
ya va calentando un año
ha tardado
pero ya está en un punto
donde empieza a superar
a OpenAI
en ciertas cosas
Antropic
también
esto no va de
quién va por delante
sino quién va más rápido
a lo mejor adelantas
a OpenAI
y te quedas por delante
entonces yo creo que
hay un punto
donde van a querer sorprender
y esto nos lleva
al siguiente punto de hoy
y es que
Sam
nuestro querido Sam
nuestro villano favorito
como me gusta denominarle
ha hablado
ha hablado en una entrevista
con Lex Friedman
lo voy a compartir
muy interesante de escuchar
si os gusta
escuchar a
a Sam Alman hablar
es bastante interesante
habla de diferentes aspectos
habla de toda la
crisis de OpenAI
cuando le despidieron
de todas estas historias
del salceo
que me gusta llamarle
salceo
y aquí hay unos puntos
que quiero que escuchemos
porque creo que son interesantes
escucharlos
entonces me echo aquí
la chuletilla rápida
para llegar pronto
a los temas
hay un comentario aquí
de hace un día
por ejemplo
le pregunta
el bueno del ex
bien tirado
oye
puedes decirnos
que es Q estrella
que es esto
de Q estrella
que tanto
se escuchó
hace unos meses
y Sam dice
no estoy
no podemos hablar
de esto
vale
y entonces
él dice
bueno
pero que no puedes hablar
de esto
significa que hay algo
la misma teoría
que tengo yo
con lo de
cuando va a salir GPT-5
entonces nada
bueno
recordemos
que es esto de Q estrella
cuando sucede
la crisis de OpenAI
bla bla bla
Sam le despide
no sé qué
a las pocas semanas
salen rumores
de un algoritmo
que ellos están investigando
que dan muy buenos resultados
en temas de matemáticas
en temas científicos
y que por el nombre
Q estrella
nos hace pensar
que podría ser
un algoritmo
de búsqueda
similar a
estrella
o algo relacionado
con Q learning
que son algoritmos
de aprendizaje
por refuerzo
que esto conecta
con lo que yo os conté
en el vídeo de septiembre
de que el futuro
de estos enormes
modelos de lenguaje
va a ir por una hibridación
entre modelos de lenguaje
y un planificador
tipo
algoritmos
Alpha
Go
Alpha
Fold
Alpha
bueno Alpha Fold
no
Alpha Go
Alpha
Tensor
modelos
que usan estas técnicas
de Monte Carlo
Tree Search
algoritmos de búsqueda
conectados
a estas bases
de conocimiento
el algoritmo
orquestador
planificador
que hemos hablado
antes
que maneja
las diferentes
sías
en el GTC
eso creo que va a ser
un poco lo que podemos ver
con este GPT-5
y ese va a ser
el cambio de paradigma
de arquitectura
que podemos ver
¿vale?
entonces
seguramente
no sea Q estrella
aquí pensemos
que OpenAI
trabaja
en muchas cosas
diferentes
están probando
todo
y GPT-5
me juego
en la mano
que
y de hecho
está pasando
justo ayer
salió
un escrito
de DARPA
de la agencia
de defensa americana
que le preguntó
en noviembre
a OpenAI
si ya estaban
entrenando GPT-5
y ellos dijeron
que no
si eso fuera cierto
me como las palabras
de que va a salir
este año
porque si GPT-5
en noviembre de 2023
no se estaba entrenando
tardas unos
cuatro meses
cinco meses
en empezar a
tenerlo entrenado
a lo mejor
90 días
ha dicho Jensen
¿no?
pues vamos a poner
90 días
tres meses
y luego viene
todo el tema
de evaluaciones
red teaming
luego viene
todo el tema
de un montón
de cosas
¿vale?
entonces
eso sí podría retrasar
toda la salida
de GPT-5
pero es que la cosa
la trampa
y esto lo estaban
comentando hoy
en Twitter
porque hay una cuenta
que es la de Jimmy Apples
que me gusta
a veces bichear
Jimmy Apples
hoy ha compartido
¿dónde lo tengo?
creedme que
bueno es que tengo aquí
hasta mi lista
tengo aquí mi lista secreta
OpenAI Leaks
un momentito
con cuentas
que dicen cosas
aquí Jimmy Apples
ha sacado
una cosa interesante
¿qué es esto?
como un
como que ha sacado
un montón de dominios
que no se pueden acceder
de OpenAI
pero que apuntan
a diferentes direcciones
privadas
a ver si lo podemos ver
que lo veis bien
¿vale?
como diferentes direcciones
de la web
de OpenAI
que internamente
utilizarán
¿no?
entonces como que
es bastante críptico
con un montón
de nombres de animales
y un montón
de historias
y tal
pero por ejemplo
si buscas GPT-4
pues ahí
chat GPT-V1
V2
V3
V4
interesante
si buscáis
yo que sé
Dalí
¿tiene alguno?
mira
SIG Dalí
Dalí Internal API
buscamos agentes
a ver
¿qué tienen de agente?
Agent Viewer
Agent Chat
Agent Chat Health
Scientist
Agent Chat
Q&A API
Scientist
Scientist
tal tal
no sabemos
qué significa
todo esto
pero para mí
sobre todo
los nombres de animales
me hacen pensar
que son diferentes
equipos de trabajo
que están trabajando
en diferentes proyectos
con diferentes cosas
la estrategia de
lanzas muchos espaguetis
que algunos se pega
¿vale?
entonces
lo que decía él es
mucha gente se piensa
que porque en noviembre
te digan que chat GPT-5
no se está entrenando
significa que no se está
entrenando
no, no
lo que significa es que
todavía GPT-5
no tiene forma
porque OpenAI
lo que va a hacer
es lo que hizo
con GPT-4
GPT-4
originalmente
iba a ser
el modelo más inteligente
sí
pero también iba a tener
el reinforcement learning
with human feedback
o from human feedback
que siempre lo digo mal
que es el chat GPT
o sea
GPT-4
iba a ser el salto
de GPT-3
a GPT-4
iba a incluir
una mejora del modelo
pero también iba a incluir
el tema asistencial
de chat GPT
iba a ser todo ese salto
lo que OpenAI
por miedo a la competencia
lo distribuyó en
GPT-3
3.5
3.5 chat GPT
y luego GPT-4
entonces
OpenAI
GPT-5 no existe
o no tiene una forma
concreta
porque es lo que
OpenAI
quiere que sea
o sea
OpenAI puede poner
bajo esa marca
GPT-5
cualquier modelo
de los que tengan aquí
o combinar diferentes técnicas
y decir
esto es GPT-5
esta combinación
de factores
que si los juntas todos
funcionan y generan
un todo mucho más potente
¿vale?
entonces es una trampa
que les permite
poder decir en noviembre
oye
GPT-5 no se está entronando
porque GPT-5 no existe
como tal
como concepto
¿entendéis?
si buscamos
Star
no creo que haya
no
no pero es interesante
incluso Star
Headpoints
como GDB
que me hace mucha gracia
porque este es de
Greg Brockman
Greg
Brockman
GDB creo que es su
handle de Twitter
¿vale?
Demo Engine
do not hit
17 de marzo
demo engine
bla bla bla
do not hit
¿no?
como un montón de
Headpoints
nada
bastante interesante
esta página
para bichear
entonces
esa es la cosa
Q estrella
y lo creo que lo dice Sam
ahora
seguramente se habrá filtrado
y será una de estas técnicas
que se estarán incorporando
en lo que luego será
el total de
GPT-5
no creo que sea nada
radicalmente innovador
como para generar
todos los titulares
que ha generado
pero bueno
es lo que se filtró
y es lo que la gente
pues ha querido coger
es muy misterioso
Sam
I mean
we work on
all kinds
of research
we have
said
for a while
that we think
better
reasoning
in
these
systems
is an important
direction
that we'd like
to pursue
we haven't
we haven't cracked
the code
yet
we're very
interested
in it
is there
going to be
moments
que habla mejor
el robot
que Sam
Alman
puede ser
qstar
qstar
or otherwise
where
there's going
to be
leaps
similar
to
adjpt
where
you're
like
that's a good
question
what do I think
about that
it's interesting
to me
it all feels
pretty continuous
right
this is kind
of a theme
that you're saying
is there's a gradual
you're basically
going up an exponential
slope
but
from an outsider
perspective
for me
just watching
it
it does feel
like there's
leaps
but to you
there isn't
I do wonder
if we should
have
so
you know
part of the reason
that we deploy
the way we do
la cosa
que están
hablando
es el tema
que he comentado
antes
de que
para Sam
Alman
considera
que está
siendo
bastante
gradual
la salida
que están
haciendo
de los
modelos
que ellos
podrían
haber dicho
imaginaos
esto
que de repente
gpt2
gpt3
y gpt4
no existen
sino que
directamente
gpt5
él dice
que
ellos
consideran
que están
haciendo
salidas
bastante
graduales
y cuando
se evalúe
esto
históricamente
lo será
porque al final
estamos hablando
de que no han
pasado
ni 5 años
de gpt2
vale
entonces
si
son graduales
pero
también es cierto
que cada vez
que sacan algo
es bastante
impactante
o sea
los saltos
que ellos
están haciendo
son bastante
impactantes
tampoco creo
que hayan
podido hacerlo
de otra manera
porque para
poder entrenar
un gpt5
tienes que
tener la inversión
que te ha
permitido
o sea
que
modelos
como gpt4
te han permitido
y ese gpt4
lo has entrenado
con la inversión
que has conseguido
de microsoft
por tener
el gpt3
bla bla bla bla bla
vale
y con los datos
del uso
de la gente
y todo esto
y el feedback
de probarlo
y testearlo
en comunidad
pero bueno
ciertamente
podrían hacer
de bloques
más
progresivos
queden
I think one of the best things that OpenAI has done is this strategy and we get the world to pay attention to the progress, to take AGI seriously, to think about what systems and structures and governance we want in place before we're like under the gun and have to make a rush decision.
I think that's really good. But the fact that people like you and others say, you still feel like there are these leaps, makes me think that maybe we should be doing our releasing even more iteratively. I don't know what that would mean. I don't have an answer ready to go. But like, our goal is not to have shock updates to the world. The opposite.
Yeah, for sure. More iterative would be amazing. I think that's just beautiful for everybody.
But that's what we're trying to do. That's like our state of strategy. And I think we're somehow missing the mark. So maybe we should think about, you know, releasing GPT-5 in a different way or something like that.
Yeah, 4.71, 4.72.
But people...
Vale. Ese último que ha dicho es un poco la pista de lo que os hablaba antes. A lo mejor deberíamos de pensar cómo sacar GPT-5 de una forma diferente. Va lo que voy. ¿Cómo sacar GPT-5 de una forma diferente?
Aquí sería sacarlo menos potente o sacarlo de forma más progresiva. Es decir, añadiendo estos diferentes factores que hacen que el modelo sea más potente.
¿Vale? Una versión de GPT-5 que a lo mejor mejora la inteligencia, luego con tema de agentes, luego con tal, tal, tal. Más progresivo.
¿Qué más cosas interesantes comentan? Vamos a ver.
Sam es un robot. Sam es curioso, sí. Es una persona curiosa.
Vamos aquí.
What a dangerous space. What aspect of the leap... I'm sorry to linger on this, even though you can't quite say details yet, but what aspects of the leap from GPT-4 to GPT-5 are you excited about?
Vale, aquí le pregunta que... Bueno, pues qué salto cree que va a haber entre GPT-4 y GPT-5 que le... que le excite, ¿no? Que le emociona.
I'm excited about being smarter. And I know that sounds like a glib answer, but I think the really special thing happening is that it's not like it gets better in this one area and worse than others. It's getting, like, better across the board. That's, I think, super cool.
Yeah, there's this magical moment. I mean, you meet...
Importante. Y esto ahora lo... O sea, todo un poco el esquema que llevo trayendo en el directo es para justificar frases como esta.
GPT-5 va a ser más inteligente. GPT-5 siendo más inteligente, interactuando con GPT-5 quizás no sea tan emocionante en el modo chat.
Hablar con él en chat. ¿Qué te va a hacer? ¿Un resumen más inteligente? Guau.
¿Te va a escribir más inteligente? Guau.
No. No va por ahí. Lo interesante es que esto, integrado en un robot, integrado en un agente como Devin o como SWE, no me acuerdo cómo se llama, integrado en agentes autónomos que podría ser otra de las cosas que saquen.
Todo esto, eso, es lo que realmente va a ser muy interesante a GPT-5. Por eso no creo que vaya a ser una evolución del modelo del lenguaje, sino que va a ser un modelo de tipo agente, ¿no? De agente autónomo.
¿Alguna cosilla más por aquí? Voy a ir acelerando un poco.
Esto es muy interesante.
Dejame preguntarte sobre GPT-4. Hay tantas preguntas. Primero de todo, también increíble.
En mirar atrás, probablemente serán este momento histórico, pivotal, con 3, 5 y 4, con el chat de GPT-5.
Quizás 5 será el momento pivotal, no sé.
Vale, esta primera frase es, tío, no calientes al personal, no me hagas la del microondas.
O sea, le está preguntando por GPT-4 y dice, GPT-4, según Lex, ha sido como el momento pivotal moment of AI, ¿no?
El momento, el punto de inflexión.
Y aquí creo que, bueno, cuando dicen GPT-4 creo que están metiendo también chat GPT, porque de mi punto de vista fue chat GPT el que generó todo este boom y tal.
Y vas a mí y dices, no, no, a lo mejor GPT-5 va a ser ese momento, ese pivotal moment.
¿Qué es lo que más te gusta de GPT-4?
Ah, yo creo que apesta, yo creo que es una basura, como tío, sé que dice.
Bueno, human also, gotten used to an awesome thing.
No, I think it is an amazing thing, but relative to where we need to get to and where I believe we will get to, you know, at the time of like GPT-3, people were like, oh, this is amazing.
I mean, this is this like marvel of technology and it is, it was, but, you know, now we have GPT-4 and you look at GPT-3 and you're like, that's unimaginably horrible.
I expect that the delta between 5 and 4 will be the same as between 4 and 3.
GPT-4, jaja, lol, ¿vale?
Es un poco la reflexión que quiero hacer y la frase interesante que ha dicho.
Creo que la diferencia entre GPT-3 a GPT-4 y quiero pensar que ahí está incluyendo a ChatGPT como parte de ese salto porque GPT-3 no tenía ChatGPT, GPT-4 sí.
Es decir, todo ese salto de lo que era GPT-3 que era, os invito a probarlo, a ir al Playground y probar lo que era GPT-3.
A veces me da esta nostalgia cuando lo pruebo, que era un completador de texto, un generador de lenguaje, un modelo pre-entrenado para generar lenguaje.
Esa diferencia es lo que vamos a vivir de GPT-4 o GPT-5.
Si me estás diciendo eso, Sam, la curva que hablamos al principio, te laco la curva.
Te laco la curva porque esto tiene, o sea, el compuesto de todo lo que estamos hablando hoy, los nuevos chips, el modelo que tiene estas mejoras, la parte de asistencia a la gente es tal, todo esto junto, ojo.
Y creo que es nuestro trabajo para vivir a few años en el futuro y es notes que las tools que tenemos ahora son las que Clerk
los límites de esas mejores cosas que te permiten decir que no es malo y por eso te da inspiración y esperanza para el futuro.
Una cosa que he usado por lo más recientemente es un partner de la mente.
Aquí ya siguen hablando de qué es lo que le gusta y tal.
Pero la frase es importante, ¿no?
Lo de la diferencia entre GPT-5 y GPT-4 va a ser similar a la de GPT-3 y GPT-4.
Vamos a ver qué más hay por aquí.
Aquí se disculpa un poco diciendo que no quiere simplificar lo que ha logrado GPT-4.
Ahí está.
¿Vale?
Esa es otra de las claves.
Lo que hemos venido explicando.
Lo que hemos venido explicando.
El momento clave que hizo que la gente...
Pasará de no entender...
La gente no me refiero a mí y a vosotros.
Esa es otra de las claves.
Lo que hemos venido explicando.
El momento clave que hizo que la gente pasara de no entender...
La gente no me refiero a mí y a vosotros, que somos todos unos fricasos.
Y llevamos dos horas y media hablando de IA.
No.
No.
No.
No nosotros, sino la gente.
Los que están por la calle paseando.
Esa gente conoció chat GPT-4.
Esa gente conoció chat GPT-4.
Esa gente conoció chat GPT-4.
Esa es otra de las claves.
Esa es otra de las claves.
Lo que hemos venido explicando.
El momento clave que hizo que la gente pasara de no entender...
La gente no me refiero a mí y a vosotros, que somos todos unos fricasos y llevamos dos
horas y media hablando de IA.
No, no nosotros, sino la gente.
Los que están por la calle paseando.
Esa gente conoció chat GPT porque de repente...
O sea, empezó a creer que la IA tenía potencial cuando probó chat GPT.
Ese fue el gran éxito de OpenAI.
Y ahí sí les concedo el Open.
¿Vale?
Abrieron al público una inteligencia artificial que en aquel momento era inaccesible para nadie.
Y la hicieron disponible para todo el mundo y convirtió a mucha gente en creyente de las expectativas de la IA.
Eso es lo que chat GPT consiguió.
Y me gusta que lo diferencie entre GPT-3 y chat GPT, como chat GPT no es tanto el potencial de la IA,
no es el cerebro, que eso lo sabemos todos, sino es la interfaz,
incluyendo pues el fine tuning del modelo, etc, etc, etc.
¿Vale?
Pero hay dos diferencias.
Y que haga esas diferencias me hace pensar que en OpenAI entiende muy bien la diferencia entre GPT-5,
entrenar un modelo más inteligente, y las capas de producto como el tema de agentes
o el tema de asistentes de voz que le puedan añadir al sistema.

Eso es muy importante.
No hay nada de la productividad que construimos alrededor de la IA.
¿Sabes?
En algún sentido, tuvimos que hacer dos cosas.
Tuvimos que inventar la tecnología sobre la IA, y luego tuvimos que descubrir
cómo hacerlo en un producto que la gente amaría.
Lo que no es solo sobre el trabajo actual del producto, pero este otro paso de cómo alineas y hacerlo útil.
Y cómo hacer...
Aquí sigue hablando del tema de esto, de cómo diferencian el modelo de lo que sería el producto.
A ver...
A ver...
Y por último, a ver otro punto más, si no sé si es el que estoy pensando...
Igualmente os recomiendo que veáis la charla entera porque merece la pena.
Está bastante bueno.
Ah, esto es súper interesante.
Ah, esto es súper interesante.
Ah, esto es súper interesante.
¿Hay espacio ahí en este tipo de abordaje para crear un modelo de la IA?
Sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí.
Igualmente os recomiendo que veáis la charla entera porque merece la pena.
Está bastante bueno.
Ah, esto es súper interesante.
Esto que acabas de explicar es súper interesante. No lo habíamos comentado aquí. Creo que va a ser otra de las piezas fundamentales que van a entrar.
Y qué tienen que ver con este libro de Daniel Kahneman, que justo creo sí que ha fallecido esta semana. ¿Vale? Daniel Kahneman. Importante...
Pues no sé si era psicólogo o... O sea, tiene el premio Nobel de Economía, pero no sé si era psicólogo como tal. Pero bueno, el libro Pensar rápido, pensar despacio habla sobre cómo en la psicología, en nuestra forma de pensar, hay como dos sistemas, ¿no?
Que esto se habla mucho en inteligencia artificial. Sistema 1, sistema 2. Sistema 1, más impulsivo, respuestas rápidas, intuitivas, ¡pum!
Cosas rápidas que puedes resolver, inmediatamente. 3x4, 12, ¡pum! Hecho. 628x725, ¡uf! Papel boli, te sientas, te pones a pensar, se activa la parte más de resolución de tareas complejas, más lentas, más tal.
Entonces, mucha gente ve en los sistemas que tenemos actualmente, los LLMs, como sistemas de tipo 1. Impulsivos, rápidos. Cada token, fijaos, esto es una cosa que me fascina.
ChatGPT, cada token que genera, lo genera a un tiempo de inferencia, o sea, a un pase de inferencia del transformer. Cada token, sin importar si le estás preguntando
¿De qué color es el caballo blanco de Santiago? Que la respuesta es obvia.
Da igual que le estés preguntando 1 más 1, o que le estés preguntando, hazme un resumen de, o explícame como si fuera un niño de 5 años, el siguiente paper.
Dedica la misma cantidad de computación para predecir el siguiente token. Piensa a la misma velocidad. ¿Vale? Y esto no tiene mucho sentido, porque hay preguntas que queremos que responda más rápido,
y ahí hay un montón de técnicas de optimización de los modelos, speculative decoding, que se aprovechan de estas cosas para hacer el modelo más rápido, y hay veces que queremos que el modelo sea más lento.
Si yo te estoy pidiendo, oye, ¿cuál es la estructura tridimensional de esta proteína? No quiero que me digas una estructura al azar por un pase de inferencia, yo quiero que iteres y pienses
de la misma forma que sistemas como AlphaGo refinan y van procesando, dedican más computación para llegar a una respuesta correcta. ¿Vale? Eso, pensar rápido, pensar lento, y quiero hacer un vídeo sobre este tema
para que tengáis como todos los conceptos bien claros, eso va a ser muy importante en este GPT-5, o en el sistema que vemos a futuro,
y está muy relacionado con los algoritmos de búsqueda, y está muy relacionado con lo que yo explicaba, que en septiembre,
que vamos a ver, que es esta hibridación entre modelos tipo 1, modelos que aglomeren un montón de conocimiento,
y modelos tipo 2, que sean estas técnicas de búsqueda, que aprovechándose de esta información pueda orientarse
para buscar soluciones más eficientes, y que requiera de más pases de computación, y que para una pregunta difícil,
a lo mejor GPT-5 te diga, espera un poco, y ahora te respondo. ¿Vale?
Esto es súper interesante, también. Esto es súper interesante.
Y él comenta que eso es una cosa que efectivamente, arquitectónicamente, podría estar colocado como una capa más
de los sistemas que tenemos actualmente, es decir, que tienes el LLM y seguramente puedas meter este Q estrella,
famoso que se ha hablado, pues lo puedes poner encima de esto.
Arquitecturalmente, como lo que estamos viendo ahora con LLMs, ¿es que hay un LLM en topo con LLMs?
I can imagine many ways to implement that. I think that's less important than the question you were getting at,
which is, do we need a way to do a slower kind of thinking where the answer doesn't have to get, like, you know,
it's like, I guess, like, spiritually, you could say that you want an AI to be able to think harder about a harder problem
and answer more quickly about an easier problem. And I think that will be important.
Is that like a human thought that we just have and you should be able to think hard?
Eso mola porque Sam representa mucho esto.
Es de las pocas gentes que en una entrevista se toma mucho tiempo para pensar respuestas.
A veces tú le preguntas algo y se quedan.
Y mola porque me imagino como el modelo, ¿no?
Ahí en su cabeza generando como la respuesta buscando el token adecuado.
Puede que sea posible que tenga que dedicar más computación a problemas más complejos.
It seems to me that a system knowing, if you ask a system like that,
prove Fermat's last theorem versus what's today's date?
Unless it already knew and had memorized the answer to the proof,
assuming it's got to go figure that out.
Seems like that will take more compute.
Can it look like basically Ellen talking to itself, that kind of thing?
Maybe. I mean, there's a lot of things that you could imagine working.
What, like, what the right or the best way to do that will be?
We don't know.
Superinteresante.
Todo esto es superinteresante.
Hay un montón de pistas de cosas que estarán probando internamente
y que en un futuro, si funcionan, llegarán.
Y si no, pues no, llegarán.
Pero con todo esto que hemos ido viendo,
quiero que me respondáis vosotros
si sentís que estamos en un punto donde la curva exponencial se está agotando.
O si verdaderamente, o sea, parece que, a ver, este canal ya sabéis que hay un poco siempre de esto, ¿no?
Pero vendemos hype, ¿no?
Queremos, estamos hypeados.
Pero creo que estamos basándonos en hechos reales.
Mejoras en computación.
Mejoras en nuevas formas de incorporar estos sistemas en agentes, en robots,
que puedan interactuar con nuevas modalidades de datos.
Nuevas mejoras en arquitectura.
Modelos más potentes.
Nuevas estrategias para hacer estos modelos que razonen mejor.
Abaratamiento.
Si no hubiera ningún avance a día de hoy,
simplemente por la tendencia de haber ligado la computación al desarrollo de la inteligencia,
esta fórmula de que la inteligencia ahora va en factor de la cantidad de computación que tengamos,
como con el paso de los años la computación se va a hacer más barata,
esto ya solamente por ser así una ley natural donde la inteligencia se va a ir abaratando con el paso de los meses,
ya eso nos da muchas oportunidades de mejorar estos sistemas.
Entonces, ¿dónde estamos?
¿Dónde estamos, amigos?
¿Dónde estamos?
Creo que el directo está, creo que el directo está bastante completito.
Solo quería enseñaros estos clips.
Ya os digo, os recomiendo ver el, el, la entrevista completa.
Pero, para acabar, tengo un one more thing.
¿Vale?
Una última cosa que quería comentar.
Porque esto ya entra en, en los apartados de cosas que me han quitado el sueño en la última semana.
¿Vale?
Si aún así, todo lo que hemos ido hablando hasta ahora,
todo lo que hemos ido hablando hasta ahora,
os parecía que nos sitúa en un comienzo o que hay mucho margen de mejora futuro,
estas últimas, estas dos últimas semanas, bueno, este último mes, porque este paper ya es de febrero,
pero quizás la, la, la señal positiva de que esto que presentan aquí es replicable ha sido esta semana.
Han salido cosas que en esta lista de factores que estamos viendo de computación,
mejoras algorítmicas, modelos más inteligentes, entrenados con más datos, ta, ta, ta, ta, ta.
Este es un factor que es fundamental.
Porque este factor toca en lo que sería la base de lo que es el Deep Learning actual.
Hay mejoras, tanto en los modelos, y con esto cerramos el círculo de lo que hemos visto al principio.
Hay mejoras en los modelos, y luego hay una cosa que no está confirmada,
pero que también lo he visto y que tengo el ojo puesto porque me parece súper interesante.
Vamos a explicar esto primero.
También de esto va a haber vídeo seguramente en dos semanas porque me parece un tema súper interesante.
Pero quiero que lo entendáis porque ya que hemos hablado de chips de procesadores al principio del directo,
me parece bastante relevante.
Recordáis que al principio hemos hablado de modelos que están entrenados con 32 bits
y que cuando pasamos de 32 bits a 16 bits, estos números decimales pierden un poco de precisión,
pero hace que el modelo sea más eficiente de entrenar, que ocupe menos en memoria,
que gaste menos energéticamente.
Es decir, nota como mejoras bastante sustanciales del modelo, 16 bits,
que luego se ha bajado a 8 bits,
que Blackwell te lo baja a 4 bits, FP4.
Pues este paper de Microsoft nos presenta
la era de los modelos del lenguaje de un bit.
Modelos del lenguaje de un bit.
En concreto, de 1,58 bits, ¿vale?
Que es como lo han bautizado.
Esto, amigos y amigas, es una locura.
No Google, ¿eh, Microsoft?
Estamos hablando de que las redes neuronales actualmente, como digo,
los parámetros, ¿no?
La matriz de parámetros que tenemos son números decimales
y como tal los representamos con 16 bits en flat point o la representación que queramos, ¿no?
Esta gente lo que está proponiendo es entrenar el modelo con tres valores.
Menos 1, 0 y 1.
Menos 1, 0 y 1.
Esto, si os dais cuenta, para codificar tres valores en código binario,
haría falta logaritmo en base 2 de 3.
Eso, de ahí sale el valor 1,58.
De forma efectiva, entiendo que son dos bits, ¿no?
Lo que necesitaría.
Pero básicamente te dice, mira,
fuck the decimal numbers.
Que le den.
Vamos a entrenarlo solo con esto.
Esto, claro, te obliga a tener que hacer un montón de...
El entrenamiento se hace más complejo y tal,
pero este paper te muestra la receta de cómo se puede hacer.
Y más interesante de que este paper te muestre la receta
es que ya hay gente que ha conseguido replicar los resultados de este paper.
Entonces, si tú consigues reducir
y consigues entrenar modelos
con tres valores solo,
que los parámetros en tres valores,
o sea, me parece una locura.
Me parece una locura.
Podrías construírtelo hasta en físico.
Podrías hacerte un...
Con canicas y carriles que se difurquen en tres recorridos.
Te podrías hacer un LLM
que ocupe el tamaño del planeta, me imagino,
pero podrías hacerlo.
¿Vale?
Os paso el link.
Con esto han entrenado,
creo que se llama así, Bitnet.
¿Vale? Esta red de aquí, Bitnet.
Y esto, claro, tiene...
Vamos primero a las mejoras.
O sea, vamos a ver qué mejora
y luego hablamos de por qué mejora.
¿Vale?
Ya con esto vamos a cerrar.
El modelo...
Comparan aquí modelos...
Este es de diferentes tamaños.
¿Vale?
De 1,3 billones de parámetros...
Perdón.
1,3 billones en inglés.
1.000 millones de parámetros.
3.000 millones de parámetros.
7.000 millones de parámetros.
13.000 millones de parámetros.
70.000 millones de parámetros.
Esto sería el modelo llama tradicional.
Y esto sería Bitnet.
Entrenado con esta técnica.
Con esta técnica de los parámetros 1 y 0.
Lo que se ve es que en todas las métricas de latencia,
cuánto ocupa en memoria,
cantidad de consumo energético,
en todas ellas se dan saltos brutales.
Porque ya las instrucciones necesarias
para ejecutar a estos modelos
ya no te obligan a tener
un montón de información
16, 32 bits.
O sea, ya no te obligan a mover
tanta información por el procesador,
sino que directamente
puedes aprovecharte
de simplemente esto, ¿no?
2 bits máximo.
Entonces, a nivel de memoria,
de repente un modelo como llama
de 70 billones
puedes reducir su tamaño en memoria
en 7 veces.
En 7 veces.
Señor Molina, dice,
están desperdiciando el menos 2,
el menos 2.
Ahora hablamos de eso
porque eso es lo interesante también.
Un salto de mejora en memoria
de 7 veces.
Los tiempos de latencia,
4 veces más rápido.
Es decir, el modelo que te sale,
un modelo de 70 gigas,
entiendo que es 4 veces más rápido,
7 veces ocupa menos en memoria,
a lo mejor un llama
no cabía en tu GPU.
Ahora podría caber
con esta versión.
¿Vale?
La cantidad de energía,
porque pensad que el coste energético
va ligado a
cómo estén diseñadas
las operaciones dentro del procesador,
de cuántos transistores se activen
y, por tanto,
entre más bits utilizas,
más complejos es el circuito,
más energía gasta,
bla, bla, bla, bla.
¿Vale?
40 por 40 de mejora de rendimiento.
Y una cosa muy interesante,
si os dais cuenta,
es que las líneas divergen.
Es decir, entre mayor es el modelo,
si en vez de ser de 13,
de 70,
mayor es la ganancia,
pasamos de 5 a 7.
Con lo cual,
si en vez de 70 fuera un,
vamos a pensar,
GPT-4,
hecho con esta técnica,
1,8 billones,
con B,
o sea,
trillions,
a lo mejor eso te da una ganancia
frente al modelo actual de,
no sé,
lo que sea,
¿no?
de por 20.
Pues la leche.
La leche.
Mejoras energéticas.
Se critica mucho el Deep Learning,
que su enorme coste energético,
y es normal,
porque es una tecnología
que todavía está en desarrollo.
Esto es como decir que los motores
a principios del siglo XX contaminan.
Ya.
Pero es que esto se inventó
hace tres telediarios.
Ahora viene un periodo
de eficiencia absoluta.
Por eso digo,
si de repente se corta el desarrollo de la IA,
y nos quedamos con lo que tenemos ahora,
solo por la optimización
que se va a ir consiguiendo
de estos modelos,
hay un montón de cosas
que vamos a ganar ahí.
Porque si esto lo consigues,
que la latencia baje,
que el impacto en memoria baje,
que el coste energético baje,
esto lo puedes meter en una máquina,
en un robot autónomo,
y va a gastar menos,
va a ocupar menos,
puedes hacer H.A.I.
¿Vale?
Es brutal.
Es brutal.
¿Vale?
Entonces,
lo interesante de este paper
es que además
se ha podido replicar.
Ya hay otro equipo
que han cogido
la receta que ponen aquí
y efectivamente sale un modelo
que mantiene el rendimiento,
o sea,
que mantiene la capacidad
del modelo original
y aún así,
pues tiene estas mejoras
que se presentan.
¿Por qué es interesante esto?
No solo viene la mejora,
y esto es súper chulo,
no solo viene de
que estemos utilizando menos bits
en el chip.
¿Vale?
Y por eso,
¿por qué?
Decían por aquí,
¿no?
¿Por qué no coges?
¿Por qué cogemos
menos 1 y 1?
¿Por qué cogemos
menos 1 y 1
y no cogemos
menos 2 y 2?
¿O por qué no cogemos
menos 1, 0, 1 y 2
y le damos mayor rango
a estos parámetros
para que puedan hacer
un poco más de,
para tener más flexibilidad?
Lo interesante
de esto,
de usar menos 1 y 1,
es que si lo pensamos
en Deep Learning,
¿qué hacen los parámetros?
Los parámetros
hacen dos cosas.
Cuando entran tus datos,
tú multiplicas
por tus parámetros
y sumas.
Multiplicas y sumas,
multiplicas y sumas,
multiplicas y sumas.
Con lo cual,
en un chip,
en un procesador
orientado para
inteligencia artificial,
vas a tener que tener
circuitos
para hacer estas multiplicaciones
y para hacer estas sumas.
Y la suma
es menos costosa,
mucho menos costosa
que hacer una multiplicación.
¿Ok?
Entonces,
si tú
dejas tus parámetros
en el menos 1
y en el 1,
tus datos,
y esto es lo que mola,
tus datos
no tienes que multiplicar.
Porque si tú me pasas
un vector
de datos
y tienes que multiplicar
por menos 1,
eso es restar.
Y si multiplica por 1,
es sumar.
Y si multiplica por 0,
no está.
No tengo que tener
un multiplicador
en mi circuito del chip,
sino que directamente
puedo sumar.
Puedo hacer operaciones
de suma
con signos.
Y eso
te ahorra
un montón
de energía.
Por eso
entiendo que la mayoría
de saltos que hay
son como
por 4,
por 7,
y de repente
este es por 40.
¿Vale?
Y te lo ponen aquí
un poco la diferencia.
Por operaciones,
la operación
de sumar
en int
8
es esto
y en llama
con FP16
sumar
es esto
y multiplicar
es esto.
Entonces,
de repente,
la diferencia
es notable.
¿Por qué aquí
es 70
y luego aquí
es 40?
Pues porque
no todas
las operaciones
de la red
se van a basar
en sumas
y multiplicaciones,
sino que también
hay otro tipo
de operaciones.
Entonces,
bueno,
esas no te permiten
que sea
proporcional,
¿no?
Pero,
y luego creo que
los embeddings
si los tienes que mantener
con representación
FP16,
lo que sea.
Pero este paper,
este paper a mí,
uff,
me pone los pelos
del brazo
de punta.
Porque la era
de los LLMs
de un bit,
esto podría ser
que lo que
a día de hoy
este enorme
centro de datos
que nos ha mostrado
Jensen
de millones
y millones
de Blackwells
ahí metidas
con exaflops
de tal,
con un coste energético
en megavatios,
a lo mejor con esto
se reduce notablemente
y esto abre un camino
muy interesante.
Y el paper,
y por eso decía
que íbamos a cerrar
el círculo al final,
el paper este
acaba con una frase
que me parece muy interesante
que es esto.
Dice,
trabajos,
bueno,
new hardware
for one bit LLMs.
Hemos visto como
Blackwell
es un chip
que por ofrecerte FP4
te permite
pues ganancias
y este paper
te está diciendo
hey,
es que podemos hacer
hasta chips
orientados para IA
para este tipo
de modelos
de un bit,
¿vale?
Con todo el diseño
pensado para este tipo
de modelos.
Trabajos recientes
como GROC
han demostrado
resultados prometedores
y ganancias
grandes potenciales
ganancias
de diseñar
hardware específicos
LPUs
para modelos
del lenguaje.
Ir un paso
más allá
ir un paso
más allá
pues sería
diseñar
nuevo hardware
y sistemas
pensados
específicamente
para LLMs
de un bit.
Entonces,
con todo esto
chicos y chicas
la pregunta
de este directo
que es
¿en dónde
nos encontramos?
¿en qué punto
estamos?
¿cómo la respondemos?
Y luego
esta foto
aquí
Jensen
hola
¿qué tal?
Y luego
lo último
lo último
lo último
dejadme que
os lo busco
rápido
y ya con esto
termino de cerrar
que este
sí que no hay
paper
ni replicación
ni nada
así que lo vamos
a coger
con muchas
pinzas
todavía
porque además
siempre existe
el meme
de cada vez
que aparece
un optimizador
que mejora
drásticamente
a Adam
hago una flexión
y por eso estoy tan fuerte
ese meme
se hace un poco
realidad con esto
pero esto también
me quita un poco
el sueño
este es un investigador
de meta
que también
ha conseguido
esta semana
en pruebas
que está haciendo
pero por eso digo
no hay paper todavía
y no hay replicación
con lo cual no sabemos
si realmente funciona
pero en las pruebas
que él está haciendo
toca otro de los puntos
fundamentales
dentro de la IA
y es
el entrenamiento
cuando entrenamos
modelos
hay
un proceso
de optimización
que depende
de optimizadores
hay
campo
teórico
de sobra
para diferentes
optimizadores
para diseñar
diferentes optimizadores
que te hagan
diferentes mejoras
bla bla bla
porque este proceso
de optimización
pues imagínate
tú lanzas GPT4
para entrenarse
en todos estos ordenadores
va a estar meses
entrenándose
tú quieres que eso vaya
con la mejor optimización
posible
que exprima
al máximo
esa computación
para sacar
el mayor rendimiento
posible
para eso
tienes que hacer
mucho ajuste
de hiperparámetros
cualquiera que haya
entrenado redes neuronales
lo sabe
y aquí tenemos
muchos optimizadores
RMS PROP
tenemos ADAM
tenemos un montón
de técnicas
que usan
diferentes estrategias
para intentar
hacer esta optimización
pues que converja
de la mejor forma posible
con el mejor
desarrollo posible
entre más steps
se entrena
bueno este investigador
este investigador
nos dice
que está cocinando
algo bastante especial
lleva
tiene papers anteriores
trabajando en tema
de optimizadores
y lo que nos muestra
es el siguiente
la siguiente gráfica
y es
esto es un optimizador
normal
a ver
y entiendo que esto es
la evolución del
aquí vale
es que
como no había leyenda
vale
este es el baseline
con el que está comparando
y esto es la técnica
con la que están entrenando
vale
por ahora
con dataset
muy sencillitos
creo que ha entrenado
algún otro
modelo
por aquí
pero de nuevo
esto
si se cumple
no sé si ha traído
alguna actualización
o algo
esta semana
vale
si se cumple
podría ser
otro bombazo
porque realmente
es
un entrenamiento
súper súper smooth
y podría abaratar
muchísimo
el entrenamiento
de ella
y podría
abaratar muchísimo
pues
todo esto
pensad que un entrenamiento
de GPT-4
que te cuesta
miles de millones
de euros
pues a lo mejor
esto
que de repente
converjas
bueno no converjas
pero que llegues
en 50 steps
por ejemplo
a un 70 y pico
por ciento
cuanto
los otros optimizadores
ni siquiera llegan
pues es bastante
bastante impresionante
con esto chicos
chicas
que os parece
que os parece
en que parte de la curva
estamos
que creéis
espero que os haya gustado
el directo
ha sido
creo que de los directos
más largos
pero de verdad
tenía muchas cosas
que contar
quería contaros mucho
no he hablado casi nada
de mi viaje a San Francisco
estuve en Google
me gustó
estuvo guay
estuve en Meta
en los Reality Labs
que son como
la parte de VR
estuvo guay también
aunque no son las oficinas principales
estuve en Stanford
muy bonito
y estuve en NVIDIA
muy guay
de todas las que fui a ver
las oficinas de NVIDIA
son las más chulas
las más modernas
más bonitas
ese es mi tal
y me subí a un Waymo
mi primer coche autónomo
y tenéis el vídeo
que lo subí el jueves pasado
podéis echarle un vistazo
porque es un blog
con Sandra
probando el Waymo
por primera vez
y fue de las experiencias
más brutales
que pude vivir allí
y es bastante
bastante chulo
nada
ahora cogeis la transcripción
de este directo
la pasáis por Cloud3
le pedís un resumen
los puntos clave
espero que lo hayáis disfrutado
creo que habéis aprendido
un montón de cosas
ha sido esto
una masterclass
de todo lo que tengo
aquí en la cabeza
y que quería vomitar
lo tenéis aquí en un vídeo
y cuando hay actualizaciones
cuando OpenAI
o alguna de estas empresas
decidan sacar
no actualizaciones
de lo que tienen ya
sino
lo que es
la próxima generación
de modelos
pues chicos
chicas
tendréis todas las novedades
aquí en .csv
muchas gracias
y hasta la próxima
muy bien
.
.
.
.
.
.
.
.
.
.
.
.
.