logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Imagínate una inteligencia artificial con la capacidad de contar con una simulación interna de cómo funciona el mundo real.
Imagínate una IA que dentro de su cabeza artificial puede usar este simulador para planificar sus acciones y predecir sus consecuencias.
Todo esto antes de actuar.
Imagínate que esta simulación aprendida por la IA fuera tan rica que le permitiera incluso el poder aprender en su propio simulador.
Para así poder hacerse más capaz y potente.
Imagínate por un momento una inteligencia artificial capaz de imaginar.
Hoy vamos a hablar de uno de los conceptos más fascinantes que se está investigando en el mundo del Deep Learning.
Y es el concepto de modelo del mundo o world model.
Un concepto que de funcionar pues podría ser la clave hacia futuras inteligencias más avanzadas y generales.
Con mayor capacidad de aprender eficientemente y de planificar sus acciones.
Una idea que ha vuelto a cobrar protagonismo tal y como pudiste ver en mi análisis sobre Sora tras la salida del modelo presentado por OpenAI.
Que más allá de plantearse como un generador de vídeos se presentaba como un simulador de mundos.
Reavivando así el debate y el interés por este concepto.
Preparaos porque hoy viene un tema fascinante y que llevaba mucho tiempo queriendo tratar.
Hoy respondemos que es un world model.
Pero antes de responder a esta pregunta primero quiero hablaros del patrocinador de este vídeo.
Que una vez más vuelve a ser Hostinger.
Y es que ya lo sabéis, si os ronda por la cabeza el crear un porfolio personal, una página web para vuestro proyecto.
Hostinger es una muy buena opción a tener en cuenta.
Y es que con todas las herramientas y con todos los servicios que Hostinger pone a tu disposición.
Va a ser súper sencillo tener tu página web lista en muy pocos minutos.
Con muy pocos clics podrás registrar con ellos tu propio dominio y configurar paso a paso como quieres que se vea tu página web final.
Contarás con un amplio catálogo de diseños donde podrás elegir para encontrar aquel que mejor represente a tu marca.
Y si no, pues puedes confiar en la inteligencia artificial.
Puesto que entre las muchas herramientas de IA con las que cuentan, pues tienes un generador de páginas webs a partir de un prompt de texto.
También te podrás apoyar en la inteligencia artificial para crear contenido optimizado para SEO.
E incluso podrás configurar tú el propio diseño de tu página web y dejar que una IA pues prediga cuál va a ser la atención que prestará el usuario al diseño que has creado.
Todas estas funcionalidades y los servicios de Hostinger lo tendréis a muy buen precio con el código de descuento de este canal.
Que os voy a dejar abajo en la caja de descripción con toda la información de Hostinger.
Echadle un ojo y aprovechad la oportunidad para crear vuestra página web.
Y ahora sí, vamos a responder a la gran pregunta.
Y para responder a esta pregunta realmente tenemos que darnos cuenta de una cosa fundamental.
Y es que nosotros somos máquinas de procesar información.
Desde que nacemos e incluso antes a través de nuestros sentidos vamos capturando inputs.
Visuales, sonoros, de todo tipo.
Un montón de información que además va evolucionando en el tiempo y que tenemos que aprender a procesar para adaptarnos a ella.
Internamente nosotros con esa información lo que hacemos es analizarla, procesarla, abstraerla.
E intentar acomodarla para conformar aquello que llamamos realidad.
Porque en realidad tu realidad, tu mundo, no es el mundo real.
Sino la interpretación que tú haces del mundo real.
Vaya trabalenguas.
Es decir, tú internamente en tu cabeza no estás ejecutando una simulación precisa y rigurosa y completa de todo lo que está ocurriendo en el mundo real.
Imagino que ahora mismo en tu cabeza pues tú no estarás procesando lo que está ocurriendo en las cocinas de un restaurante japonés en Okinawa.
No.
Tú vas percibiendo tu realidad.
Y con esa información que percibes tú vas dándole forma y dándole sentido.
A lo mejor tú estás en tu habitación viendo este vídeo a través de la pantalla y esta es tu realidad.
Tú y yo.
Y si de repente escuchas el sonido de una sirena que entra por la ventana, pues esa nueva información la podrás integrar vagamente como un coche de policía o una ambulancia que se mueve en la calle.
Es a esta imagen de la realidad, a esta idea del mundo que tú formas en tu cabeza, a lo que vamos a llamar modelo del mundo.
Pero no estamos aquí para hablar de cómo tú y cómo yo percibimos el mundo, no.
No, esto es un canal de inteligencia artificial.
Y como tal tenemos que hacernos la pregunta importante.
¿Podemos trasladar esta idea de modelo del mundo a nuestras máquinas?
La respuesta es que sí.
Y uno de los primeros trabajos que habló de ello fue este de aquí.
Este trabajo es de 2018 y lo que plantean es lo que hemos venido hablando hasta ahora.
Que los humanos desarrollamos un modelo mental del mundo basado en aquello que somos capaces de percibir con nuestros limitados sentidos.
Y que las decisiones y acciones que tomamos están basados en este modelo interno.
Y su propuesta ahora es intentar replicar esto mismo dentro de un agente artificial.
De verdad, este trabajo es tan fascinante que a pesar de ser de 2018, todavía a día de hoy merece la pena explicarlo.
Así que vamos a ello.
Imagínate que este eres tú.
Un flamante vehículo rojo cuya realidad es esta.
Un circuito de carreras que idealmente queremos que aprendas a conducir.
Desde la teoría del deep learning esta tarea la podemos resolver de formas muy diversas.
Pero hoy quiero que entendáis cómo lo podemos resolver introduciendo este concepto de modelo del mundo.
Entonces, si esta es nuestra realidad, lo primero que necesitamos es que el agente inteligente, el coche, pueda percibir el mundo que le rodea.
Y en este caso la percepción será únicamente visual.
Le daremos como input a nuestro agente los píxeles de los fotogramas del simulador del videojuego.
¿Y cómo analizaremos estas imágenes?
Pues aquí podemos utilizar cualquier red neuronal dedicada a ello.
Redes convolucionales, visual transformers, lo que queráis.
Pero la idea es que esta red de aquí aprenda a tomar imágenes del videojuego y a entenderlas.
A reconocer sus patrones para así abstraer y comprimir toda esta información en forma de vector numérico.
Lo típico que hacemos siempre en el mundillo del deep learning.
Pero falta otra cosa.
Si os dais cuenta, aquí cada imagen ocurre en un instante congelado en el tiempo.
Y si queremos que el coche aprenda también a procesar cómo evolucionan las imágenes en la dimensión temporal,
pues necesitaremos también analizarlo con otra red que tome cada vector visual,
cada fotograma analizado y lo procese en distintos momentos del tiempo.
De nuevo, para esto aquí pues podemos utilizar cualquier arquitectura que trabaje bien analizando secuencias de datos.
Redes tipo transformers, redes neuronales recurrentes, lo que sea.
Y claro, ¿cuál va a ser el objetivo de este módulo?
Pues fijaos, como este módulo será capaz de entender cómo la información va evolucionando en el tiempo,
realmente lo que nos va a permitir es que actúe como una especie de memoria de lo que ha ido ocurriendo en el pasado.
Es decir, la información que extraigamos de él servirá como una memoria temporal que nos ayudará a entender y a resolver el problema.
Pero importante, aparte de actuar como una memoria, el objetivo con el que vamos a supervisar a este módulo será otro.
Y es que su tarea será, a partir de la información pasada, la información de su memoria,
ahora va a tener que intentar predecir cuál será el próximo estado futuro del videojuego.
Es decir, su objetivo realmente va a ser intentar aprender a predecir cuál será el próximo vector de visión
que se generará en el siguiente instante de tiempo.
¿Lo veis?
Si lo pensáis, esto es interesante porque esto sería algo así como tener a un conductor al volante
que puede ver a través de sus ojos.
Ver.
Y también tendrá memoria para recordar los instantes anteriores que ha vivido.
Visión y memoria.
Y donde ahora, con esta información, le vamos a pedir que intente hacerse una imagen de qué va a pasar en los próximos segundos.
Que pueda imaginarse qué va a ocurrir después.
Por lo tanto, ahora tenemos dos outputs.
Dos vectores.
Uno que aporta la información temporal procesada hasta ese momento, la memoria.
Y la otra salida que sería la predicción del vector de visión futuro.
Lo que hemos imaginado.
¿Sí?
Pues todavía aquí nos falta una cosa muy importante.
Y es que para poder imaginarnos qué es lo que va a pasar a futuro, tenemos que entender qué es lo que nosotros queremos hacer.
¿Qué acción voy a ejecutar?
De hecho, si os dais cuenta, este esquema de querer predecir cómo van a evolucionar las imágenes en el tiempo, os debería de sonar a algo.
Ya lo hemos mencionado al principio.
¿No recuerda esto un poco a Sora?
Al final, lo que estamos haciendo es procesar imágenes en el tiempo para intentar predecir cuál será la siguiente imagen.
Algo similar a lo que sería un predictor de fotogramas si estuviéramos generando un vídeo.
Y ya lo visteis en el análisis completo a Sora.
Lo que ha creado OpenAI es una tecnología impresionante.
Un modelo capaz de, sí, de analizar la realidad a través de ver miles y miles de vídeos aprendiendo óptica, física, dinámicas entre elementos y de entender muy bien cómo funciona el mundo.
En palabras de OpenAI, un simulador capaz de simular la realidad.
Pero, recordaréis que en aquel vídeo mencionamos una cosa muy importante que hoy va a ser fundamental.
Y es que Sora no podía ser visto como un simulador del mundo ya que a pesar de ser gráficamente espectacular, le faltaba una cosa muy importante.
Y es que en sus predicciones faltaba interactividad.
El poder reaccionar a acciones.
Para que lo entendáis bien, lo que estamos buscando aquí no es un modelo como Sora.
Que pueda generar un vídeo de un circuito de Fórmula 1 hiperrealista cuando yo le ponga el input de texto.
No.
Lo que queremos es que si estamos en este punto del vídeo y yo le indico que la acción a realizar ahora es girar el volante a la derecha,
entonces sí, que el modelo sea capaz de generar una situación donde el coche gira a la derecha.
Y si hay una curva, pues la tome.
Y si hay una pared, pues frene, en el mejor de los casos.
Es decir, si volvemos al ejemplo de la persona que está conduciendo su coche,
Para poder predecir qué es lo que va a pasar en los próximos instantes de tiempo, falta una cosa muy importante.
Y es, por supuesto, que el conductor sepa qué acción va a ejecutar a continuación.
Hmm, si giro el volante a la derecha, ¿qué podría pasar?
Para predecir el estado futuro, necesitamos saber cuál es la acción a ejecutar.
Así que para hacer esto, vamos a actualizar a nuestro sistema.
Incluyendo también como input de la memoria temporal, cuál es la acción que hemos ejecutado en el simulador.
Y con esto, la memoria temporal, pues ya podrá empezar a modelar las relaciones que existen entre las acciones tomadas, las imágenes generadas, y hacer sus predicciones en consecuencia.
¿Lo veis?
Pues si entendéis esto, preparaos porque empieza lo potente.
Tenemos visión y tenemos memoria.
Y ahora lo que vamos a hacer es aprovechar la información procesada por estos dos módulos para entrenar a un controlador del vehículo, el cerebro de nuestro coche.
Este módulo será una red neuronal sencilla, que tomando como input la visión y la memoria, ahora va a predecir qué acciones tendrá que ejecutar el coche.
Girar a la derecha, girar a la izquierda, frenar, acelerar.
Con esto controlaremos el vehículo.
Y fijaos bien, porque ahora con estas acciones predichas, pues por una parte se las vamos a pasar al módulo de memoria, tal y como hemos comentado, para que así en la siguiente iteración la pueda tener en cuenta.
Pero también con esta acción lo que vamos a hacer es ejecutarla.
Ejecutarla en nuestro simulador, en el entorno real.
Y con esto, si os dais cuenta, acaba de ocurrir una cosa fascinante.
Y es que hemos cerrado el bucle.
Es decir, si ahora nos llega un fotograma del simulador, pues lo podremos procesar visualmente.
Y también en combinación con la memoria y la acción previa, ahora podremos generar inputs para que el controlador prediga qué hacer después.
Que prediga cuál es la siguiente acción a realizar.
Y esta acción la podemos ejecutar de nuevo en el simulador.
Lo cual nos dará otro fotograma que volveremos a analizar de forma repetida y que volverá a predecir otra acción que volveremos a ejecutar y así repetidamente en bucle una y otra vez.
¿Veis qué interesante es esto?
Hemos cerrado el círculo.
Hemos cerrado el bucle y ya tenemos todas las piezas conectadas.
Y del diagrama podemos diferenciar dos partes interesantes a comentar.
Mirad, estos módulos de aquí son los encargados de aprender a modelar el mundo.
De aprender el world model a través de la visión y a través de la memoria.
Y luego con lo que aprenden de su aprendizaje del mundo, ahora podemos pasar esa información visual y de memoria como input a la red neuronal del controlador.
Así que vamos a entrenarlo.
Y este entrenamiento lo vamos a hacer en dos fases.
La primera consistirá en dejar que el coche se conduzca aleatoriamente por el escenario.
Aquí todavía la inteligencia artificial, el controlador, no sabrá conducir porque no lo hemos entrenado.
Pero sí estamos dejando que la inteligencia artificial vaya aprendiendo y poniendo a punto sus módulos de visión y de memoria.
Con todo el flujo de fotogramas que va percibiendo y analizando de su conducción aleatoria.
De esta forma así puede empezar a aprender cuáles son los patrones de los píxeles que recibe como input.
O las dinámicas de qué es lo que pasa cuando gira a la derecha, a la izquierda, frena o acelera.
Aquí está aprendiendo el modelo del mundo.
Y si te das cuenta esto mola porque se asemeja bastante a cómo nosotros también aprendemos a partir de nuestra interacción con el mundo real.
En muchas ocasiones el conocimiento que tú tienes no lo adquieres pasivamente sentado aprendiendo y aprendiendo teorías sobre la realidad.
Sino que lo adquieres activamente a partir de interactuar con el mundo y poner tu conocimiento a prueba.
Tu modelo mental del mundo se enriquece de poder interactuar y vivir experiencias donde tus acciones tienen consecuencias de las que puedes aprender.
Y esto es lo que estamos haciendo con esta primera fase del entrenamiento.
Y luego con estas capacidades aprendidas podemos pasar a la segunda fase.
Donde entrenaremos al controlador con la información que aporta el modelo del mundo para que ahora sí aprenda a conducir.
Generando acciones válidas con el único objetivo de mantenerse dentro de la carretera el mayor tiempo posible.
Un entrenamiento que como hemos dicho se aprovecha enormemente de toda la información aportada por el modelo del mundo.
Y esto funciona.
Y de hecho funciona muy bien.
Este trabajo de 2018 lo que venía a presentar es que cuando hacemos uso del modelo del mundo la inteligencia artificial es capaz de aprender a hacer su tarea con mayor eficacia.
De hecho fijaos y esto mola bastante.
Si queremos comprobar hasta qué punto esta información que aporta el modelo del mundo es útil para el controlador.
Una cosa que podemos hacer es cortar alguno de estos flujos de información que conectan con el controlador.
¿Qué queremos quitar?
¿La visión?
¿La memoria?
Venga vamos a desconectar la memoria.
Si hacemos esto lo que sucede es que, oh sorpresa, el rendimiento del coche decae.
Ya que si el controlador solo puede conducirse basándose en la visión.
Pues pasa a convertirse en un conductor que improvisa con lo que ve.
Y que a cada segundo lo olvida.
Moviéndose de derecha a izquierda como un conductor que no entiende por qué de repente está conduciendo en la carretera.
Y siendo incapaz de planificar las trazadas en las curvas más complejas.
Y esto es súper interesante porque efectivamente demostraría que el controlador se está aprovechando para su aprendizaje de la información que aporta el modelo del mundo.
Pero, ¿y si te dijera que esto no es lo más espectacular de trabajar con un world model?
Atentos.
Hasta ahora lo que tenemos es la situación de haber ido a la autoscuela.
Y de haber aprendido a partir de hacer muchas sesiones prácticas a cómo entender la información visual de los peligros que pueden haber en carretera.
De las dinámicas de cómo se mueve el coche cuando movemos el volante y todas estas cosas.
Pero a la noche antes del examen de conducir tú estás nervioso en tu cama y te pones a visualizar en tu cabeza pues cómo podría ser el examen del día siguiente.
Te pones a imaginar y a simular en tu cabeza pues qué harías con el coche si de repente se te cruza un perro por la carretera o si tienes que aparcar el coche o cualquier situación que pueda surgir en el examen.
¿Esto os pasa?
¿Soy de este tipo de personas que anticipáis todo lo que va a ocurrir durante el día y lo planificáis y lo simuláis en vuestra cabeza para ver cómo actuar?
Pues la inteligencia artificial también puede hacer esto.
¿Recordáis que antes os he dicho que la tarea del módulo de memoria iba a ser intentar predecir cuál era el siguiente vector de visión del simulador?
Intentar predecir el futuro próximo de lo que iba a pasar, ¿no?
Pues fijaos que realmente con esa información en nuestro diagrama todavía no hemos hecho nada.
Así que vamos a utilizarlo.
Imaginad que de repente ya no tenéis acceso al simulador.
Ya no hay más prácticas de conducir.
Desactivamos el simulador y apagamos todas estas partes de aquí.
Pues fijaos porque si hacemos esto todavía podemos hacer una cosa fascinante.
Y es que a pesar de haber perdido el input visual del simulador, lo que podemos hacer es usar estos vectores de visión predichos por el módulo de memoria.
Los fotogramas imaginados por el modelo mental de la inteligencia artificial.
Y lo loco es que podemos utilizar efectivamente los vectores de visión como input del módulo de memoria y del controlador.
Cerrando de nuevo el bucle.
Un bucle en el que cada vector de visión predicho, pues se puede decodificar como un fotograma del simulador mental de la inteligencia artificial.
Lo que la IA imagina que podría ocurrir en el futuro próximo.
Y como digo, ese vector lo podemos utilizar como si fuera un fotograma real.
Dándoselo a la memoria y al controlador para que lo usen como tal y así puedan predecir dentro de esta simulación mental cuál sería la nueva acción que hay que ejecutar.
Acción con la que podremos predecir un nuevo fotograma simulado que generará otra acción y otro fotograma y otra acción.
Y así ejecutar este proceso en bucle.
Bueno, a lo mejor no lo estáis entendiendo el todo bien.
A ver, aquí lo que estamos haciendo realmente es, una vez hemos entrenado la inteligencia artificial para que modele su mundo, en este caso para que modele la simulación del circuito,
pues ahora podemos aprovecharnos de esta simulación aprendida para, bueno, puesto que ya puede predecir cuál es el futuro inmediato de este modelo,
usar esa información predicha para que la inteligencia artificial la vuelva a tomar como input.
Ya no utilizamos el simulador, sino que dejamos que la propia inteligencia artificial pueda simular estados futuros cerrando el bucle en la propia simulación que imagina en su cabeza.
Mola mucho.
Y mola mucho porque aquí viene otra de las utilidades que podemos aprovechar de los modelos del mundo.
Y es que si esta simulación que está ejecutando dentro de su cabeza es lo suficientemente buena,
lo que te va a permitir hacer esto es poder aprender incluso dentro del propio simulador.
Sí, como oyes, aprender dentro de su propio modelo mental.
De hecho, este es uno de los resultados más impresionantes que mostraban en este trabajo.
Y es como habían podido hacer que el controlador, el que maneja el coche, aprendiera su tarea de conducir dentro de su propia imaginación,
dentro de su propio simulador mental.
Podéis fijaros como el controlador consigue su objetivo de mantener el coche dentro de la carretera,
pero en este caso en una simulación más difusa, donde la carretera aparece y desaparece y las curvas van tomando forma según avanza el sueño.
Y donde la trazada se va improvisando según la IA la va imaginando.
Y esta locura, pues lo que demostraría sería el enorme potencial que parece existir dentro de este concepto de modelo del mundo,
que está muy bien introducido por este trabajo de 2018.
Y claro, ya sé lo que os estáis preguntando.
Carlos, si esto es de 2018, ya han pasado unos añitos.
¿No habrá algún ejemplo más actual de todo esto que nos estás contando?
Y la respuesta es que sí.
De hecho, pasemos de conducir en un videojuego al mundo real.
Estos vídeos que estás viendo aquí pertenecen al proyecto Gaia,
un modelo generativo del último año con arquitecturas más actuales que,
construido sobre el concepto de modelo del mundo,
ha aprendido a generar vídeos de conducción autónoma a través de la ciudad de Londres.
Porque sí, estos vídeos que estás viendo aquí están generados por inteligencia artificial.
Podéis pensarlo como si esto fuera un Zora de la conducción autónoma.
Pero, como hemos venido explicando, esto no son solo vídeos creados sin ningún criterio.
Sin nadie al volante.
Sino que realmente es el resultado del modelo del mundo aprendido por la IA.
Y un simulador que podremos controlar a través de los diferentes inputs que le demos ahora.
Atentos.
A Gaia, al igual que antes, le podemos dar acciones como input para que genere resultados en consecuencia.
Podemos pedirle, por ejemplo, que se imagine a partir de este fotograma,
cómo el coche actuaría si le pedimos que gire a la izquierda.
Y como resultado, pues podemos ver cómo la IA va generando fotogramas
en los que el coche empieza a salirse de la carretera.
Mola.
También, aparte de direcciones, a Gaia se le ha instruido para seguir acciones dadas como texto.
Pues, por ejemplo, estás en este punto del vídeo, pero imagínate que el semáforo está en verde.
¿Qué harías?
Y aquí Gaia generaría estos resultados en consecuencia.
El coche arrancaría y seguiría hacia adelante.
O podemos pedirle directamente que genere situaciones donde estamos detrás de un bus
y le indicamos que la acción que queremos realizar es acelerar y adelantarlo por la derecha.
Y siendo así, la IA lo imagina.
Y esto es súper interesante porque entre las ventajas de contar con un modelo del mundo,
pues sí, encontramos la que hemos visto antes de poder hacer un aprendizaje mucho más eficaz.
Pero también otra de las ventajas de contar con un simulador del mundo tan potente
es que podemos aprovecharnos de este como un simulador para poder recrear situaciones de mayor diversidad.
Pues, por ejemplo, podríamos generar diferentes datos de navegación con el vehículo
en distintas condiciones meteorológicas.
O podríamos simular para una misma situación de partida cómo tendría que actuar el vehículo
si de repente el conductor pues hiciera una acción con el volante inesperada.
E incluso una de las ventajas que más justifica el uso de estos simuladores neuronales,
de estos modelos del mundo, sería el dotar a la inteligencia artificial,
a todos los modelos que se están desarrollando ahora y que van a llegar en los próximos años,
de la capacidad de planificar.
Pensadlo.
Imaginad que sois un vehículo autónomo y estáis ante esta situación
donde sabemos que a pocos metros hay un coche que puede incorporarse en nuestro carril.
Y claro, la instrucción que nos ha dado nuestro humano es que tenemos que seguir avanzando
para llegar a nuestro destino, minimizando los riesgos en carretera.
¿Qué hacemos?
Pues aquí el vehículo autónomo, antes de tomar una decisión real,
pues podría simular diferentes escenarios.
¿Qué pasa si el coche va hacia adelante?
¿Qué pasa si va hacia detrás?
Y para cada una de las situaciones, podría simular un rango de acciones que podría ejecutar,
para ver cuál daría el resultado más favorable.
Y una vez simulado y una vez planificado, ahora podría ejecutar la solución óptima.
El uso de World Models abre un camino prometedor.
Y aunque en este vídeo nos hemos centrado mucho en hablar de conducción autónoma,
tanto en simulación como en el mundo real,
la realidad es que este es un concepto que podemos aplicar a muchos otros problemas.
En robótica, por ejemplo, hemos visto trabajos como el de Daydreamer,
que tal y como indican, dicen haber visto un gran potencial en el aprendizaje
a partir de pocas interacciones mediante la planificación dentro de un modelo del mundo aprendido.
Esto comparado con técnicas de aprendizaje por refuerzo puras.
Y donde también añaden que aprender un modelo del mundo para predecir los resultados de acciones,
pues permite planificar en la imaginación, tal y como hemos visto.
Reduciendo así la cantidad de ensayo y error en un entorno físico real.
Algo que ha permitido en este trabajo, por ejemplo,
lograr enseñar a andar a un cuadrípedo robótico en tan solo una hora.
Siendo esto impresionante al tratarse de un aprendizaje mucho más eficiente
que el de otras alternativas no potenciadas por el uso de modelos del mundo.
Parecería, por tanto, que la planificación obtenida por la utilización de un modelo del mundo
podría ser una de las piezas fundamentales para desarrollar robots
que se desenvuelvan mucho mejor en el mundo real.
Y más allá de ejemplos de agentes artificiales que se desenvuelven en simulación
o en el mundo físico real a través de la robótica,
también podemos encontrar la aplicación de modelos del mundo
para potenciar a mucha de la inteligencia artificial con la que nosotros estamos más familiarizados.
Si dejamos que una IA pueda aprender una construcción fiel de cómo funciona el mundo
a través de observar vídeos o leer textos u otras fuentes de datos,
esto lo que nos va a dejar como resultado serán IAs más potentes, generales
y con mayor capacidad de razonamiento y de planificación.
¿Por qué no decirlo? IAs más generales.
I think all of these models understand
something more about the world model than most of us give to the world model.
Y en el caso de Sora, lo hemos dicho ya varias veces,
pues no lo podemos considerar como un constructor de modelos del mundo como tal,
por su falta de interactividad.
Pero sí podría ser la pieza, la utilización de estos Diffusion Transformers a escala,
que forme parte de una arquitectura mayor, ahora sí diseñada para aprender modelos del mundo,
donde la IA usando una tecnología similar a Sora,
pues puede imaginar con mayor calidad y consistencia.
Y algo me dice que este críptico tuit de Sam Alman de hace solo un par de días,
pues podría estar orientado en esta dirección,
donde sin venir a cuento nos dice que las películas se convertirán en videojuegos
y los videojuegos se convertirán en algo inimaginablemente mejor.
Y creo que tras el vídeo de hoy esto lo podéis entender un poquito.
Pero OpenAI no es la única,
y también empresas como Runway, que también lideran en la batalla por la generación de vídeos,
pues también ha pivotado recientemente su investigación hacia la creación de General World Model,
basándose en, o sorpresa,
investigar la generación de vídeo a partir del aprendizaje de modelos del mundo.
Quisieran que la inteligencia artificial pudiera generar clips más consistentes
y parecidos a cómo funciona la realidad.
Por tanto, la conclusión es que sí,
todos los grandes laboratorios, OpenAI, Google, Meta,
están investigando sobre este concepto de modelo del mundo,
con el objetivo de que utilizándola, pues la inteligencia artificial pueda ser mejor.
Y aquí hay que dejar claro una cosa,
y es que no hay una receta concreta de cómo hacer que una inteligencia artificial
desarrolle internamente este modelo del mundo.
Por ejemplo, ya hemos hablado de redes neuronales que nos aportaran visión y memoria.
O también con Gaia hemos hablado de transformers multimodales que analizan vídeo.
Pero tenéis que entender que la receta podría ser completamente diferente.
Hay quienes creen, por ejemplo, que modelos de lenguaje como GPT-4,
tras leer tanto, tanto, tanto texto sobre nuestro mundo,
pues ya podría haber desarrollado internamente cierto modelo del mundo.
Y luego hay quienes sujetan una definición más rigurosa, como Jean Le Koon,
que ponen justamente como aspecto necesario
esa propiedad que hemos comentado antes de ser capaz de predecir e imaginar el futuro inmediato.
Esa propiedad que, como hemos podido ver,
le da a la inteligencia artificial la capacidad de planificar a futuro.
So, building world models means observing the world
and understanding why the world is evolving the way it is.
And then the extra component of a world model
is something that can predict how the world is going to evolve
as a consequence of an action you might take, right?
I'm super excited about...
I haven't been that excited about, like,
the direction of machine learning and AI, you know,
since, you know, 10 years ago when Fairway started.
And before that, 30 years ago,
we were working on, what was it, 35,
on convolutional nets and the early days of neural nets.
So, I'm super excited because I see a path towards
potentially a human level intelligence
with, you know, systems that can understand the world,
remember, plan, reason.
There is some set of ideas to make progress there
that might have a chance of working.
And I'm really excited about this.
Jean Le Koon apuesta aquí por los modelos del mundo
a través de su proyecto JEPA,
que busca encontrar un nuevo mecanismo
para poder enseñarle de forma no supervisada
a la inteligencia artificial
a crear sus propios modelos del mundo
a través de la observación.
Observación de imágenes, vídeos, textos, de todo.
Algo que están investigando y que es muy prometedor
y que hace evidente una cosa
que no hemos dejado de comentar en todo este vídeo.
Y es que el concepto de modelo del mundo
podría estar muy ligado
hacia el futuro de la inteligencia artificial.
de inteligencias artificiales
con mayor capacidad de planificación y razonamiento
y que entendiendo y actuando mejor en el mundo real
pues puedan ser más generales.
¿Y sobre qué es este proyecto de Jean Le Koon, JEPA?
¿Cómo los modelos del mundo
podrían afectar a los próximos enormes modelos
como GPT-5 o GPT-6?
Pues vamos a hablar mucho,
pero será en un próximo vídeo.
Así que suscríbete a este canal
si todavía no lo has hecho
que sé que hay muchos que veis los vídeos
sin estar suscritos
y este año nos hemos puesto el objetivo
de llegar por fin al millón.
Apoya este contenido en Patreon
si te ha gustado,
si te ha parecido divulgativo
y agradecer nuevamente a Hostinger
por haber patrocinado esta pieza de divulgación.
Chicos, chicas,
ahora toca salir un poquito a la calle,
descubrir el mundo
y entrenar ese modelo del mundo
que tenéis en vuestra cabeza
que ya toca.
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!