SORA: Análisis Completo - ¡Es un simulador de mundos!

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

results.

Mention graph

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Sora ha llegado al mundo sorprendiendo a todos.
Porque ahora de repente es una posibilidad que una inteligencia artificial
pues sea capaz de generar vídeo a través de un único prompt de texto.
Logrando resultados como ningún otro modelo de la competencia ha sido capaz de demostrar.
Acostumbrados a ver resultados de pocos segundos, con muy poco dinamismo
y bastante fallos de coherencia temporal, con objetos mutando a cada fotograma que pasa,
que de repente llegue a OpenAI y nos enseñe esto,
es una demostración de lo muy por delante de la competencia que van en este laboratorio.
Por comparar, el modelo más avanzado que teníamos hasta la fecha era el de Google Lumiere,
presentado hace un mes y que era bastante espectacular.
Pero claro, visto ahora, pues ya no lo es.
Ya que donde uno podía generar clips de 5 segundos, ahora Sora lo eleva al minuto,
con una resolución impresionante y una consistencia y comprensión del mundo real que inquieta.
Y justo de esto es de lo que quiero hablar hoy.
Porque nos estamos centrando mucho en tratar a Sora como un generador de vídeo.
Pero es que OpenAI lo que nos cuenta es que Sora en realidad es un simulador del mundo real.
Porque fijaos, lo que nos han contado de cómo funciona Sora es lo siguiente.
Oye, al igual que cuando entrenamos a una IA para que aprenda a generar texto,
lo primero que tenemos que hacer es convertirlo en trocitos individuales con cierto significado,
en tokens, pues aquí con las imágenes vamos a hacer lo mismo.
Vamos a descomponer cada fotograma de un vídeo en lo que se llaman visual patches.
Parches visuales.
En imágenes esto sería subdividir cada imagen en diferentes partes,
que luego la IA procesará como trocitos de información independiente,
como sucede con los tokens de texto.
Y claro, si trabajamos con vídeo donde tenemos una dimensión temporal más,
estos parches visuales pues serían bloques tridimensionales que recogerían como una región de una imagen va evolucionando en el tiempo.
Estos bloques de información, estos parches visuales,
serán la forma en la que la IA verá y manipulará los diferentes vídeos,
que ahora tendríamos que analizar.
Y para analizarlo, pues OpenAI ha utilizado aquello que sabe que funciona.
Y en 2024 las dos arquitecturas de moda en el mundo del Deep Learning son los Transformers y los modelos de difusión.
Porque ya sabemos que a día de hoy, si lo que queremos es calidad de imagen,
hacer uso de los modelos de difusión es la opción correcta.
Estos modelos son capaces de generar imágenes nuevas a partir de aprender el proceso de filtrar ruido aleatorio.
Es decir, podemos coger un dataset de imágenes con sus descripciones de texto
y podemos corromperlas añadiendo ruido aleatorio para luego entrenar una red neuronal
que aprenda a deshacer y filtrar ese ruido, pudiendo así llegar de nuevo a la imagen original.
Claro, si la red neuronal aprende a hacer esto para todas estas imágenes,
pues luego no va a tener ningún problema en hacerlo con nuevo ruido aleatorio y nuevas descripciones de texto.
Y de ahí es de donde estos modelos son capaces de generar nuevas imágenes super realistas.
Modelos como Stable Diffusion, Dalí, Mid Journey, pues se basan en este principio, en modelos de difusión.
Y claro, lo que pasa es que típicamente la red neuronal que se usa aquí para hacer este proceso de filtrar el ruido
es típicamente una red de tipo convolucional.
Y funcionan bien, así lo han demostrado.
Pero ya se han encontrado alternativas que parecen funcionar mejor.
Y aquí es donde entra el transformer.
Y fue hace un año cuando este trabajo de aquí introdujo el concepto de DITS, Diffusion Transformers.
Un modelo de difusión que usa los transformers para hacer este proceso de filtrado de ruido.
Y un paper que demostraba algo que a OpenAI le encanta.
Y es que al usar transformers, pues el proceso de difusión de estos Diffusion Transformers, pues presentaba mejoras a escala.
Es decir, entre más grande es el modelo, mejor funcionaba.
Y como digo, pocas cosas le gustan más a OpenAI que poder derrochar flops y flops de computación
en entrenar una inteligencia artificial que parece mejorar, pues cuanto más computación le dedicas.
Lo hicieron con el paso de GPT-2 a GPT-3 y de GPT-3 a GPT-4.
Y ahora lo han hecho con Sora.
De hecho, fijaos en este ejemplo de aquí.
Como si entrenamos a un Diffusion Transformer con una cantidad determinada de computación,
pues obtenemos un resultado que, bueno, no está mal, pero tampoco está bien.
¿Qué pasa si hacemos el modelo más grande y lo entrenamos con más computación?
Pues que mejora.
Y con cuatro veces más computación, parece que el modelo empieza a dar resultados espectaculares.
Efectivamente, Sora y los Diffusion Transformers presentan mejoras a escala.
Y esto es lo poco que sabemos de su entrenamiento, lo que han querido compartir.
Sabemos que habrá sido algo similar a lo que acabamos de ver en el uso de Diffusion Transformers para imágenes,
pero en este caso usando vídeos.
Los vídeos, como hemos dicho, se habrán convertido en una secuencia de parches visuales
y a estos parches visuales se le habrá añadido ruido aleatorio a saco.
El trabajo del Transformer, por tanto, sería el de aprender a deshacer ese ruido de todos esos parches visuales,
que por simplificar la explicación voy a representar aquí como fotogramas completos,
y así el Diffusion Transformer irá aprendiendo poco a poco a generar estos parches visuales.
Algo que, como hemos visto antes también, podemos condicionar a una descripción de lo que va sucediendo en el vídeo.
Van pasando trozos de vídeo con sus descripciones de texto, trozos de vídeo, trozos de vídeo, trozos de vídeo,
y el Diffusion Transformer poco a poco va aprendiendo a cómo generarlos.
Y con esto, ahora cuando el modelo esté entrenado, tras quemar GPUs durante semanas,
al igual que antes, pues podremos tomar la descripción que queramos,
pues un perrete jugando al ordenador, inicializar el modelo con ruido aleatorio,
y dejar que el Transformer empiece a limpiar ese ruido.
El resultado ahora sí será un conjunto de parches visuales,
que cuando los decodifiquemos nos dará un vídeo que nunca ha existido.
Sora habrá hecho su trabajo.
Y entender esto mola un montón, porque ahora podréis entender qué tan versátil es este esquema de entrenamiento,
porque Sora no solo se limita a generar vídeos a partir de texto,
sino que puede hacer muchas más cosas.
Podemos coger el Transformer, colocar una imagen como si fuera un primer fotograma,
inicializar el resto de fotogramas con ruido, y dejar que Sora imagine el resto,
haciendo que de repente las imágenes pasen a cobrar vida ante nuestros ojos.
También, con la misma estrategia, pues ya podemos extender vídeos en el tiempo,
hacia adelante o hacia detrás.
Solo tendríamos que seleccionar aquellos fotogramas que queramos conservar,
y dejar luego que Sora continúe la película decodificando el resto.
Esto lo que nos permite es crear efectos como este de aquí,
donde podemos tener tres metrajes diferentes,
cada uno desarrollando la acción de una manera distinta,
pero que finalmente acaban por converger en un mismo final.
También podemos usar un primer y un último fotograma que sea idéntico,
para forzar así que Sora tenga que completar el resto de forma coherente,
creando, por tanto, una película que comienza y acaba de la misma forma.
Un bucle, infinito y coherente.
Hemos visto también ejemplos de técnicas de image to image,
donde podemos ir cambiando el estilo de un vídeo,
pero manteniendo la estructura general de la escena.
Y esto se hace, pues tomando los fotogramas de un vídeo,
y añadiendo parcialmente ruido a sus fotogramas,
para darle capacidad a la IA de que complete el resto de información,
pero manteniendo parte de la estructura original.
Aquí los estilos los podemos ir cambiando según vamos ajustando el prompt.
Y más espectacular todavía, y esta es una de las cosas que más me vuela a la cabeza,
es la capacidad de Sora de poder comenzar la secuencia con los fotogramas de un vídeo,
y acabar con los fotogramas de un vídeo diferente.
Para dejar así que la inteligencia artificial se imagine la película
que hace que podamos transicionar de una escena a otra.
Intentando en cualquier caso, y haciendo a mi gusto un ejercicio de creatividad excelente,
que la transición sea lo más coherente posible.
Y de verdad quiero pararme aquí porque esto es verdaderamente mágico.
Tienes una toma de un dron volando en el coliseo romano,
y tienes otra de una mariposa volando bajo el mar,
y la película que Sora inventa para transicionar de una a otra es simplemente magia.
Y si lo pensáis conceptualmente hablando, pues lo que estamos viendo aquí es una especie de in-painting,
pero en este caso aplicado a la dimensión temporal,
donde es el paso del tiempo el que nos enseña cómo la inteligencia artificial
ha encontrado la forma de fusionar la información de forma coherente.
Y es bien de estos ejemplos cuando me doy cuenta de que Sora no es un modelo que haya memorizado
o haya aprendido de una serie de vídeos que existen como tal,
y que bueno, puede generar variaciones pero poco más.
No.
Aquí hay que ver a Sora como lo que es.
Una inteligencia artificial que ha aprendido a través de analizar un montón y un montón de vídeos
propiedades de cómo funciona el mundo real.
Propiedades que ahora puede utilizar de forma inteligente y creativa
para resolver estos problemas que le estamos planteando.
Y esto, amigos, es interesante.
Porque esta historia ya la hemos vivido antes.
Y es que recordaréis cómo el entrenamiento de GPT-2 y posteriormente de GPT-3
nos enseñó algo fundamental que en su momento fue todo un descubrimiento para el mundo del Deep Learning.
Y es que si tú cogías una inteligencia artificial y la entrenabas con el único objetivo
de aprender a predecir cuál era el siguiente trozo de texto, pues sí.
Aprendía a predecir cuál era la siguiente palabra.
Generaba texto.
Genial.
Pero también sin ser ese su objetivo, la inteligencia artificial aprendía otras cosas.
Aprendía a traducir textos, a resumirlos, a responder preguntas, a escribir código de programación,
a escribir poemas, un montón de funcionalidades que no era su objetivo principal.
Su objetivo principal era generar texto.
Y como ya he explicado muchas veces, esto fue un bombazo.
Y fue un bombazo que OpenAI quiso explotar.
Y de aquellos descubrimientos es de donde salen herramientas que hoy todos utilizamos.
Como por ejemplo, ChatGPT.
Pues fijaos porque ahora con Sora podría estar ocurriendo algo similar.
Y es que el modelo lo único que hace, como hemos visto antes, es aprender a predecir los siguientes fotogramas.
Ya está.
Y sin embargo, por los resultados que nos muestran, podemos deducir que el modelo,
para poder hacer bien su tarea, ha tenido que aprender otras tantas habilidades.
Lo que llamaremos habilidades emergentes.
Por ejemplo, está claro que el modelo ha tenido que aprender bastante bien a cómo manejar aspectos de óptica,
como la reflexión y refracción de la luz.
En numerosos ejemplos de los que comparten, podemos ver reflejos muy realistas.
Iluminaciones naturales, coherentes, distorsiones más avanzadas,
como sería el cómo se distorsiona la luz a través de unas lentes,
o por ejemplo, efectos que vemos cuando estamos sumergidos bajo el agua.
Esto es algo que Sora parece haber aprendido bastante bien.
Y justamente esto no es algo inédito de este modelo.
De hecho, gracias a la interactividad en tiempo real de los generadores de imágenes,
también podemos descubrir que estas capacidades existen en estos modelos.
Fijaos cómo al mover una mancha blanca a modo de brillo sobre esta escena de globos,
hace que la inteligencia artificial infiera un foco de luz
y por tanto actualice coherentemente las sombras en respuesta.
Pero recordemos, en ningún momento el objetivo explícito era aprender esto.
Lo único que tenía que aprender era generar imágenes.
Y de forma similar encontramos otras propiedades emergentes.
Por ejemplo, la coherencia tridimensional, que además en este modelo es espectacular.
Porque al final un vídeo no deja de ser una proyección bidimensional
de lo que en una ocasión fue una escena en tres dimensiones.
Y por eso parece que aquí Sora no tiene dificultad alguna de mover la cámara
y mostrarnos perspectivas coherentes de lo que estamos viendo.
El modelo entiende la tridimensionalidad del mundo que está creando.
Y de nuevo, esto es impresionante.
De hecho, es tal la consistencia tridimensional de alguna de estas escenas creadas
que algunos no han tardado en coger estos vídeos
y procesarlas con técnicas NERV o de Gaussian Splatting.
Que como ya sabéis, nos permiten ahora explorar en tres dimensiones la escena.
A partir de un texto hemos generado un vídeo que ahora podemos explorar tridimensionalmente.
Más.
Consistencia temporal.
Uno de los grandes problemas de los generadores de vídeo hasta la fecha era esto.
Que los elementos que por un instante estaban en pantalla,
pues permanecieran ahí de forma consistente cuando le diéramos al play.
A mi gusto, mucha de esta consistencia temporal en alguno de los modelos más avanzados
se consiguió mejorar notablemente, pero a costa de restarle dinamismo a la escena.
Ha.
Si dejó parado todos los elementos, pues posiblemente todos se mantengan su sitio.
Sin embargo, cuando movíamos las cosas...
¡Bum!
Un brazo por aquí que luego no está.
Lo típico.
Y esto parecía una cosa que a la IA se le estaba atragantando.
Pero de nuevo, pues llega a OpenAI y Sora opera a otro nivel.
Aquí no importa que los elementos se muevan, que interactúen unos con otros.
Que cambie incluso la toma y de repente la cámara sea un plano cercano de la chica.
O incluso que haya oclusiones que mantengan tapados a los elementos durante un tiempo.
Las cosas simplemente siguen ahí.
Y esto de nuevo es impresionante porque lo que nos demuestra es que Sora sí tiene un concepto
de la permanencia espacial y temporal bastante desarrollado.
Y podríamos seguir encontrando más y más ejemplos de habilidades emergentes aprendidas.
Podríamos hablar de las físicas de los tejidos o las dinámicas de fluidos que parece simular
con cierta coherencia.
Sistemas de partículas que interactúan con el movimiento de los animales.
Y bueno, un conocimiento general de cómo funcionan la mayoría de cosas que genera.
Y es por esto por lo que OpenAI no etiqueta a Sora solo como un generador de vídeos.
Sino como un simulador del mundo.
Y sí, lo sé.
Un simulador del mundo que no siempre es perfecto.
Partiendo de que aquí OpenAI lo que nos está enseñando es la selección de lo mejor de lo mejor de Sora.
Pues podemos estar de acuerdo que no todos los resultados que se generan son 100% realistas.
Y es que por ejemplo, por mucho que Sora conozca el ciclo de andar de los humanos,
pues a veces se lía.
Pie derecho, pie izquierdo, bueno, los mezcla.
También la permanencia de objetos la conoce, sí, pero en ocasiones se olvida de ella.
Y a veces directamente es Matrix lo que falla y la simulación empieza a buggearse
creando vídeos preocupantemente más interesantes que los vídeos que simulan una realidad coherente.
No.
No hace falta que le busquéis tres pies al gato.
O cinco.
Ya os lo digo yo.
No.
Sora no es un simulador del mundo perfecto.
De hecho, es bastante imperfecto.
Pero es impresionante que haya ganado este nivel de comprensión del mundo
solo a partir de observar masas de píxeles tridimensionales.
Y claro, todavía desconocemos cuál sería el límite teórico de estos sistemas
si siguiéramos escalando con más datos y más computación.
Pero, claro, aquí la pregunta que habría que hacerse es
¿Tiene sentido hacer toda esta inversión en computación para un modelo que solo genera vídeo?
Pues no, amigos.
La cosa va más allá.
Porque lo hemos visto antes.
Con los modelos GPT lo que ha quedado patente es que su capacidad de entender el texto
ha ido tan lejos que incluso pueden ser capaces de demostrar cierto entendimiento del mundo real.
Y en cierta forma razonar en consecuencia.
Por ejemplo, yo le puedo pedir a ChadGPT que razonen sobre cómo ordenar de forma lógica
en una pila una serie de objetos con diferentes formas, tamaños, pesos.
Y él, sin haber visto nunca su forma o haber experimentado cuánto pesa,
solo con la proyección del mundo que ha podido aprender a partir de leer un montón de texto,
pues puede razonar una respuesta correcta.
Su objetivo era leer.
Y sin embargo, ha acabado aprendiendo a cómo razonar sobre el mundo real.
Podemos decir que GPT-4 de alguna forma tiene un entendimiento de cómo funciona la dinámica
del mundo real, que ha desarrollado un modelo del mundo, o en inglés, un world model.
Pues si lo pensáis, ahora Sora hace esto, pero a lo bestia.
Y aquí el camino tomado es diferente.
Aquí el aprendizaje no proviene de leer y razonar sobre textos,
sino que su conocimiento del mundo viene de observarlo, visual y temporalmente.
Entiende cómo los objetos interactúan entre ellos, que las cosas caen,
que una bombilla en el caparazón de un cangrejo pesa y que debería de arrastrar por tanto la arena,
o que un vaso que se rompen añicos pues debe de volar en el aire de forma extraña.
Vale, su modelo del mundo no es 100% perfecto y aún contiene muchos fallos,
pero recordemos que es algo, e insisto mucho, que ha aprendido automáticamente.
Automáticamente y en este caso con una visión parcial de lo que sería nuestro mundo,
solamente viéndolo a través de vídeos.
Pero, pensemos qué tan robusto podría ser el modelo del mundo que desarrollara un futuro GPT-6,
que sí, que se entrenara analizando pues toda esta masa de vídeos,
y esto lo combinará con su conocimiento de todos los textos que ha leído en internet.
¿Qué pasaría también si esto lo combinamos con otras modalidades como audio,
como 3D o como otras fuentes de datos más avanzadas?
¿Qué tipo de representación interna podría desarrollar un modelo de estas características?
Y, bueno, ¿para qué nos serviría?
Pues fijaos, ejemplo cotidiano.
El otro día en casa, Sandra no encontraba unos auriculares que había dejado en el baño.
Sí, habíamos encontrado uno de ellos en el suelo y ella, buscando y buscando, me decía que no encontraba al otro.
Hasta que me puse a pensar qué podría haber pasado y entonces, ja, abrí el cajón y lo encontré ahí dentro.
Claro.
Para llegar a esa conclusión internamente, en mi cabeza lo que reproduje fue lo que podía haber pasado.
Si un auricular estaba en el suelo, es que había rodado y había caído desde arriba.
Y si el otro no estaba en el suelo, que lo habíamos buscado bastante, es que tenía que haber caído en otro lado.
Y en el baño habitualmente los cajones suelen estar cerrados, pero también a veces abiertos.
Así que había cierta probabilidad de que hubiera caído en su interior, cuadrando bastante con que no lo estuviéramos encontrando en el suelo.
Claro, para yo poder hacer esta deducción, que podríamos etiquetar de inteligente, pues en mi cabeza tuve que reproducir todas estas dinámicas.
Necesitaba contar en mi cabeza con un modelo del mundo en el que poder simular ciertas físicas, ciertas dinámicas.
Y que no tiene que ser perfecto.
En mi cabeza yo no estaba calculando que la caída de los objetos fuera 9,8 metros por segundo.
Pero la simulación era lo suficientemente buena como para poder proponer una hipótesis de valor.
Y ahí está la clave.
Lo que está demostrando Sora aquí es su capacidad de modelar parte del mundo.
Y esto va a tener una utilidad directa en futuros modelos, ya sean chatbots virtuales que nos hablen a través de texto
y que podrán hacer deducciones e inferencias mucho más avanzadas.
O robots que directamente aprenderán, razonarán y actuarán aplicando su conocimiento del mundo real.
Y es por esto por lo que OpenAI nos habla de simulador del mundo y no de generador de vídeos.
Y aquí es donde se abre el debate.
Porque muchos estaréis de acuerdo en que la coincidencia de Sora saliendo el mismo día que Gemini 1.5,
pues sí, pudo perjudicar a Google.
Pero realmente al que le tuvo que sentar como una patada en las GPUs fue al bueno de Jean Lecón.
Porque ese día el director científico de inteligencia artificial en Meta tenía preparada una gran release.
Su modelo, V-Yepa.
V de vídeo y Yepa que son las siglas del proyecto que lleva desde hace años desarrollando
y que para él es su gran apuesta sobre el futuro de la inteligencia artificial.
En este caso, un modelo que, a través del análisis de vídeo, pues aplicando estrategias muy diferentes a Sora,
es capaz de aprender a entender el mundo.
Es decir, a conformar su propio world model.
Y por esto creo que al bueno de Jean Lecón le tiene que haber, bueno, molestado el haber sido eclipsado por un modelo como Sora
que compite más o menos en esta línea.
Bueno, por eso y además porque, ¿recordáis los Diffusion Transformers que hacen funcionar a Sora
y que comentábamos antes de un artículo de hace un año?
Bueno, ese artículo provenía de los laboratorios de Meta.
Fatal.
Y quizás un poquito por eso hemos visto a Jean, pues en Twitter, criticando lo que Sora aporta en materia de creación de modelos del mundo.
Pero la crítica en parte es válida.
Porque lo que indica es que para poder considerar a Sora un simulador del mundo,
no solo basta con renderizar un vídeo realista y espectacular del mundo.
No, se tiene que poder interactuar con él.
Y para que entendáis bien a lo que me refiero, quiero que veáis este último ejemplo generado por Sora.
Esto de aquí es el resultado generado ante el prompt Minecraft.
Un vídeo en el que, si no te fijas mucho en los detalles, pues puede pasar fácil por un gameplay real del juego.
Vamos a ignorar a esta vaca cerdo que nos está mirando con ojitos raros.
Claro, ¿qué significa esto?
¿Esto significa que Sora entiende el mundo de Minecraft de una forma tan general que incluso lo puede simular?
¿O solo está escupiendo gameplay que ha aprendido tras ver un montón de vídeos y ya?
Pues una forma de saber esto, de poder evaluar la capacidad de generalizar de este simulador de mundos,
es interactuando con él, jugándolo.
Es decir, podríamos entrenar a Sora para que no tome como input solo un prompt de texto,
sino que también pudiera tomar acciones de un teclado, de un ratón.
Y bueno, si nos demostrara que podemos ejecutar acciones sobre este vídeo generado
y el modelo respondiera consecuentemente generando el vídeo de respuesta ante esa acción,
entonces sí, estaríamos ante un simulador que ha aprendido un modelo del mundo válido.
Y esto de tenerlo es potentísimo.
Y hablaremos de ello en un futuro vídeo dedicado a World Models, a Modelos del Mundo y a V-Yepa,
porque es un tema que trae una tecnología que es muy interesante y muy prometedora
hacia un futuro de inteligencias artificiales más generales y más capaces.
Pero para que no os vayáis sin un ejemplo de a lo que me refiero,
quiero que veáis este último paper salido en los últimos días.
Un modelo de Google llamado Genie, que consiste en un modelo generativo
que lo que te va a permitir es generar en segundos lo que parece ser un juego simulado.
Un juego simulado por una IA generativa que ha aprendido a partir de vídeos y que,
oh, podemos interactuar con él.
Algo que tal y como indican ellos en el paper,
se trataría de un modelo fundacional capaz de crear modelos del mundo.
Por tanto, las conclusiones con las que quiero que os quedéis tras este vídeo son las siguientes.
Bueno, aprovecho un momento para recordaros que el GTC, el gran evento de NVIDIA,
está a la vuelta de la esquina y que, como en años anteriores,
estamos sorteando una tarjeta gráfica que puede ser tuya.
Yo este año al evento voy a asistir en persona, viajo a Silicon Valley,
pero vosotros podéis asistir virtualmente y, además de ver un montón de ponencias
súper interesantes, podréis optar por esta GPU.
Os dejo todos los detalles abajo en el comentario fijado.
Y ahora sí, las conclusiones.
Primero, técnicamente OpenAI está muy, muy por delante de la competencia.
Al menos así lo han demostrado con este trabajo de aquí y de ellos,
pues ya me espero cualquier cosa que puedan sacar en los próximos meses.
Nos han presentado una tecnología que es impresionante,
pero que viene con un montón de debates éticos,
con transformaciones de un montón de industrias y también un montón de oportunidades.
Segundo, con Sora lo que OpenAI ha demostrado es la efectividad de entrenar a los Diffusion Transformers a escala.
Una tecnología que, más allá de utilizarse para generar vídeos,
también va a tener un montón de aplicaciones en otros contextos, en otros campos,
en otras áreas, en otros problemas del mundo del Deep Learning.
No nos quedemos con que esto solo es un generador de vídeo,
es algo mucho más amplio y transversal.
Y tercero, que OpenAI, como hizo ya en el pasado con los modelos de generación de texto,
también ha demostrado que existen ciertas habilidades emergentes aprendidas
que hacen de estos modelos no solo un generador de vídeo, sino simuladores de mundos.
Simuladores de mundos imperfectos,
pero que actualmente son capaces de enseñarnos visiones del mundo hiperrealistas.
Y que no nos quepa duda que OpenAI...