This graph shows how many times the word ______ has been mentioned throughout the history of the program.
Quiero que te fijes con mucha atención en el siguiente vídeo, porque quiero que veas bien lo que va a pasar a continuación.
¿Estás atento? ¿Sí? ¿Preparado?
Genial, porque lo que va a pasar a continuación es que te voy a indicar que esto no se trata de un vídeo real,
sino un vídeo generado con inteligencia artificial resultado del trabajo que te vengo a presentar hoy.
La sintetización de vídeo a vídeo es el nombre que se le da a la tarea de poder generar un vídeo fotorrealista
a partir de otro vídeo dado como input, que servirá para dar la estructura necesaria al vídeo resultante.
Esta estructura puede venir dada por mapas de segmentación, mapas de profundidad, puntos clave de poses capturada,
bordes detectados y en realidad de un sinfín de fuentes de información que a día de hoy podemos extraer fácilmente
gracias a las mejoras de los algoritmos de visión por ordenador basados en deep learning.
Para la generación de este contenido en años recientes, usar redes generativas adversarias ha sido una buena idea,
aportándonos resultados más que impresionantes, consiguiendo sintetizar casi cualquier cosa que nos propongamos,
y siendo bit2bit de NVIDIA uno de los papers más influyentes en este área.
Creando no solo resultados en alta resolución y con aspecto fotorrealista,
sino donde también existe una consistencia temporal en el corto plazo,
que hace que nos surjan molestos parpadeos en el proceso de generación,
es decir, fotogramas cercanos generarán resultados donde los objetos de la escena mantendrán consistentemente su apariencia.
Como es evidente, evitar estos parpadeos es un requisito mínimo para poder generar resultados que pasen el filtro del ojo humano.
Pero para mantener estos criterios de consistencia, no solo tenemos que pensar en el corto plazo, sino también en el largo.
Es decir, fíjate bien que ocurre cuando utilizando el modelo de bit2bit,
recorremos las mismas localizaciones que hemos visitado previamente en una escena.
Como se puede ver, fotogramas anteriores donde habíamos generado al sujeto con la camiseta de un color,
ahora ha pasado a convertirse en otra cosa.
No hay consistencia en el largo plazo.
Y el motivo de esto es evidente, y es que bit2bit solo hace uso de unos pocos fotogramas previos
para condicionar la generación del fotograma actual,
significando esto que la acumulación de pequeñas perturbaciones puede hacer que en el largo plazo
el resultado acabe divergiendo del resultado inicial.
Es decir, el modelo no cuenta con ninguna memoria de lo que ha generado previamente.
Una limitación que hoy queda resuelta con este nuevo trabajo que es capaz de generar resultados consistentes en el corto y largo plazo.
¿Cómo lo hace? Pues queda clara la necesidad de contar con una memoria,
pero esta por ejemplo no se puede basar en ir almacenando todos y cada uno de los fotogramas generados previamente,
ya que esto solo haría crecer linealmente junto a la duración del vídeo los requisitos de memoria.
No, no tiene sentido.
Y la propuesta de ellos es mucho más interesante.
Lo que aquí se propone es ir utilizando la información de los fotogramas ya generados
para ir reconstruyendo una nube tridimensional de puntos,
y usar dicha reconstrucción como un resumen de los estados visitados en los fotogramas pasados.
La idea es tomar un primer fotograma y usarla para generar una imagen realista con la información dada como input.
Ahora, para hacer este resultado consistente con el resto de fotogramas,
lo que se hará será construir esta nube de puntos tridimensional que actuará como memoria de todos los fotogramas pasados.
A partir de ese momento, los próximos fotogramas se basarán también en la información capturada en dicha nube de puntos
para condicionar la generación de nuevos fotogramas,
obteniendo así resultados que sí preservarán los detalles de los resultados anteriores.
Mola, pero es que la cosa no queda ahí, porque ahora también podemos aprovecharnos de la imagen regenerada
para dar color incluso a nuevos puntos que son vistos por primera vez.
Y los resultados, pues ya veis, son impresionantes.
Efectivamente se logra poder generar el vídeo con bastante fidelidad con el input dado,
y además se logra preservar su consistencia en el tiempo.
Fijaros por ejemplo en cómo, a diferencia del resto de trabajos previos,
aquí sí se está manteniendo el estilo de la ropa del chico, tanto al principio como al final del vídeo.
O en este caso, donde por ejemplo podemos ver cómo el vídeo generado de un coche conduciéndose alrededor de una manzana,
nos acabará llevando al mismo punto inicial en donde las texturas de edificios, coches y señales
continúan siendo las mismas que en un inicio.
Y recordemos, todo generado a partir de un input como este.
¡Guau!
Las aplicaciones para esto son numerosas, que van desde herramientas avanzadas para edición de vídeo
hasta su aplicación en motores de videojuegos o simuladores,
que podrían recrear entornos de entrenamiento mucho más realistas.
Una herramienta que se suma a muchas otras que ya conocemos desde aquí en el canal,
y que a lo mejor os interesará saber que están empezando a ser unificadas en una librería llamada Imaginer.
Ya la probaremos.
Y bueno, ¿qué? ¿Qué os parece? ¿Es interesante?
Quiero saber vuestra opinión en los comentarios, y si os ha gustado el vídeo no dejéis de apoyarlo.
Plantearos también si es buen momento para sumaros al Patreon,
uniros a la comunidad de DocCSU y seguir apoyando todo el contenido que se crea aquí desde el canal.
Y si te has quedado con ganas de seguir profundizando en esta tecnología,
te recomiendo ver el último vídeo sobre redes neuronales convolucionales,
el primero de una serie de vídeos donde vamos a estar profundizando y programando este tipo de redes.
Seguimos con más inteligencia artificial en el próximo vídeo.