¿Podría una IA crear una PELÍCULA desde CERO?

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

results.

Mention graph

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Con la explosión que se ha vivido este último año con inteligencias artificiales como Dalí 2,
Mid Journey o Stable Diffusion generando imágenes visualmente espectaculares,
he podido detectar un comentario que se repite mucho en mis redes sociales con
respecto a este fenómeno de lo generativo. ¡Wow! Dentro de poco podremos darle unas pocas
indicaciones a la inteligencia artificial y que ella sola te genera una película al momento.
Una suerte de inteligencia artificial que tú le puedas pedir, pues quiero un remake de Titanic,
pero con Emma Stone como protagonista, con un final un poco más feliz y sin abusar del CGI.
Y ¡boom! Darla generar y obtener una película. Sería impresionante tener un sistema así,
¿verdad? Pues tenéis que saber, amigos y amigas, que este sistema existe.
No, es broma, no existe, ¿vale? Y es que esto que estamos proponiendo es algo bastante complicado,
pero aún así quiero hacer el ejercicio, quiero ver qué tan cerca o tan lejos estamos de ver
una inteligencia artificial creando una película 100% artificial. Pero ojo, porque lejos de
encontrarnos en una situación donde la inteligencia artificial pueda poner en riesgo la producción de
películas por parte de los humanos, tenéis que saber que esta es una tecnología revolucionaria
que tiene muchísimo que aportar a la industria de la producción audiovisual. Y hace falta gente que
investigue y desarrolle herramientas para justamente esto. El patrocinador de este vídeo lo sabe muy
bien y por eso me ha hecho llegar esta oferta de trabajo para vosotros. ¿Conocéis lo que hace la
gente del ranchito? El ranchito es una empresa especializada en efectos especiales situada
en España. Han recibido múltiples premios internacionales por efectos en producciones
míticas tales como Juego de Tronos, Mandalorian, Stranger Things y otras muchas producciones.
Este verano tuve la suerte de visitar sus oficinas y, además de regalarme este Goya impreso en 3D,
me enseñaron todo en lo que están trabajando, combinando inteligencia artificial en sus procesos
de producción de películas. Desde deepfakes y máscaras automáticas para poder hacer rotoscopias
en segundos, hasta el uso de la tecnología nerf de la que hablaremos hoy para digitalizar
set de rodajes y bueno, muchas otras cosas más avanzadas. Desde el ranchito lo tienen claro,
quieren apostar por la inteligencia artificial y quieren investigar cómo se integraría en
todos sus procesos. Y aquí es donde entras tú. Si eres desarrollador de Machine Learning y quieres
trabajar en este nuevo departamento de investigación y desarrollo que están montando, aplica a esta
oferta. Están buscando a expertos en este campo que tengan experiencias en proyectos relacionados
con la audiovisual, así que si tienes las skills o algún proyecto que puedas enseñar, te voy a
dejar toda la información abajo en la caja de descripción para que puedas echarle un vistazo.
Y ahora vamos a imaginar. ¿Podría una inteligencia artificial crear una película desde cero? ¿Es esto
posible? Pues para contar una buena historia lo primero que tenemos que hacer es redactarla. Para
ello necesitaremos utilizar una inteligencia artificial que esté entrenada para entender y
generar el lenguaje, lo que se llama un modelo del lenguaje. Actualmente las opciones más potentes
accesibles serían GPT-3 por un lado que es de pago y por el otro Bloom que es open source,
pero también podemos esperar que los próximos años aparezcan IAs incluso más avanzadas,
capaces de generar textos con lógicas y estructuras mucho más coherentes. Sería por ejemplo el caso
de Lambda que en su habilidad de poder dialogar como si fuera un humano, pues llegó a convencer
a otro humano de que ella era real. En este sentido pues sí podríamos esperar obras generadas por
inteligencias artificiales que puedan llegar a ser lo suficientemente convincentes. Ahora,
¿haría falta reentrenarla? Porque sí, de partida un modelo de lenguaje como GPT-3 pues podría crear
una historia medianamente interesante, pero para ser un experto en el noble arte de escribir buenos
guiones pues tendríamos que coger a uno de estos modelos y entrenarlo para esta tarea. Buscando en
internet veo rápidamente que hay grandes bases de datos que contienen guiones originales de películas,
así que este sería un muy buen recurso por donde comenzar. Concretamente lo que yo haría pues sería
primero como input le daría una breve descripción del tipo de película que quiero, y dejaría que
la IA generara un resumen breve de la historia completa, y luego a continuación pues utilizaría
este resultado como input para generar el guión. Ahora, no sólo necesitamos un guión que detalle
cuáles son los diálogos o cómo va avanzando la trama, sino que además necesitamos un plan de
rodaje, una forma de describir para cada escena pues dónde vamos a estar poniendo el foco en
cada plano, o qué elementos están viendo en cámara, o qué secuencia de acciones tendríamos que
grabar para poder cumplir aquello que pone en el guión. Una planificación. Para esto creo que
tendríamos que entrenar a una inteligencia artificial similar a Palm Say Can, un proyecto
reciente de Google en el que han entrenado un robot doméstico usando su potentísimo modelo
del lenguaje Palm, que para cada orden dada entiende cómo la tendría que descomponer en
una secuencia de tareas a cumplir. Y este sistema estaría muy bien, pero necesitamos datos. Un
dataset que recoja para cada secuencia pues cómo se descompone en diferentes planos siguiendo un
lenguaje y una lógica cinematográfica. La buena noticia es que de nuevo contamos con un enorme
repertorio de películas, gracias a su humanidad, con el que podemos entrenar a la inteligencia
artificial. La mala es que de cara al ordenador, una película no deja de ser una masa de píxeles
que evolucionan el tiempo. Tenemos que darle un sentido. Y aquí es donde entran los algoritmos
de visión por ordenador. Y es que hace 10 años no, pero ahora ya contamos con algoritmos de visión
que con muchísimo acierto te pueden describir qué elementos hay en una escena, cuál es la pose de
los actores en cada momento, qué acciones están realizando, o qué vestuario llevan. Muchísima
información visual que es clave para que el ordenador pueda entender qué es lo que sucede
en pantalla. Con esto ya tendríamos información suficiente para convertir a nuestro guión en un
plan de rodaje. ¿Qué tocaría ahora? Bueno, pues luces, cámara y acción. Bueno, excepto porque aquí
no vamos a usar una cámara. Y es que no tenemos nada que grabar, sino que generar. Con la inteligencia
artificial aquí el proceso cambia. Ya en este punto de la película tenéis que saber que en
lo audiovisual pues parece que esta tecnología no tiene límites. Con las redes neuronales podemos
desde cambiar la cara a actores por otras personas hasta crear avatares artificiales como este que
estás viendo en pantalla. Y en 2022 tanto Dali 2 como Stable Diffusion o Mid Journey nos han enseñado
que cualquier cosa que podamos imaginar y escribir se puede generar. Pero claro, aquí lo que necesitamos
no son imágenes estáticas por muy espectaculares que sean. No, lo que necesitamos es movimiento. Y
la buena noticia es que con IAS como Stable Diffusion pues ya hemos visto resultados muy
prometedores de animaciones. Tanto de vídeos que están generados a partir de moverse por las tripas
de la red neuronal a través de su espacio latente para ir variando qué es lo que genera,
hasta clips de series o películas famosas donde cada fotograma ha sido procesado a través del
método de transformación de Stable Diffusion de imagen a imagen. En ambos casos los resultados son
hipnóticos pero tienen un problema, la consistencia temporal. ¿Ves cómo parpadean estos vídeos? Este
es un tema que siempre aparece cuando hablamos de vídeos generados por inteligencia artificial y
es que en este caso ya no tenemos sólo las dimensiones espaciales de ancho y alto sino
que también tenemos una dimensión temporal. Una dimensión temporal donde sería deseable que
los objetos que se muestran en pantalla pues no vayan apareciendo y desapareciendo o modificándose
a cada golpe de reloj. Sobre esto existen proyectos que han solucionado algunos de estos
problemas y algunos de ellos los hemos comentado aquí en el canal como por ejemplo en este vídeo
donde se convertían mapas de Minecraft a su equivalente realista. Y claro es esta cuarta
dimensión esta dimensión temporal lo que hace tan complicado que podamos ver un sistema como
Dali 2 pero aplicado a vídeos. Ojo digo complicado que no imposible y es que ya existe una primera
versión de lo que podría ser un Dali de vídeos donde tú describes qué es lo que quieres generar
y la inteligencia artificial en un momento te genera el clip. Pues por ejemplo una mujer vestida
de rojo que está llorando y te genera todos estos clips de aquí o por ejemplo un hombre que está
boxeando en la playa también te lo hace o no mira mejor en el salón de su casa y lo genera. Es
impresionante aunque bueno pues si bien ya no parpadea tanto como antes todavía quedan ciertos
fallos de consistencia temporal que habría que solucionar objetos que siguen desapareciendo que
van cambiando de forma. De hecho si me preguntáis a mí yo creo que en un futuro la generación de
vídeo no va a pasar exactamente por estos sistemas sino que pasará por el 3D. Desde hace un par de
años existe Nerf. Hemos hablado muchísimo de esta tecnología aquí en el canal y es impresionante.
Permite a una inteligencia artificial aprender una representación tridimensional de un espacio
donde podremos mover libremente la cámara solamente a partir de suministrarle imágenes
o vídeos en dos dimensiones. Con Nerf se están logrando cosas impresionantes y en cuestión de
muy poquito tiempo hemos pasado de tardar horas o incluso días en entrenar a estos sistemas a
solamente segundos. Lo interesante aquí es que con Nerf pues tenemos una forma más natural de
poder representar escenario donde colocar a nuestros actores, donde poder grabar todas las
acciones que vayan sucediendo, donde podemos variar la iluminación, cambiar los estilos,
donde la inteligencia artificial puede tener el control de todo. ¿Qué? ¿Que no crees que esto
pueda llegar a ser posible? Atento. Quiero que veáis este impresionante trabajo del pasado mes
de agosto. Se llama Newman y viene de los laboratorios de inteligencia artificial de Apple.
Lo que plantea es lo siguiente. Un sistema que utilizando Nerf pues puede tomar un vídeo de
10 segundos de una persona y separar por un lado lo que sería el fondo y por otro lado al sujeto,
manteniendo detalles como pues su raco, su vestimenta, todo. Pero no solo eso. Atentos,
también podríamos reanimar al sujeto haciendo poses y piruetas que nunca antes había ejecutado.
Es que mirad, esta persona nunca bailó así. Es que incluso podemos componer a los sujetos de
ambos vídeos en una misma escena. Y esto amigos todavía está en fase experimental. Pero bueno,
si algo nos ha enseñado la inteligencia artificial es que un año podemos estar así,
y al año siguiente estamos todos en Twitter creyéndonos artistas. Y quedan detalles por
añadir. Por ejemplo, diálogos. Bueno, desde hace años ya se viene trabajando en proyectos
de sintetización de voz que cada vez van dando mejores resultados. Música? Bueno, pues más de
lo mismo. No es perfecta, todavía se tienen que pulir detalles, pero nos vamos acercando poco a
poco. Importantísimo, elementos sonoros. Bueno, existen trabajos que utilizando inteligencia
artificial pues consiguen sintetizar, e importante, sincronizar aquellos sonidos
correspondientes al vídeo que se está viendo. Como veis, para cada etapa de la producción
audiovisual pues siempre acabamos encontrando una inteligencia artificial que se acerca o resuelve
dicha tarea. Es cuestión de tiempo que alguien pues combine todas estas piezas y acabe completando
el proceso. Y este vídeo lo que pretende es pues presentaros esta idea de que no estamos tan lejos
de ver una inteligencia artificial que pueda crear una obra audiovisual que pueda tener una
narrativa que pueda ser interesante. Y de hecho he querido hacer mi propio experimento y he
conectado unas cuantas herramientas de inteligencia artificial para crear a mi propio contador de
historias automático. No vamos a ver una película, no vamos a ver nada que se parezca a lo que he
comentado en el vídeo, pero un prototipo inicial de cómo podría ir evolucionando todo esto. Por
un lado he cogido a GPT-3 y le he dado un listado de títulos que yo creo que pueden ser interesantes
para que ahora la inteligencia artificial pues nos complete con el amor es un campo de batalla,
por ejemplo, o si volviéramos a dar, nos generaría otro título, el final del mundo o a la persecución
de la ecuación perfecta. Y esto mismo es lo que estaría ejecutando pero en este caso aquí en
Python en código. Le damos a ejecutar y vemos por ejemplo que nos genera el título la luz al final
del universo. Con esto ahora vuelvo a llamar a GPT-3 para decirle créame una historia corta y
evocativa con este título y automáticamente la inteligencia artificial nos estaría creando
una historia corta sobre el título que ha generado previamente. Aquí lo vemos. Se dice que la luz al
final del universo es la cosa más bonita en la existencia. Algunos dicen que es la única cosa
para lo que merece la pena vivir, bla bla bla. Luego este texto lo descompongo por diferentes
frases y aquí ahora donde entra StableDiffusion. Con cada una de estas frases voy a generar una
imagen dentro de esta inteligencia artificial que es StableDiffusion que genera imágenes
visualmente espectaculares. Y finalmente cojo cada una de las frases, también las convierto
a voz con una inteligencia artificial que la narra y combinó pues todas las imágenes con la voz,
con el audio y generó un vídeo final. Todo esto dentro de Python. Con todo esto lo que he hecho en
muy poquitas horas ha sido una herramienta que combinando todas estas herramientas cuando yo
le dé a ejecutar todo pues me va a crear una obra audiovisual como esta.
No he tenido ningún dinero, así que lo he robado. Me sentí culpable y también me sentí un
sentimiento de satisfacción. Lo he obtenido, pero lo quería sin tener que pedirlo. Desde entonces he
robado muchas cosas. He robado dinero de mi bolsa de mamá, comida de la tienda de mercados y
incluso electrónicas de mis amigos. Pero no lo hago porque soy una persona mala. Lo hago porque
estoy honesto. Estoy honesto sobre el hecho de que no estoy creyendo lo que tengo. Estoy honesto sobre el
hecho de que quiero tomar lo que quiero sin pedir su permiso. Así que a todos los robos
de allá, digan esto, no somos personas malas. Somos honestos.
No es emocionante. Vale, quizás esta película no vaya a ser merecedora de ningún Oscar ni ningún
premio. Vale, ok, lo sabemos. Pero esto es un primer paso. Es un prototipo muy sencillo que yo he
creado en una tarde. Imaginad si dedicáramos tiempo a crear una herramienta con todas las
inteligencias artificiales que ya tenemos disponible. Imaginad que esto sigue avanzando. Cada vez
tenemos inteligencias artificiales más potentes. ¿Hasta dónde podría llegar a esto? Para mí creo
que la respuesta está clara. ¿Podría una inteligencia artificial crear una película? Yo creo que sí.
No estamos cerca, pero tampoco estamos tan lejos. Estamos en proceso. Estamos en una fase de
experimentación, descubriendo la tecnología, fascinándonos a cada paso. Y estamos en un
punto similar a como cuando surgieron las primeras cámaras fotográficas o las primeras cámaras de
vídeo, creando, experimentando. Y todo este proceso pues sí que va a ser una película bastante
interesante que ver. Una película donde la inteligencia artificial pues sigue siendo la
protagonista. Y una película que yo aquí en dot c c v te voy a contar.