logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Posiblemente Matu una vez me hayas oído decir en el canal que uno de los sectores que más beneficio
encontrará en los avances de Inteligencia Artificial en el corto y medio plazo será el
de la edición de contenidos multimedia, por ejemplo en la creación de efectos especiales.
El motivo es evidente, ya que en los últimos años no hemos parado de ver asombrosos avances en el
campo de los modelos generativos, que lo que nos permiten es lograr en segundos lo que antes
requería horas e incluso días. Siendo así, hoy os traigo un nuevo avance que empuja los
límites de lo posible un poquito más allá, logrando hacer exactamente esto. ¿Qué? ¿Que no ves nada que te
llama la atención? Bueno, eso en parte es una buena noticia, y es que lo que te estoy enseñando son
los resultados de usar técnicas de deep learning para eliminar estos elementos de un vídeo,
haciendo casi imperceptible su presencia original. ¿Quieres saber cómo funciona? ¡Empezamos!
Video Completion o completación de vídeo es el nombre que recibe el conjunto de técnicas que lo
que buscan es rellenar de manera coherente parches incompletos dentro de un vídeo, ya sea para
eliminar elementos de este o para restaurar contenidos dañados u otras ventajas que comentaremos más
adelante. A ver, rápidamente, si tuvieras que resolver este problema para este vídeo de aquí,
¿cómo lo harías? Yo posiblemente lo que haría sería usar mi programa de edición After Effects y
buscarían fotogramas anteriores y posteriores, punto donde el objeto que pasa por delante deja
al descubierto el fondo. Es decir, me aprovecharía de la información temporal y espacial de los
fotogramas vecinos, recortaría estos parches e iría más o menos ocultando a la persona hasta
que el resultado fuera más o menos convincente. Esta idea está bastante bien, claro, hasta el
momento en el que te das cuenta de que no es un vídeo con una cámara estática sino una cámara
en movimiento donde de repente nuestro plan pasa a ser una mierda. No pasa nada, porque esta es una
cuestión que ya se conoce para este problema y sobre la que se ha estado trabajando en los últimos
años, consiguiendo cada vez resultados más próximos a lo que estamos buscando. ¿Cuál es
la estrategia? Pues mira, si recuerdas el vídeo en el que hablamos sobre cómo aumentar artificialmente
el número de fotogramas de un vídeo, el de la superfluidez, ahí podemos encontrar parte de la
respuesta, hacer uso del flujo óptico. Como recordarás, el flujo óptico es el patrón de
movimiento que podemos apreciar en los objetos de una escena. Es decir, si una región de píxeles
hace unos fotogramas estaba aquí y ahora se encuentra aquí, el flujo óptico lo que nos indicará es que
este ha sido su vector de movimiento. Computando esto para todos los píxeles de un fotograma,
lo que obtendremos será un mapa como este, donde cada color nos indicará cuál es la
dirección del movimiento predicho para cada región. Si usamos esta información que nos aporta
el flujo óptico, lo que podríamos saber es en qué posición se encontraban aquellos píxeles que
queremos utilizar ahora para tapar esta región oculta de aquí, sorteando así los problemas que
por ejemplo teníamos con el movimiento de la cámara. Esta idea, hacer uso del flujo óptico,
es el punto de partida de este paper de hoy, pero también de muchos anteriores. Y es que sí,
hacer uso del flujo óptico es algo bastante común en la resolución de este tipo de tareas,
pero hay un problema que es evidente. ¿Cómo podríamos calcular el flujo óptico de aquellas
regiones que realmente están ocultas y por tanto no conocemos cuál es su información? Es decir,
si no hay píxeles en estas regiones ocultas, por ejemplo, nuestro cómputo del flujo óptico
sería el siguiente. Entonces, ¿qué hacemos? Y aquí es cuando nos encontramos con un gran problema,
porque si realmente necesitamos completar la forma final de esta figura de aquí,
¿cómo demonios podríamos aventurarnos a ni siquiera saber cómo se extenderían los bordes a lo
largo de todas las regiones que están ocultas? Es bastante complicado, es muy difícil todo esto,
casi imposible diría yo y... Ah, pues no era para tanto. Y fíjate porque además esta es la
dinámica principal de este paper. Mira, primero lo que se hace es computar el flujo óptico de
dos pares de fotogramas, que como ya hemos visto dejará incompletas las regiones ocultas,
y luego sobre este mapa lo que será uso es de una técnica clásica de detección de bordes. Si lo
pensamos, estos bordes lo que van a representar son aquellas regiones donde mayor diferencia de
movimiento esté ocurriendo. Ahora, con los bordes detectados, lo que podemos hacer es uso de una
red neuronal que podemos encontrar en GitHub, como podría ser Edge Connect, cuya especialidad
puede ser esa, conectar los bordes de una imagen con regiones ocultas. Con esta red ahora conectaremos
los bordes faltantes de nuestro fotograma, y ahora con esta información podemos hacer una mejor
reconstrucción del flujo óptico original, teniendo en cuenta ahora sí los bordes de
diferentes regiones. Y pum, aquí tenéis la idea principal de este paper y que realmente da nombre
a este sistema, que han denominado Flow Edge Guide Video Completion, o en español completado
de vídeo guiado por los bordes de flujo. No sé, suena rara la traducción, pero bueno, da igual,
se entiende. Con esta y con otras mejoras más añadidas que explican en el paper, es con lo que
en este caso se consigue esta espectacular técnica de edición de vídeo. Y ojo, porque como he dicho
al principio, esta técnica tiene bastantes aplicaciones, y no solo la que más le gustaría
tanto. Porque sí, puedes eliminar fuera, sin que sea perceptible, cualquier elemento en escena que
tú enmascares, pero también se puede utilizar para por ejemplo restaurar obras que a lo mejor tengan
regiones dañadas, e incluso se puede utilizar para eliminar las marcas de agua de un vídeo. Cuidado
con esto porque puede tener un impacto enorme para empresas online de stock multimedia que confían
en estas marcas de agua para que sus productos no sean copiados. Y quizás, más impresionante aún,
es la capacidad de este modelo de poder incrementar las regiones externas de un vídeo, teniendo esto
una utilidad directa para su uso en algoritmos de estabilización de vídeo. Como veis, es una
técnica bastante potente, y que la verdad, a ojo de una persona que no sepa que estos vídeos están
manipulados, podrían pasar perfectamente por vídeos completamente normales. Incluso en ocasiones
cuando solamente vemos el resultado final, cuesta bastante reconocer qué elemento ha sido eliminado
en escena, algo que realmente define lo que es un buen efecto especial. Bueno, ¿y qué? ¿funciona
siempre a la perfección? Pues bueno, como te podrás imaginar y viendo ya cómo funciona, hay
ciertas situaciones en las que la cosa se complica. Es decir, siendo que esto funciona con la propagación
del color de fotogramas anteriores y posteriores de aquella región que queremos recuperar, es posible
que si esta región permanece mucho tiempo oculta, esta información no se pueda encontrar. Un
problema que se da en el paper de hoy pero que seguramente será el punto de partida para un
futuro proyecto similar. Y es que si bien hoy hablamos de este paper y comprobamos que sus
resultados son impresionantes, no hay que olvidar que esto no deja de ser un trabajo incremental en
una larga cadena de esfuerzos dentro del campo del deep learning. Esfuerzos que a la larga acabarán
transformándose en espectaculares aplicaciones y que yo seguiré explicando y trayendo a este canal
de YouTube. Sean bienvenidos a la cuarta temporada de DocsCV. Y a lo mejor la última. Eso ha sonado
un poco dramático. Quiero ser dramático. Sí, a lo mejor la última. Bueno, quién sabe, yo estoy
empezando con toda la ilusión del mundo esta nueva temporada, pero que me haya seguido en otras
redes sociales sabe que me llevo quejando mucho tiempo de un problema y es que el YouTube, el
famoso algoritmo, está haciendo invisible alguno de mis vídeos. Si este vídeo funcionara como de
normal debería de funcionar en mi canal, seguramente más de la mitad del público no habría visto ni
este vídeo de aquí, ni este vídeo de aquí, ni este, ni este de aquí. A lo mejor les habrá salido
un notificado una vez, pero poco más. Y esto es un problema que llevo registrando desde hace unos
cuantos vídeos y que ya me empieza a molestar. A mí que YouTube te promociona un vídeo, te lo haga
viral y otro te lo tumbe. Bueno, suele ser algo habitual, pero cuando esto se hace de manera
sistemática ya me preocupa. Entonces yo voy a empezar a ser, como siempre, voy a seguir subiendo
vídeos. Como de costumbre voy a hacer contenido nuevo, de calidad, como siempre me ha gustado,
pero si veo que esta situación se sigue alargando en el tiempo, tomaré decisiones. En cualquier caso,
de vuestra parte, ¿qué os pido? Pues que apoyéis como podamos, ¿vale? Vamos a intentar darle una
vuelta al algoritmo de alguna manera, vamos a intentar generar tráfico, vamos a generar
interacciones en los likes, en los comentarios, comentarios que sean orgánicos, que tengan sentido,
no simplemente un comentario que ponga hola vengo a que el algoritmo te vea y vamos a intentar entre
todos a ver si sobrepasamos este bache que de momento estamos teniendo. Nada más, solamente quería
comentar esta situación y pediros ayuda en esto y ya está, no voy a estar quejándome tampoco tan
a menudo porque no tampoco me apetece. Y bueno, simplemente también agradecer a todos los que
seguís en Patreon apoyando, en parte esta cuarta temporada es vuestra, que estáis apoyando
financieramente este proyecto e invito a quien quiera también sumarse a apoyarlo, a participar
y a valorar el contenido que hago, el trabajo que hago, pues ya sabéis que tenéis el enlace a
Patreon aquí abajo en la descripción. Nada más, bienvenidos ahora sí a la cuarta temporada de
CSAO, chao chao.