logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Le voy a contar una historia.
Vale, pues falta una hora para que salga al vuelo hacia Manchester y atentos a la ruta
que tengo que hacer para llegar a Corea del Sur.
Como digo, estoy en Helsinki y para ir a Corea del Sur primero tengo que volar a Reino
Unido, a Manchester, en un vuelo que son cuatro horas.
El reloj se retrasa dos horas para ir a UK y llegaré a las nueve de la mañana de allí.
De las nueve de la mañana tengo que esperar hasta las once y cuarenta, es decir, en una
escala de tres horas para volar de Manchester a Hong Kong en un vuelo que van a ser doce
horas de vuelo y además el reloj se adelanta siete horas, con lo cual voy a llegar un día
más tarde a las siete de la mañana.
En ese punto ya tengo el jet lag bastante jodido, pero es que después en Hong Kong
tengo que esperar en el aeropuerto desde las siete de la mañana hasta las tres de la tarde,
una escala de siete horas si no me equivoco, y luego volaré de Hong Kong a la isla de
Sheffield en un vuelo de cuatro horas.
Mala idea, mala idea.
He salido a dar una vuelta y ha empezado a caer el diluvio porque al parecer mañana
se espera un tifón, cago en la leche.
En fin, bueno este es el primer día, ya estoy en el hotel, todo va sobre ruedas como se
esperaba y me voy a descansar porque ya no sé ni cuántas horas de sueño llevo sumadas
o restadas o qué, así que mañana nos vemos, mañana comienza ya todo lo que sería el
deep learning camp y voy a quedar aquí, durmiendo.
Aprovechando estas preciosas tomas a cámara lenta, voy a aprovechar para responder una
pregunta muy importante, ¿qué demonios hago en Corea del Sur?
La respuesta es que hace dos meses apliqué para participar en un campamento de verano
en el que 24 investigadores de machine learning de todo el mundo seríamos seleccionados
para convivir juntos durante un mes en la preciosa isla de Yeju, Corea del Sur, para
trabajar cada uno individualmente en un proyecto de deep learning.
El principal patrocinador de este evento es Google y por tanto contamos con gastos pagados,
un sueldo durante este mes y mil euros de recursos en la nube para gastar en nuestro
proyecto.
Es decir, una oportunidad única para viajar a una isla paradisiaca, convivir junto a
otros profesionales amantes del campo del machine learning y trabajar cada uno en un
proyecto alucinante.
Suena bien, ¿verdad?
El patrocinador es Deep Learning Camp Yeju 2018.
Hola chicos, ¿qué tal?
Apenas tengo tiempo porque estamos haciendo muchas cositas, pero bueno, ahora vamos a
ir a una sesión sobre TPUs, Tensor Processor Units, las TPUs son los procesadores que se
usan especializados para procesamiento de tensores y pues aquí lo vamos a estar utilizando
con la plataforma de Google Cloud, lo cual es muy interesante y nos van a hacer un cursillo
ahora de cómo utilizarla.
Y en resumen, pues todo muy bien, la comida picante, extraña, para desayunar tienen arroz
y sopa, un poco raro todo, y el tifón está llegando pero no llega, de momento está el
tiempo con la calma antes de la dormenta y a ver qué pasa.
Y seguimos haciendo un poco de introducción entre todos nosotros, hemos hecho una charla
de cinco minutos por la mañana explicando who am I, ya hemos comido a las 12 del mediodía
y ahora vamos a tener de nuevo un juego en plan de invertir dinero en los diferentes
proyectos para...
Espera, espera, espera, espera, creo que ni siquiera te he explicado qué proyecto vengo
a hacer aquí, te lo cuento.
Para entender la idea en la que voy a trabajar, primero tenemos que viajar al pasado, exactamente
una de las noticias que incluí en el vídeo de noticias del meta abril, vamos a recordarlo.
El siguiente artículo se lo quiero agradecer a Carlos José Díaz que me lo hizo llegar
a través de Twitter y vaya locura de artículo, se trata de nuevo de un sistema de sintetización
de imágenes y en este caso tenemos imágenes en los que aparece un sujeto en una pose determinada
y nosotros podemos definir una nueva pose objetivo, el sistema aprenderá a crear una
nueva imagen en la que el sujeto aparezca en dicha pose.
Si como lo oyes, tomas una imagen de referencia, por ejemplo esta de aquí y luego le especificas
cual quieres que sea la pose imitar y pum, el sistema es capaz de generarte una nueva
imagen bastante realista donde dicha persona aparece en esta nueva pose, incluso manteniendo
una consistencia en el resto de elementos de la imagen.
Para lograr esto, a diferencia de otras soluciones, el sistema presentado decide dividir el problema
en diferentes subtareas, primero el sistema aprende a separar en dos capas el fondo de
la imagen y a la propia persona, después la figura de la persona es dividida en diferentes
partes correspondientes a brazos, piernas y otras partes del cuerpo, para así poder
reposicionar cada elemento a la pose buscada, luego se sintetizan aquellos huecos de la
capa del fondo que han quedado a la vista tras mover los elementos del cuerpo y finalmente
se combinan todas las partes para obtener la imagen final, así de sencillo.
Todo este sistema que hemos descrito será el generador de esta arquitectura y que contará
con la evaluación de una red discriminadora formando así nuevamente una estructura en
forma de red generativa adversaria, con esto se consigue que los resultados obtenidos cuenten
con detalles más realistas y consistentes con la pose original.
Un proyecto muy interesante que podrá tener su aplicación en herramientas de diseño
gráfico de manipulación de imágenes y vídeos y que como bien apunta Carlos José en su
tweet, esto combinado con otros proyectos de sintetización de rostro y voz, nos acerca
un futuro en el que no podremos saber cuando un vídeo de una determinada persona será
real o no.
Mantendremos un ojo puesto a este proyecto ya que hay una pequeña posibilidad de que
escuchemos más sobre él en el canal en un futuro próximo.
Estad atentos.
Pues al final vaya que sí vamos a escuchar sobre este proyecto.
Al ver este sistema capaz de sintetizar imágenes a partir de una pose dada, me pregunté qué
pasaría si combinamos esto con otro sistema que a partir de una imagen fuera capaz de
predecir cuál es la siguiente secuencia de poses.
Mi propuesta es usar el sintetizador de imágenes para generar una imagen que se pueda dar como
entrada al predictor de poses.
Para que éste use esta información y prediga cuál sería la siguiente pose del sujeto.
Después podemos usar la pose predicha para sintetizar una nueva imagen y así sucesivamente
durante varias iteraciones, creando un bucle que de funcionar nos servirá para generar
un vídeo prediciendo el futuro movimiento del sujeto en escena.
Otros similares existen que han hecho uso de la información de la pose de una persona
para la generación de vídeos, con resultados muy prometedores, como puede ver en estos
ejemplos.
Mi trabajo durante esta semana será el de implementar este sistema de generación de
vídeo y compararlo con el resultado de alguno de estos proyectos.
Como es se trata de un proyecto super interesante del cual les contaré con más detalles la
semana que viene cuando empiece a trabajar más a fondo.
Y es que esta semana hemos tenido nuestra parte de trabajo.
Pero para ser honestos con la verdad, hay que decir que el objetivo de esta semana era
conocernos todos en el grupo y nuestra semana se ha parecido un poquito más a esto de aquí.
¡Suscríbete al canal!