¿Qué veía Claude Monet mientras pintaba en 1873? - CycleGAN

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

results.

Mention graph

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

¿Qué vería Claude Monet mientras colocaba su caballete a la orilla del Sena en un hermoso
día de primavera en 1873?
Con esta pregunta comenzaba un paper que en 2017 volvió al mundo del Machine Learning
un poco más asombroso al ser capaz de responder a esta pregunta.
Una inteligencia artificial capaz de traducir el contenido de una imagen de un estilo a
otro, y que entre otras muchas cosas podía convertir cuadros como este a su equivalente
realista.
Te lo explico, si yo te muestro la siguiente frase en inglés, tú sabrás que su equivalente
en español sería el siguiente, es decir, tú eres capaz de traducir el significado
de esta frase al entender la información subyacente, su semántica, y reinterpretándola
en un dominio de la información diferente, es decir, otro lenguaje.
Resulta que esta idea de convertir la información de un dominio a otro no solo es exclusiva
de la traducción de idiomas, sino que realmente se puede aplicar a otros muchos campos como
el de las imágenes.
A ver, vamos a poner a prueba tu imaginación, por ejemplo yo te puedo enseñar esta imagen
de aquí y preguntarte cómo te la imaginarías en el estilo artístico de Van Gogh, que traduzcas
la imagen a su estilo de pintura, o por ejemplo que te imagines cómo sería esta imagen
nevada en un ambiente de, pues por ejemplo verano, o imaginarte esta misma escena pero
que en vez de ver un caballo moviéndose sea una cebra, ¿podrías verdad?
Y si te dijera que el algoritmo del que vamos a hablar hoy es también capaz de aprender
a imaginarse esas cosas, estate atento porque te voy a hablar de uno de mis algoritmos favoritos
del campo del machine learning, la arquitectura de hoy se llama Cycle Gun, y no solo es capaz
de hacer esto, sino que además lo hace de una manera muy cómoda, de manera no supervisada.
Es decir, ya sabes que normalmente a una red neuronal se le entrena con pares de ejemplos,
para esta imagen de aquí quiero conseguir esta de acá, de manera supervisada, claro
el problema es que para resolver esta tarea es muy complicado encontrar un gran número
de imágenes a pares que por ejemplo te muestren una escena antes y después de aplicar el
estilo de Van Gogh, y es por eso que este algoritmo es tan interesante, porque aquí
él aprende a hacer esta traducción sin necesidad de especificar cada imagen con su pareja,
aquí tú solamente tienes que preocuparte de crear una colección de imágenes de entrada
con un estilo, y otra colección de salida con otro estilo diferente, solo con esto será
el propio algoritmo de machine learning el que tendrá que entender el contenido de ambos
grupos y aprender a cómo realizar dicha traducción, esto es, una vez más, de manera no supervisada.
Al final el objetivo de lo que queremos conseguir es que nuestra red neuronal aprenda a hacer
la siguiente tarea, generar a partir de esta imagen, otra imagen que pueda pasar desapercibida
en este grupito de imágenes de aquí, y claro, si hablamos de redes neuronal es capaz de
generar contenido, inmediatamente tenemos que pensar en las famosas redes generativas
adversarias, las GANs, de las que ya hemos hablado alguna vez en el canal y que como
sabes son capaces de generar imágenes artificiales realistas, si en nuestro problema de optimización
establecemos que el objetivo es que el generador produzca una imagen manipulada que engaña
al discriminador para que piense que esta imagen pertenece a este grupo de aquí, pues
entonces ya tendríamos el objetivo cumplido, listo, ya tienes una red capaz de convertirte
imágenes de este estilo a este otro, aunque claro, todavía hay un problema.
Y es que en este caso al no trabajar de manera supervisada con pares de imágenes, realmente
la tarea que hemos especificado se podría resolver correctamente transformando la imagen
sin necesidad de tener que preservar el contenido que teníamos en la imagen original, es decir,
da igual que en la imagen original hubiera una casa, que si la red consigue transformarla
en esta imagen de aquí, pues habrá resuelto correctamente la tarea definida, que era que
pareciera a una imagen de este grupo.
Sin embargo, no se parecería nada de lo que estamos realmente buscando, todavía falta
algo más.
Y ese algo es la solución que se introduce en este paper, donde aplican la siguiente
lógica.
Si queremos que la red neuronal aprenda a traducir de un estilo al otro de manera consistente,
tendría que cumplirse que una vez se transforma mi imagen original al otro estilo, pues si
tuviéramos también otra GAN que realizara la transformación de forma inversa, pues
la imagen resultante debería de guardar similaridad con la imagen de partida.
Si estas dos imágenes se parecieran, entonces nuestro sistema sí estaría haciendo la tarea
correctamente, ¿lo ves?
Esto es algo que seguramente habrás hecho alguna vez traduciendo texto.
Si quieres comprobar que la traducción obtenida es medianamente buena, pues traduces el resultado
al idioma original y deberías de obtener algo parecido a tu texto inicial.
Por tanto, a la tarea de antes, lo que le tenemos que hacer es también añadir la restricción
de que al resultado de traducir una imagen a un estilo, esta deba de ser similar a la
imagen inicial cuando se traduzca nuevamente al estilo original.
Si te das cuenta en el diagrama de la arquitectura que hemos planteado, lo que hemos formado
es un ciclo de transformaciones hechas con GANs, es decir, una, wait for it, Cycle GAN.
Una arquitectura impresionante que como he dicho antes, desde 2017 no ha parado de sorprendernos
con sus resultados, transformando paisajes en cuadros, y cuadros en paisajes reales.
El invierno en verano, y el verano en invierno, y transformando el día en noche.
Caballos en cebras, París en Venecia, o imágenes satelitales en mapas de Google Maps y viceversa.
Y bueno, pues quiero que te quedes con esta imagen de aquí, porque hay algo que debería
de llamarte la atención, o al menos algo que en su momento llamó la atención de los
investigadores de Machine Learning de todo el mundo.
Una cosa muy curiosa que esconde una historia que te va a sorprender, y para la cual, eh
bueno, pues ya saben, ahora es cuando digo eso de que lo veremos en el próximo Bits,
y bueno, que te dejo tiempo para que lo pienses.
Si quieres profundizar, te puedes mirar el paper original cuyo link he dejado en la descripción.
El like, los comentarios, el Patreon, ya sabes, lo de siempre.
Ah bueno, y claro, saber que tendrás más inteligencia artificial, aquí, en dot ccv.