This graph shows how many times the word ______ has been mentioned throughout the history of the program.
El campo de la inteligencia artificial no deja de seguir avanzando, trayéndonos mes
tras mes nuevos e impresionantes avances. En el vídeo de hoy comentaremos alguna de
las noticias que más me han llamado la atención del mundo del machine learning de los últimos
tres meses. Así que yo estoy listo, si tú estás listo, con un café entre manos, comenzamos.
¿Lo escuchan?
¡MÚSICA GENERATIVA! En concreto, un nuevo trabajo publicado por OpenAI llamado Musenet.
¿OpenAI? Sí, exacto, la misma organización que hace unos meses publicó su famosísimo
modelo generador de texto GPT-2, ahora propone un uso similar de aquella arquitectura pero
para el proceso de generar música. Aquí las secuencias a predecir son una sucesión codificada
de notas, con su correspondiente tono y volumen, y también los silencios intermedios. Las piezas
generadas, al igual que ocurría con el modelo GPT-2, se conforman prediciendo cuál será la
siguiente nota correspondiente en base a lo generado anteriormente, permitiendo esto el
inducir la melodía generada a partir de un comienzo prefijado por el usuario. El potencial
de la arquitectura usada, los transformers, permite generar piezas musicales donde dependencias
a largo plazo son mantenidas, encontrándonos con estructuras musicales que se conservan
a lo largo de la canción.
Será el 12 de mayo cuando se retire de la web de OpenAI la demo de Musenet, para su
posterior mejora, así que si queréis probarlo tenéis el link ahora en la descripción,
a la espera de una mejor versión, y quizás el código, y porque dedicaré un vídeo especial
al campo de la música generativa es por lo que no daré más detalles hoy.
Mira esta imagen. Ok, ahora intenta visualizar este mismo objeto, pero visto desde otro ángulo
diferente, por ejemplo este de aquí. ¿Te puedes hacer una idea de la forma de este
objeto visto desde esta zona? Sí, ¿verdad? Ahora, ¿cómo podríamos conseguir esto mismo
pero haciendo uso del Machine Learning?
Hologram es un interesante trabajo desde la Universidad de Bath, que consigue que los
modelos generativos sean capaces de entender, y por tanto controlar en el proceso generativo,
la representación tridimensional de los objetos que ha procesado, de manera no supervisada.
Tradicionalmente, con la CANS, somos capaces de sintetizar cualquier tipo de imagen realista
donde cada imagen está vinculada a un vector numérico ordenado dentro de un espacio latente.
Esta ordenación aprendida de manera no supervisada hace que movernos en determinadas dimensiones
del espacio latente nos muestre una variación en las propiedades de la imagen generada,
por ejemplo, más sonrisa o menos sonrisa, piel más clara o más oscura, rasgos más
femeninos o más masculinos, etc. Pero, ¿y si quisiéramos poder controlar propiedades
tridimensionales del objeto? Para eso, Hologram introduce una arquitectura generadora en la
que primero se aprenderá una representación tridimensional del objeto, sobre la cual se
podrá aplicar transformaciones como rotaciones o traslaciones, y que luego acabará siendo
proyectada en dos dimensiones para así generar la imagen final. Al inducir este pipeline
de procesamiento 3D, lo que se consigue es que el generador aprenda de manera no supervisada
dicha representación tridimensional. Con esto, lo que se consigue es poder controlar,
usando los parámetros que modifican las propiedades tridimensionales del objeto, como la orientación
o la posición, el elemento que estamos generando, unos resultados impresionantes y que amplían
nuestro control sobre las arquitecturas de tipo generativas.
Querías crear nuevos mundos, mundos impresionantes, pero tus habilidades artísticas se resumían
a ser manchurrones en el paint. No pasa nada, porque el Machine Learning está aquí para
ayudarte.
Un impresionante trabajo publicado por Nvidia nos muestra una herramienta de sintetización
de imágenes realistas, condicionado a un mapa de segmentación que el usuario puede
dibujar como entrada al sistema. Esta publicación introduce una mejora frente a trabajos anteriores,
en la que se sustituyen las capas de Batch Normalization habituales, por unas capas de
normalización espacialmente adaptativas, capaces de preservar la información semántica dada
por el usuario a lo largo del procesamiento en las diferentes capas. Con esto lo que se
obtiene es un resultado de generación impresionante, donde a golpe de pincel podemos dibujar en
tiempo real los diferentes elementos que queremos que sean sintetizados en la imagen final,
siendo el resultado obtenido coherente con lo dibujado. Un árbol cuyo suelo sea nevado
será un árbol sin hojas, o una montaña dibujada sobre un lago contará con el correspondiente
reflejo. Como digo, resultados bastante impresionantes. Además, para cada mapa de segmentación
dibujado podremos generar diferentes versiones de la imagen, o condicionar el resultado también
a un estilo especificado, una herramienta impresionante que será de gran utilidad en
suites de edición de imágenes.
Pero tranquilo, porque tu carrera artística todavía se puede ver más potenciada por
esta otra herramienta de aquí. Hablamos de SCFGAN, una arquitectura capaz de sintetizar
imágenes de manera muy realista, siguiendo los bocetos y colores marcados por el usuario,
en este caso, como podemos observar, aplicados al dataset CerefeIHQ de rostros de famosos.
Para entrenar a este sistema se ha tomado cada imagen y se ha preprocesado para obtener
un boceto de la imagen y un mapa de color. Con esto se ha procedido a enmascarar ciertas
zonas de la imagen original, para la cual solo se le ha pasado como input a la red los
fragmentos correspondientes al boceto y al color, como si el input del usuario se tratase.
Esta arquitectura nuevamente se basa en una configuración de tipo GAN, donde el modelo
generador se implementa con una red de tipo UNET, y cuya labor será la de completar aquellas
porciones de la imagen que han sido enmascaradas, solo con la información del boceto dada.
Al mismo tiempo se cuenta con una red discriminadora que deberá de aprender a diferenciar si lo
que está viendo es una imagen reconstruida o la imagen real.
Con esto lo que se obtiene es una herramienta alucinante, capaz de no solo editar al gusto
del usuario, sino también de reconstruir un rostro haciendo uso de una cantidad muy
limitada de información, nuevamente un trabajo con un potencial increíble y que traza el
camino hacia el futuro de las herramientas de edición.
Con el desarrollo de los algoritmos de deep learning, en la última década hemos visto
una evolución paralela en el campo de la robótica, donde cada vez son más los brazos
robóticos que con destreza son capaces de aprender a coger y manipular objetos, consiguiendo
desarrollar cada vez más habilidades que para nosotros, los humanos, son fácilmente
realizables.
Una de estas habilidades es la de lanzar objetos, esta requiere no solo coger correctamente
cada objeto según su forma y peso, sino también conocer atributos como la localización de
su centro de masas, el cómo interactuará su forma frente a otras fuerzas como el rozamiento
del aire, etc.
Una tarea compleja de resolver que requiere por parte del robot el entender la física
del proyectil a lanzar, y que de conseguirse ofrecería una forma más ágil de manipular
objetos con un mayor alcance.
Entendiendo esto es muy interesante el trabajo que ha sido resuelto por un equipo de Google
Brain con su robot Tosingbot, un robot que en base a ensayo y error ha aprendido a saber
coger y lanzar objetos a la posición especificada, una tarea que requiere que este aprenda a
combinar sencillas físicas de cómo el mundo funciona, en combinación con su entendimiento
de los objetos que está manipulando.
Tras un proceso de entrenamiento de 14 horas en el que hasta el propio robot se encargaba
de reiniciar su tarea, ay que mono, Tosingbot consiguió mejorar su precisión desde un
0% de aciertos en los lanzamientos hasta un 85% al finalizar, un conocimiento que además
se demostró ser generalizable, al ser capaz de lanzar correctamente objetos diferentes
a los usados en el entrenamiento y a localizaciones distintas a las aprendidas, un nuevo avance
hacia un futuro donde robots puedan operar con destreza y de manera ágil combinando
físicas del mundo real.
Recomiendo leer el artículo en el blog de Google para ampliar más información, tenéis
el link en la descripción.
Y estas son algunas de las noticias más interesantes que he seleccionado de estos últimos 3 meses,
pero aún así quedan algunos titulares más.
Por ejemplo, hemos visto como Google ha publicado por fin la versión Alpha 2.0 de su famosísima
librería de deep learning, TensorFlow.
De la misma manera hace poco día Facebook actualizó su librería PyTorch a la nueva
versión 1.1, con también nuevas e interesantes funcionalidades.
También vimos como el sistema de OpenAI 5 venció nuevamente al juego de Dota 2 a un
equipo profesional, mostrando en esta ocasión un rendimiento superior a lo visto anteriormente.
Igualmente estos meses hemos visto como tras la publicación del Stack Overflow Developer
Survey 2019, Python se posicionaba por encima de Java como el lenguaje de programación
más popular, siguiendo una tendencia de crecimiento vista ya en años anteriores tras de Bancara,
C++ o PHP.
Un crecimiento en parte justificado por el respaldo que este lenguaje recibe desde la
comunidad de Machine Learning y Datasite.
Tampoco pierdo la ocasión para hacer una recomendación madein.csv de la web distill.pub,
posiblemente el mejor lugar de internet donde encontrar artículos sobre Machine Learning
de altísima calidad.
Estos meses han sacado 5 nuevas publicaciones que recomiendo leer, cubriendo temas como
las redes generativas, procesos caucianos o técnicas de interpretabilidad de diferentes
tipos de redes.
Lectura obligada, links en la descripción.
Y finalmente también toca hacer mención al galardón concedido a Joshua Benjo, Joffrey
Hinton y Jean LeCun, a los que se les premió con el prestigioso premio Turing por su contribución
en el campo de la inteligencia artificial y más específicamente en el área de las
redes neuronales.
Un premio más que he merecido y que se extiende también a todos los equipos de investigaciones
que han formado parte de estos logros.
Muchísimas felicidades.
Y con esto último, lo único que queda por decir es que si te interesa alguno de los
temas que hemos comentado hoy y quisieras que lo explicara con mayor profundidad en
un próximo video, si eres Patreon del canal puede votar por tu tema favorito durante toda
esta semana.
Tenéis la encuesta disponible en Patreon.
Si no lo eres, pues ya sabes que puedes apoyarme en el desarrollo del contenido que hago en
este canal con tu aportación mensual a través de Patreon, del cual tenéis un link en la
descripción de este video.
Y por mi parte nada más, solamente decir que esta semana comienza ICLR, uno de los
congresos más importantes de Machine Learning, y que al mismo tiempo el 7 de mayo dará comienzo
al evento de Google I.O., donde tendremos muchísimas novedades seguramente relacionadas
con el área de Machine Learning.
Si te quieres enterar de todas ellas y también lo que voy comentando en redes sociales, pues
sígueme en Twitter y estáte atento a los posibles directos que haga o en este canal
de YouTube o en Twitch.
Creo que ya no hace falta decir dónde podéis encontrar los links, simplemente lo único
que quiero que sepan es que todo lo que quieran saber de Inteligencia Artificial lo podrás
encontrar aquí, en dot c c v.