This graph shows how many times the word ______ has been mentioned throughout the history of the program.
Si recuerdan, uno de los primeros temas que tratamos en los data coffee del canal fue
sobre cómo un equipo de Nvidia Finlandia había conseguido desarrollar una arquitectura
de deep learning capaz de sintetizar caras humanas artificiales, completamente realistas
y en alta resolución.
Ahora, un año más tarde, Nvidia vuelve a sorprender con la evolución natural de
este trabajo.
Por si acaso andas despistado con esto, sí, es correcto.
Estas caras que estás viendo aquí no pertenecen a personas reales, sino que por el contrario
han sido generadas de manera artificial por una arquitectura generativa adversaria.
La evolución introducida en este trabajo, sin embargo, es la de una versión de la arquitectura
denominada Style Gun, que introduce un mayor control en las características que deberá
tener el rostro generado.
A diferencia de las arquitecturas tradicionales, en este caso la arquitectura introduce mejoras
inspiradas en las técnicas de transferencia de estilo, para así poder permitir al generador
aprender atributos de los datos como el género, edad, pose, longitud del pelo, que podrá
tener en cuenta a la hora de generar las imágenes.
Este nivel de control permite obtener resultados impresionantes como los que vemos ahora en
pantalla, en los que podemos generar rostros inspirados en una imagen, mientras mantenemos
anclados los atributos identificados por la red en otra imagen.
Tal el control alcanzado por esta red, que incluso se logra manipular el estilo aplicar
al rostro a distintas escalas de variación, pudiendo aplicar cambios que transformen
completamente la pose y forma de la cara, a aplicar estilos sutiles como el color de
piel o del cabello, algo verdaderamente impresionante de ver.
Esta arquitectura, que como imaginarás no solo funciona con imágenes de caras, además
se ha visto suplementado durante este metenero con el código correspondiente, para que así
tú también puedas ver cómo está implementado y, dependiendo del tipo de superordenador
con el que cuentes, de generar tus propias caras.
Y aun siendo impresionante la noticia anterior, esta no fue la que mayor impacto pudo tener
en el mes de diciembre, y es que ha sido DeepMind quien ha dado un fuerte golpe sobre la mesa
para demostrar que efectivamente la inteligencia artificial es una herramienta que tiene todo
el potencial para impulsar la investigación dentro de muchas áreas científicas.
En este caso hablamos de AlphaFault, una arquitectura de machine learning que busca predecir cuál
será la forma tridimensional de una proteína solamente a partir de su secuencia genética.
Para comprender bien la importancia de esta noticia, hay que entender que las proteínas
al final son moléculas complejas responsables de casi todas las funciones que se producen
en el cuerpo humano, y que en última instancia estas funciones emergen de la estructura tridimensional
de estas moléculas.
Por ejemplo, una proteína con propiedades anticongelantes será aquella cuya estructura
tridimensional permita unirse con cristales de hielo para así evitar la congelación,
y de ahí la gran importancia de saber predecir cómo será la forma de estas proteínas, porque
así podemos ganar en una mayor comprensión del funcionamiento del cuerpo humano.
En este sentido DeepMind con su sistema AlphaFault han conseguido lo que expertos han llamado
un progreso sin precedentes en la habilidad de métodos computacionales para predecir
estructuras de proteínas, esto tras quedar con diferencias primero en la competición
que buscaba resolver este problema.
Un avance que como ya hemos señalado demuestra el potencial de usar estas herramientas para
la investigación científica, y que en el medio plazo se podrá traducir en mejores
herramientas para combatir enfermedades como la diabetes, el Parkinson o el Alzheimer.
Y ahora nos quedamos en las oficinas de DeepMind para pasar de hablar de AlphaFault a AlphaStar.
No, en serio, no sé qué problema tiene esta gente con llamar Alpha a todo.
En cualquier caso, hablamos de AlphaStar, el primer programa de inteligencia artificial
que logró el pasado 19 de diciembre vencer por primera vez a jugadores profesionales
del StarCraft 2, como ya hemos discutido en videos anteriores, conseguir algoritmos capaces
de dominar juegos es solamente un desafío intermedio en el proceso de desarrollar nuevas
y mejores herramientas, con la mejora en las técnicas, poco a poco estos desafíos cada
vez se van volviendo más avanzados y complejos, y este es el caso del entorno que plantea
el juego StarCraft 2, un entorno en tiempo real de gran complejidad que requiere desarrollar
estrategias a largo plazo y donde el espacio de decisión en cada instante del juego es
muy amplio.
A diferencia de soluciones anteriores que buscaban codificar a mano estrategias ganadoras,
en este caso es el algoritmo de Machine Learning el que aprende a desarrollar estas estrategias,
siendo el primero en vencer a jugadores profesionales.
La arquitectura, que combina técnicas avanzadas como Transformers, LSTM o Pointer Networks,
inicialmente fue entrenada de manera supervisada observando las jugadas de partidas anónimas,
para así obtener un agente que por imitación aprendiera las estrategias básicas del juego.
A partir de ahí se inicia un proceso de aprendizaje reforzado donde este agente irá compitiendo
contra otras versiones en una especie de liga de agentes artificiales, haciendo así que
emerjan nuevas estrategias en cada competición que superen a las estrategias anteriores.
Tras un periodo de 14 días utilizando 16 TPUs por agente, cada uno de estos experimentó
un entrenamiento de hasta 200 años de partidas de StarCraft 2.
¡Wow!
Con el sistema entrenado se enfrentó a AlphaStar con el jugador profesional T.L.O., quien
fue derrotado 5-0 contra la inteligencia artificial, y posterior a esto contra Mana, uno de los
15 mejores jugadores del mundo y quien esperaba un resultado favorable de 4-1, y acabó, por
supuesto, siendo vencido las cinco partidas.
Avances impresionantes que no solo establecen un nuevo hito, sino que por el camino además
desarrollan mejores técnicas que serán aplicadas a problemas de mayor trascendencia.
Acostumbrados a ver progresos impresionantes año tras año en el campo de la robótica,
ha sido este metenero cuando la empresa Hanson Robotics nos ha sorprendido con su última
innovación.
¿Una versión de su juguete...
¿Sofía?
¿Eh?
¿Pero quién ha metido esta noticia aquí?
¿En serio?
Volvamos a empezar.
Vale, esta sí.
Lo que estamos viendo en estas imágenes es un robot que ha aprendido a jugar al famoso
juego del Jenga, algo que aunque a priori no parece ser un logro tan avanzado, realmente
sí lo es al introducir una metodología multisensorial que no solo se apoya en la información visual
percibida por el robot, tal y como explican en el artículo publicado en Science Robotics
y firmado entre otros por Joshua Tenenbaum, los humanos, cuando nos enfrentamos a la resolución
de problemas, somos capaces de combinar diferentes estímulos que percibimos a través de nuestros
sentidos, entre los que destacan la vista y el tacto a la hora de resolver tareas que
requieran manipular objetos.
Sin embargo, es habitual que muchas de las soluciones con las que contamos hoy en día
principalmente se estén basando en los avances producidos en el campo de la visión por ordenador.
En este caso, la publicación propone un sistema capaz de aprender haciendo uso de no solo
la información visual percibida a través de sus cámaras, sino de también las percibidas
a través de un sensor de fuerza.
Este trabajo lo que hace es que el robot se entrene teniendo que aprender a relacionar
conjuntamente estas dos fuentes de información, construyendo así una representación de las
físicas asociadas al juego.
Esta forma de aprendizaje se asimila más con el proceso seguido por humanos, que acostumbramos
a resolver este problema siguiendo estrategias del tipo ¿se moverá este bloque?
En este caso, tomar esta alternativa permite al robot también poder aprender a resolver
esta tarea, requiriendo una menor cantidad de datos para la creación de dicho modelo
físico, algo que tendrá gran utilidad para la creación de brazos robóticos que requieran
de estresa a la hora de operar con piezas.
Si algo quedó claro tras ver el video de las mejores noticias del 2018, es que en el
campo del deep learning este fue el año del Natural Language Processing, una evolución
de este campo en la que muchos ven a ver como el avance más importante que se produjo en
este año.
Un avance que se apoya conceptualmente en una arquitectura presentada durante el año
2017 por Google, en su ya por todos conocido Paper, Attention y Soul Unit.
La propuesta de esta arquitectura son los Transformers, una arquitectura pensada para
sustituir a las habituales redes neuronales recurrentes que venían siendo utilizadas
para el análisis de secuencia de texto.
En aquel momento la introducción de esta nueva arquitectura permitió alcanzar nuevos
niveles de rendimiento en varias tareas y como ya hemos dicho ha sido la base para la
aparición de trabajos más avanzados como Vert.
Por eso ahora en enero es noticia la publicación de un nuevo trabajo por parte del equipo de
Google AI que evoluciona el concepto de los Transformers para presentar una nueva arquitectura
denominada Transformers XL.
El problema que soluciona esta arquitectura es que la versión del Transformer solo analizaba
segmentos de tamaño fijo de la secuencia, haciendo que una frase fuera dividida en función
de este tamaño prefijado y sin tener en cuenta que parte del contexto de la frase completa
se iba a perder.
En este caso añaden una arquitectura mejorada capaz de codificar y mantener el contexto
de una secuencia incluso entre diferentes segmentos, lo que hace que esta arquitectura
pueda mantener dependencias que puedan ser interesantes incluso entre palabras que se
encuentran muy distanciadas en un texto.
Esto permite a esta arquitectura obtener nuevos estados del arte en tareas del lenguaje natural
y además alcanzar un rendimiento de 1800 veces más rápido durante la fase de evaluación,
algo que sin duda se traducirá en mejores y más avanzados sistemas del procesamiento
del lenguaje natural.
Estaremos atentos a los nuevos avances.
Finalmente y antes de acabar, quiero hacer una breve mención a dos ejemplos que durante
este mes de enero han demostrado nuevamente el potencial de los algoritmos de Machine
Learning y más concretamente de los Deepfakes.
El primero, que es el que más viral se ha vuelto, nos muestra una manipulación de una
rueda de prensa de Jennifer Lawrence, a la que se le ha sustituido la cara por la del
actor Steve Buscemi.
En este caso, este ejemplo que nos muestra un resultado bastante realista donde la gesticulación
del rostro coincide muy bien con el vídeo original, nos lleva rápidamente a pensar
en aquellas situaciones en las que se puedan realizar manipulaciones no autorizadas y cómo
esta tecnología se podría mal utilizar.
En esa línea, este vídeo ha reabierto bastante debate durante este mes de enero.
Por el contrario, también en enero se mostró un uso alternativo de esta tecnología, que
es igualmente impresionante, siendo utilizada en este caso para revivir a la figura de Dalí
de una manera fidedigna, imitando su rostro mediante el uso de Deepfakes.
Ambos casos impresionantes.
Y ahora sí, si tú formas parte de ese grupo de héroes que apoyan el contenido de este
canal a través de Patreon, este es tu momento.
Durante esta semana estará disponible en Patreon una encuesta en la que podrás elegir
a cuál de estos temas que hemos tratado hoy quieres que dedique un vídeo entero analizándolo
en profundidad, donde poder situar el tema dentro de un contexto y viendo en mayor profundidad
sus aspectos técnicos.
Reconozco que esta vez no va a ser tan sencillo porque cada uno de estos temas es muy interesante.
En cualquier caso, ya sabes que si quieres participar en esta votación o simplemente
apoyar el contenido de este canal, puedes acudir a Patreon y realizar una aportación.
Tienes el link en la descripción junto al resto de links de los artículos de hoy.
Por mi parte nada más, recuerda valorar positivamente este vídeo si te ha gustado y de compartirlo
en redes sociales.
Y ya sabes, si quieres más inteligencia artificial, la tendrás aquí, en.csv.