Las CRÍTICAS tras la victoria de AlphaStar

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

results.

Mention graph

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Hola chicos y chicas, bienvenidos a DOTCSV, tu canal sobre inteligencia artificial, en
el que hoy estamos de nuevo en un entorno diferente, estoy en Canarias, y recuerdan
dije que iba a estar todo este mes de mayo trabajando como profesor del curso de Machine
Learning que estoy impartiendo aquí en Canarias, no estoy por tanto en Madrid, no estoy en
mi entorno de grabación habitual, y además también he tenido un problema con la cámara,
con la base de carga de las baterías, que es lo que me ha obligado pues a retrasarme
un poco con la subida de vídeos al canal, porque no sabía que hacer realmente si grabar
con el móvil o no, y finalmente me he decidido porque bueno, al fin y al cabo aquí lo importante
es de lo que vayamos a hablar y no tanto como sea el formato, que también es importante
a veces, pero no tanto.
Y Carlos, ¿de qué vamos a hablar hoy? ¿cuál es ese tema tan interesante que vamos a comentar?
Pues de nuevo vamos a hablar de Alphastar, si recuerdan hace un mes subí un vídeo de
unos 35 minutos haciendo un análisis técnico del funcionamiento de Alphastar, la inteligencia
artificial desarrollada por DeepMind que era capaz de vencer al juego del StarCraft II
a jugadores profesionales, en ese vídeo pues hicimos lo que digo, un análisis muy pormenorizado
de su funcionamiento, bastante técnico en algunos aspectos, y que yo creo que decranó
todos los detalles que eran interesantes de cómo funcionaba, entonces si eso lo hicimos
en aquel vídeo, ¿qué vamos a comentar hoy?
La idea del vídeo de hoy es acercarnos de manera crítica al funcionamiento de Alphastar
para evaluar si realmente su funcionamiento justifica todos aquellos titulares que hemos
visto sobre esta IA.
Alrededor de este logro también han surgido unas cuantas críticas que yo creo que son
interesantes de estudiar y entender, sobre todo para ver cómo avanza la capacidad crítica
de la comunidad de Machine Learning.
Hoy nos vamos a centrar poco a poco en ir comentando las diferentes críticas que se
han ido alzando frente al funcionamiento de este sistema, y al final les daré un poco
lo que es mi opinión personal que yo creo que también les interesa.
La idea de todo esto es que después de que vean este vídeo, dejen abajo en los comentarios
cuál es vuestra opinión sobre qué tan correcta son estas críticas, y bueno, pues
ver un poco así entre todos que evaluación podemos sacar del sistema de Alphastar.
Así que presta atención porque vamos a empezar hablando del sistema de entrada y de salida
de datos de Alphastar.
Si recuerdan en el vídeo anterior detallamos bastante bien lo que era la arquitectura
del Alphastar, el cómo procesaba la partida de StarCraft desde que la veía en el mapa
hasta que generaba el vector de salida en el que especificaba qué acción iba a tomar.
Este procesamiento funcionaba de la siguiente manera, teníamos una serie de redes convolucionales
que analizaban el minimapa, conjuntamente también teníamos una serie de Feedforward Networks
que iban a analizar los datos de la economía del jugador, y también teníamos una serie
de Transformers que analizaba toda la información sobre las unidades desplegadas en la partida.
Toda esta información se procesaba por una red LSTM que actuaba como el núcleo de procesamiento
de todo este sistema, y luego un conjunto de Pointer Networks eran las encargadas de
generar el vector de salida que iba a especificar qué acción se iba a tomar.
Todo este procesamiento tiene bastante sentido, es bastante impactante como han combinado
tantas tecnologías diferentes para hacer funcionar esta arquitectura, pero nos falta
una cosa por analizar, y esto es la capa de procesamiento del input y la capa de procesamiento
del output.
Vamos a centrarnos en esta última, porque claro, cuando Alphastar termina de hacer todo
el procesamiento y genera este vector de salida que te indica qué acción va a tomar, ¿cómo
se genera esa acción, es decir, cómo se ejecuta dentro del juego?
Porque claro, Alphastar realmente no tiene un ratón ni un teclado con el cual poder
ejecutar estas acciones, en realidad aquí lo que está haciendo DeepMind es hacer uso
de su interfaz, de su entorno de experimentación de StarCraft conocido como PySC2.
Este es un entorno que te permite hacer una llamada a una API de diferentes funciones
que se van a traducir en acciones dentro del juego.
Es decir, si Alphastar decide mover una serie de unidades a una zona determinada del mapa,
no va a mover el ratón, no va a mover el teclado, sino que lo que va a hacer es llamar
una función que sea, no sé, units.move y le va a pasar una serie de parámetros que
hagan que esta acción se materialice.
Y claro, esto realmente visto por algunas personas como una diferencia, una desventaja
entre la forma de actuar de Alphastar con respecto a la de un humano.
Porque yo cuando ya he terminado de analizar todo lo que está pasando en la partida y
he tomado una decisión de lo que quiero hacer, esa decisión la tengo metida en mi cabeza,
pero para materializarla tengo que pasar por una capa de procesamiento que haga que esas
acciones que yo tengo en mi cabeza se traduzcan en acciones en el juego.
Eso implica que yo tengo que saber qué acciones tomar con el ratón, qué acciones tengo que
tomar con el teclado, tengo que realizarlas y me tengo que enfrentar a lo mejor a una
serie de ineficiencias que yo puedo tener como sistema humano que van a hacer que no
siempre que clique con el ratón lo haga de manera acertada o que siempre que me vaya
moviendo por los diferentes menús del juego lo haga de manera acertada.
Tengo que conocer qué combinaciones de teclas pulsar, tengo que conocer qué tipo de acciones
con el ratón hacer para ejecutarlo de manera óptima, es decir, no es lo mismo, no es algo
instantáneo que según yo lo pienso pueda hacer una llamada a una función del juego
y que se ejecute.
Una diferencia que es cierto que puede ser una ventaja favorable para el sistema de Alphastar.
Frente a esto hay gente que ha propuesto generar algún tipo de modelo probabilístico que
emule la forma, la eficacia que tiene un ser humano a la hora de manejar un puntero
en pantalla.
Es decir, que en ocasiones cuando Alphastar quiere decir mover una unidad a esta zona
del mapa, pues que a veces lo haga bien y otras veces lo haga mal en función de la
probabilidad asignada de estudiar el comportamiento de algunas personas.
Esto me parece interesante, pero más interesante aún me parece una propuesta que intenta llevar
esto más allá.
Yo no sé si conocerán que a la hora de diseñar interfaces de usuario, pues existe un campo
teórico en el campo del Human-Computer Interaction, Interacción Humano-Máquina, que estudia en
base a leyes empíricas cómo es el funcionamiento de nuestras interacciones con el ordenador.
Por ejemplo, existe un tipo de ley que se conoce como la ley de Fitts, que básicamente
nos indica que el tiempo que tú vas a invertir dentro de una interfaz a la hora de mover
un puntero hacia un objetivo, va a ser directamente proporcional a la distancia entre el puntero
y el objetivo, pero también inversamente proporcional al tamaño de dicho objetivo.
O por ejemplo la ley de Akotsai, que nos indica que cuando tú tienes que mover un puntero
por una zona acotada, como podría ser un menú desplegable, el tiempo que vas a invertir
en ese proceso es directamente proporcional a la longitud de dicha zona acotada, pero
inversamente proporcional al ancho de ese espacio.
Son un conjunto de leyes empíricas que se demuestran que son realmente así cuando lo
evalúas en diferentes usuarios.
Sería mediante la codificación de estas interacciones y estas reglas empíricas con
las que conseguiríamos minimizar la diferencia que existe entre Alphastar y un jugador humano
y donde nos podríamos evitar situaciones en las que Alphastar pueda ejecutar una acción
en una zona del mapa y luego otra acción de manera instantánea sin tener que gastar
tiempo en mover por ejemplo un puntero por pantalla.
De momento esto no es posible porque Alphastar funciona solamente haciendo llamadas a una
API, es decir, no hay ningún puntero en pantalla, no hay ninguna forma de interacción humano
o máquina que podamos por ejemplo codificar con Alphastar.
En este caso yo creo que esta ventaja que surge básicamente porque Alphastar tiene la capacidad
de lanzar sus acciones directamente desde la API, surge por una limitación técnica
de este sistema que requiere de hacer uso de la API para que así pueda ser más ágil
el proceso de simulación.
Recordemos que Alphastar, para su entrenamiento, requiere poder ejecutar las partidas de Alphastar
de manera mucho más rápida, que es lo que te permite básicamente que una gente durante
una semana pueda experimentar 200 años de entrenamiento de partidas de StarCraft.
Si pusiéramos estas restricciones a la hora de interactuar con el sistema, seguramente
este sistema computacional se volvería mucho más complejo y no nos permitiría hacer de
manera tan ágil estas simulaciones.
Pero ojo, porque aquí estamos hablando de cómo Alphastar interactúa con su salida,
es decir, una vez ha generado una acción, cómo la ejecuta.
Pero más interesante es centrarnos en ver cómo interactúa con su entrada, es decir,
cómo observa Alphastar el juego, cómo él recibe los datos de entrada y cómo se diferencia
esto de lo que experimenta un jugador humano.
Si recuerdas, Alphastar utilizaba las redes convolucionales para analizar el minimapa y
al mismo tiempo también recibía un suministro de datos en crudo con el listado de todas
las unidades que estaban desplegadas en la partida.
Esto significa que de manera instantánea, Alphastar tiene la capacidad de saber todos
los atributos y todas las propiedades de todas las unidades que estén puestas en el mapa,
excepto aquellas que estén ocultas por la niebla de guerra.
Pero claro, esto de nuevo supone una ventaja, porque claro, la interacción que debería
realizar un usuario normal en esta situación, si por ejemplo quisiera saber cuáles son
los atributos asociados con una unidad localizada en la esquina superior derecha del mapa, será
la de coger su puntero, ir al minimapa y localizar la cámara del juego en esa región.
Con eso de repente en toda su partida aparecerá la región asociada a donde ha localizado
la cámara y podrá con el subratón clicar sobre la unidad y obtener los atributos que
sean necesarios.
Si te das cuenta, hay de nuevo una capa de una secuencia de acciones, una capa de input
que el usuario tiene que realizar y que en este caso Alphastar está omitiendo, y que
surge nuevamente de la necesidad de limitar computacionalmente el entorno de ejecución
para que la fase de entrenamiento sea posible.
Esto no es algo que DeepMind realmente haya ocultado, sobre algunos de estos elementos
incluso realizaron experimentos para intentar minimizar esa diferencia y de uno de ellos
me quiero centrar a hablar ahora, de hecho ya lo hemos mencionado anteriormente, y es
el sistema de cámaras.
Porque lo hemos mencionado antes, realmente Alphastar cuando quiere adquirir información
sobre lo que está ocurriendo en la partida, no tiene la necesidad de mover su cámara
hacia una región determinada de la cual tiene que obtener información, Alphastar en todo
momento sabe lo que está ocurriendo con todas las unidades en toda la zona del mapa.
De la misma manera, cuando Alphastar quiere ejecutar una acción, no requiere de mover
la cámara hacia esa región donde quiere ejecutar dicha acción, simplemente lo que
tiene que hacer es observar todo el mapa y donde se entre su foco de atención será
ahí donde se ejecute dicha acción.
Claro esto hace que Alphastar realmente sea omnipresente y tenga la capacidad de ejecutar
acciones, por ejemplo, de defensa contra un enemigo en el centro del mapa, al mismo tiempo
que está ejecutando acciones con sus unidades para construir más recursos, para obtener
más recursos o construir más unidades.
Todo esto sin sacrificar ni un milisegundo teniendo que mover su cámara a diferentes
zonas del mapa.
Si recuerdan, esto es algo que ya mencionamos en el video anterior, y algo que DeepMind
justificaba diciendo que cuando ellos analizaban donde Alphastar estaba situando su foco de
atención, podían ver que los cambios de contexto que realizaba, es decir, cambiar
su atención de una zona del mapa a otra zona del mapa, se mantenía dentro de unas
cifras de unos ratios similares a los cambios de región, los cambios de contexto que realizaba
un jugador humano moviendo su cámara.
Es decir, que aunque Alphastar tiene la capacidad técnica de poder ser omnipresente, no estaba
abusando de esta medida.
Claro, en teoría parece que no, que Alphastar no se está beneficiando de este sistema de
no cámara omnipresente.
Pero y en la práctica, a mí me gustaría ver a Alphastar implementando un sistema de
cámara más semejante al de un jugador humano y que lo entrenaran de esa manera, y comprobar
así con una partida contra un humano, pues si de repente el tener que gestionar la cámara,
lo que se conoce como la economía de la atención, pues realmente le aporta una ventaja competitiva
o no le aporta una ventaja competitiva.
Sería algo interesante de probar, ¿verdad?
Pues por suerte, DeepMind lo ha probado.
Es exactamente este experimento el que realizó DeepMind, para comprobar si una versión modificada
de Alphastar que sí implementara un sistema de cámara donde solamente podía realizar
acciones y obtener información de aquella región donde localizaba la cámara, pues
podía aportarle una ventaja o no.
Esta versión modificada de Alphastar se metió dentro de esta liga de aprendizaje reforzado
que vimos en el vídeo anterior, y lo que se comprobó es que si bien el rendimiento
de Alphastar se situaba por debajo del de un jugador de Alphastar no modificado, el
que no tiene el sistema de cámara, a la larga, cuando terminaba su entrenamiento, su rendimiento
teórico era más o menos similar.
Vale, pero y en la práctica, ¿qué pasa?
¿Qué pasa cuando enfrentamos a esta versión modificada contra un jugador humano?
Si recuerdan, para evaluar el rendimiento de Alphastar, durante el mes de diciembre
de 2018 se realizaron una serie de competiciones contra jugadores profesionales.
Una versión de Alphastar entrenada durante 7 días batalló contra Teleo, y otra versión
entrenada durante 14 días batalló contra el jugador profesional Mana.
De las 5 y 5 partidas que se realizaron, 10 en total, Alphastar ganó todas las partidas.
El resultado de estas partidas las conocimos en enero, durante un evento que se retransmitió
a través de redes, y fue en ese evento donde también se realizó una última partida,
la partida número 11.
En esta partida, la número 11, Mana tuvo la oportunidad de enfrentarse nuevamente
contra Alphastar, pero en este caso no era la misma versión con la que se había enfrentado
el pasado mes de diciembre, sino que en este caso era la versión modificada que implementaba
el sistema de cámaras del que hemos hablado.
¿Cuál fue el resultado?
Por primera vez, un jugador humano venció a Alphastar.
Y claro, esto es muy interesante, es decir, el hecho de haber implementado este sistema
de cámaras no es el único factor que puede afectar a la derrota de Alphastar.
Por ejemplo, tenemos que Mana ha podido tener tiempo para reflexionar y aprender de sus partidas
anteriores para así poder entender cómo derrotar mejor a su enemigo.
O por ejemplo que la versión que se utilizó en este caso era una versión entrenada durante
solamente 7 días en comparación con las partidas anteriores que era una versión entrenada
durante 14 días.
También tenemos el hecho de que solo se jugó una única partida y no 5 partidas como en
los casos anteriores, donde a lo mejor sí se podía haber comprobado que esta tendencia
se repetía o a lo mejor fue una casualidad de una única partida.
La cosa es que en cualquiera de estos casos, el titular con el que nos quedamos es que
cuando se implementó el sistema de cámaras, Alphastar perdió.
Y esto es una, yo creo, una espinita que se le ha quedado clavada a DeepMind, que no tengo
dudas de que estarán trabajando de manera interna en intentar solucionar este problema.
Que estén buscando alguna versión modificada de Alphastar que minimice esta diferencia entre
el input y el output, la forma de interactuar comparada con la de un humano, y que sea robusta
a vencer en competiciones contra jugadores expertos.
Desde mi punto de vista es en esta diferencia perceptual que tiene Alphastar con respecto
a un jugador humano lo que más me ha llamado la atención en toda esta implementación.
Sin embargo, la mayor parte de críticas que ha recibido Alphastar no se han centrado en
esto, sino que se han centrado en una cosa que posiblemente si eres jugador profesional
de la StarCraft te sonará.
Toca hablar del APM.
Mira a este chaval.
Mira que velocidad, que manera de concatenar acciones, que destreza, que manera tan elegante
de peinarse también el flequillo.
Bueno, eso no, o si también, pero fíjate sobre todo en la velocidad a la que ejecuta
las acciones.
Rápido, ¿verdad?
Pero de la cultura de los juegos en tiempo real, y por supuesto dentro de StarCraft,
ser capaz de concatenar múltiples acciones en un corto periodo de tiempo es una ventaja
competitiva que define cuál es la destreza del jugador.
Esto es algo que es matizable, que hay muchas discusiones en torno a esto, pero sí es cierto
que por la dinámica de este tipo de juegos el ser capaz de ejecutar múltiples acciones,
ya sean certeras o no, pues sí te va a dar esta ventaja competitiva frente a un oponente
que sea más lento.
Esto sobre todo en aquellas situaciones donde tengas que operar con estrategias de microgestión,
que recordemos es la habilidad de mover tus unidades en batallas, en defensa, en saber
controlar a tus unidades, ¿vale?
Esto combinado con una buena estrategia de macro, son los dos ingredientes necesarios
para poder triunfar frente a un oponente en una partida de StarCraft, por ejemplo.
Este indicador de cuántas acciones puede realizar un jugador durante un corto periodo
de tiempo se mide con lo que se conoce como APM, o en español, acciones por minuto.
Y claro, cuando estamos frente a AlphaStar, que es un sistema computacional con una capacidad
escalable de crecer su eficiencia, la pregunta sería ¿cuál debería de ser su APM?
De manera cualitativa, esta pregunta tiene una fácil respuesta, y es que este APM debería
estar limitado, puesto que no queremos que sea capaz de vencer a un jugador humano por
tener unas capacidades técnicas superiores.
Lo que queremos evaluar es su capacidad de desarrollar estrategias más inteligentes.
Esto es igual que no es impresionante ver como una calculadora resuelve cálculos matemáticos
más rápido que un humano, o que un ordenador pueda almacenar más datos en su memoria que
una persona humana.
Es importante limitar estas superioridades técnicas, porque así lo que conseguimos
es que por esa limitación, emerjan aquellas estrategias verdaderamente inteligentes que
en este caso queremos evaluar.
Vale, comprensible, pero entonces ¿qué APM desarrolla AlphaStar?
¿Cuántas acciones por minuto puede ejecutar este sistema?
Pues veamos.
Según una respuesta del propio investigador Oriol Viñals en Reddit, las acciones por
minuto de AlphaStar están limitadas a 600 APMs en periodos de 5 segundos, 400 APMs
en periodos de 15 segundos, 320 en periodos de 30 segundos y 300 en periodos de 60 segundos.
Entonces aquellas acciones por encima de estos umbrales son automáticamente descartadas.
Según la compañía, estos umbrales se establecen mirando las estadísticas de jugadores humanos
reales.
De hecho podemos ver esta gráfica de aquí, donde las distribuciones del APM de los jugadores
de Mana y Teleo se sitúan por encima de la distribución de AlphaStar.
Entonces parece que todo correcto, ¿verdad?
Pues no, porque aquí lo importante no es mirar la media de las distribuciones del APM,
y lo verdaderamente importante es mirar la longitud de las colas de estas distribuciones.
Fíjate por ejemplo como la cola de la distribución de AlphaStar se prolonga hasta llegar a los
1500 APMs, indicando que en momentos puntuales de la partida, AlphaStar llega a estar a un
rendimiento de 1500 acciones por minuto.
Y esta cifra de 1500 acciones por minuto es verdaderamente sorprendente si las comparamos
con las capacidades de un jugador de StarCraft profesional, cuyo umbral de acciones se situaría
entre los 500 y 600 APMs.
Claro, viendo esto alguno me preguntará, pero Carlos, esto que me estás contando no
cuadra con lo que yo estoy viendo en esta gráfica de aquí, donde por ejemplo el jugador
Teleo tiene una cola de distribución que es superior a la que alcanza AlphaStar, llegando
hasta los 2000 APMs.
¿Qué pasa aquí?
Bueno, pues esto es un asunto que también se le ha criticado a la publicación de DeepMind
en su blog, porque al adjuntar esta gráfica estaban confundiendo un poco a la gente, puesto
que la gráfica, la distribución del APM de Teleo en este caso está bastante desvirtuada
por una cosa que se conoce en el juego de StarCraft como RapidFire.
El RapidFire es un truco que te permite controlar a múltiples unidades y realizar múltiples
acciones simplemente haciendo clic y moviendo el ratón por tu pantalla.
Esto hace que se registre un número de acciones por minuto desvirtuado, virtualmente exagerado,
y que es lo que aparentemente parece que ha hecho Teleo durante su partida.
Por eso se ve que esta distribución tiene una cola superior a la de AlphaStar.
Claro, a la hora de comparar APMs, pues esto debería de obviarse y la distribución de
Teleo realmente no debería demostrarse en este caso.
Si lo viéramos de manera actualizada, quitando la distribución de Teleo, pues veríamos
que la cosa cambia sustancialmente, siendo la distribución de AlphaStar mucho más larga
que la del jugador humano, Mana.
Por las críticas recibidas por mostrar esta gráfica, PoeticMind ha actualizado su blog,
haciendo una clarificación de que esta gráfica muestra acciones con RapidFire por la parte
de Teleo.
Y bueno, ¿qué significa todo esto?
¿Qué significa que AlphaStar de repente, de manera puntual, en ciertos momentos de
la partida, puede llegar a 1500 APMs?
Pues básicamente esto significa que AlphaStar tiene la capacidad de ponerse en modo Saiyan
y ejecutar acciones a un ritmo sobrehumano, algo que en ciertas ocasiones, como defenderse
a un ataque o intentar construir más unidades por tiempo, pues le da una ventaja competitiva
frente a su oponente.
Yo no soy experto de StarCraft 2 como para poder hacer una lectura en profundidad de
las partidas, de las jugadas que se desarrollan en la partida y entender a un nivel profesional
lo que está sucediendo, pero si me dejo guiar por las diferentes opiniones de jugadores
expertos que han analizado estas partidas, pues parece que todos coinciden en que esta
capacidad sobrehumana de poder ejecutar múltiples acciones es lo que le ha dado la ventaja a
AlphaStar en estas victorias.
Sobre esto les dejaré abajo en la parte de descripción una serie de artículos donde
pues se analiza en más profundidad todo el tema del APM y al mismo tiempo también se
analizan las partidas que se han realizado.
Con esto, aparentemente, lo que tenemos es que AlphaStar es un sistema diseñado para
poder ejecutar acciones de manera infalible, sin tener limitaciones en el input que recibe,
pudiendo mirar a todo el mapa gracias al sistema de cámaras que hemos comentado, y ejecutando
acciones también en cualquier lugar del mapa, sin las limitaciones de tener que mover un
puntero o utilizar un teclado.
Todo esto además le sumamos a la cuestión del APM, donde puedes tener momentos en los
que ejecutas acciones a un ritmo sobrehumano, y con lo que nos quedamos es como si fuera
un sistema con un pack de ventajas que indudablemente te va a dar esa ventaja competitiva frente
a un jugador humano.
Todas estas son las críticas que se han arrojado sobre AlphaStar y que, desde mi punto de vista,
están bastante bien fundamentadas.
Además yo añadiría que todo este sistema realmente no está pensado para ganar a todas
las versiones posibles que se puedan dar dentro del juego de StarCraft.
Recordemos que AlphaStar solamente está diseñado para participar en partidas de protos vs protos,
que es un tipo de raza dentro del juego, y también lo han entrenado para jugar solamente
en un solo tipo de mapa, es decir, que solamente está entrenado para un subset, un subconjunto
de lo que sería la totalidad del juego.
No tengo dudas de que realmente ellos podrían entrenar diferentes versiones para diferentes
mapas y diferentes razas, pero me gustaría ver una versión que generalice todo eso y
que sea robusta para jugar en todos estos diferentes entornos dentro del juego.
Por tanto, mi opinión personal es que en un futuro yo creo que sí va a ser necesario
ver una versión modificada de AlphaStar donde se solucionen todas estas diferencias que existen
entre la experiencia de juego de un jugador humano y la experiencia de juego que tiene
AlphaStar.
Pues que a lo mejor presenten de la misma manera que sucedió con AlphaGo y su sistema
AlphaGo Zero, y que realmente no necesite de esa fase de aprendizaje supervisado donde
tiene que analizar partidas de jugadas humanas, sino que realmente todo su conocimiento,
todas las estrategias emerjan desde cero a partir del desarrollo de autopartidas contra
sí mismo.
Será muy interesante ver eso.
Pero ojo porque mi opinión no acaba aquí, no quiero que me malinterpreten porque verdaderamente
pienso que AlphaStar es un diseño impresionante y es realmente una hazaña dentro del campo
del deep learning.
Es bastante impresionante ver una obra de ingeniería en la que se junten tantas piezas
tan complejas como pueden ser todas las arquitecturas que internamente funcionan dentro de AlphaStar,
redes convulsionales, transformers, LSTM, y hacerlas funcionar de manera conjunta para
ese objetivo común que es aprender a jugar el StarCraft, es decir, no olvidemos lo complejo
de este problema, y no solo aprender, sino llegar hasta un nivel equiparable al de un
jugador profesional.
Una hazaña bastante impresionante.
De hecho el objetivo de este vídeo no es criticar por criticar a AlphaStar ni que me
haya empeñado en que este sistema tiene que ser comentado durante una hora, es decir,
es cierto que este tema se votó por parte de los patreons, por eso lo comentamos, pero
yo creo que ya fue suficiente ese vídeo de 35 minutos de análisis técnico.
Si quería hacer este vídeo realmente es porque me interesa transmitir el mensaje de
que todos estos titulares que a nosotros nos llegan dentro del campo del machine learning,
es muy interesante evaluarlo de una manera crítica, no dejarnos solamente comprar por
la versión que nos puedan plantear en un blog de una publicación, sino que es muy
interesante ir a todos estos foros, donde realmente hay una comunidad bastante potente
y bastante ansiosa de intentar bajar al suelo estos avances y entender cada uno de los argumentos
que se proponen, ver si tienen razón, si no tienen razón, ser críticos.
Porque ya hemos visto como el campo del deep learning, el campo de la inteligencia artificial,
en el pasado se ha visto dañada por este exceso de hype y esta falta de autocontrol,
por eso es muy importante y es el mensaje que quiero transmitir en este vídeo.
Ya sabes que si quieres un análisis en profundidad de cualquier cosa que comentemos en el canal,
pues puedes aportar tu opinión a través de la cajita aquí abajo de los comentarios,
puedes darle a like si te ha gustado este tipo de análisis, este tipo de vídeos y
si quieres participar en las votaciones para elegir temas de futuros vídeos, puedes hacerlo
apoyando al canal financieramente en Patreon, igualmente si quieres apoyar el proyecto también
puedes irte a Patreon.
Nada más chicos, un saludo y nos vemos en el próximo vídeo, adiós.