This graph shows how many times the word ______ has been mentioned throughout the history of the program.
Este vídeo está patrocinado por la Universitat Politécnica de València.
Si avanzamos cronológicamente en la reciente historia del campo del deep learning,
quizás te impresione comprobar como todas las grandes conquistas que posiblemente tú
conozcas se enmarcan en un muy corto intervalo temporal de solo 10 años.
Sí, ya sé que muchos de estos avances se apoyan realmente en trabajos de décadas anteriores,
ya que, por ejemplo, el mismo concepto de red neuronal artificial, pues tiene una fecha de
nacimiento anterior a la mía y posiblemente a la tuya. Pero no me equivoco al decir que el
crecimiento exponencial que se ha vivido en la última década no tiene precedente alguno
en el campo de la inteligencia artificial, tratándose de una revolución tecnológica
que ya ha comenzado a redefinir nuestro mundo. Pero, como ya sabemos, en este canal hablar del
campo del deep learning común todo es ver la imagen desde muy lejos, en realidad en
función de las tareas que queramos resolver y los tipos de datos que analicemos, estaremos
moviéndonos entre diferentes campos de estudios como la robótica, la visión por ordenador o el
procesamiento del lenguaje natural, y cada campo progresa a su ritmo sumándose a esta revolución
a tiempos diferentes. Por ejemplo, el gran boom del campo de la visión por ordenador se produjo
en 2012, cuando AlexNet, un tipo de red neuronal convolucional pulverizó por completo al resto de
participantes en la no sencilla competición de clasificar imágenes sobre el dataset ImageNet. Fue
en ese momento donde se valoró realmente la importancia de los modelos basados en redes
neuronales para tareas basadas en imágenes. Y con esto la revolución de la percepción visual dio
comienzo. Y algo similar ha ocurrido en el campo de los modelos generativos. El boom comenzó en 2014
con el desarrollo de las redes generativas adversarias y desde ese momento, en un muy
corto plazo de tiempo, hemos vivido una evolución exponencial en los resultados que esta tecnología
puede ofrecer. La revolución de la generación artificial había comenzado. Y así, año tras año
y revolución tras revolución, cada área del campo del deep learning va encontrando ese conjunto
de técnicas, de avances, ese algoritmo que de repente hacen que podamos avanzar muy rápidamente
donde antes casi ni podíamos caminar. Siendo de repente capaces de resolver problemas que antes
creíamos irresolubles y dejándonos a todos con la boca abierta. Claro, siendo esto así, pues uno
se preguntaría ¿dónde se está produciendo la siguiente gran revolución? Bueno, a ver, la
respuesta es bastante obvia, está puesta en el título del vídeo. Pero antes de dejaros con el
titular fácil de oye sí mira esto es lo que está pasando, lo que quiero realmente es convenceros,
convenceros de que esta ola de transformación tecnológica es muy grande y que nos va a obligar
a replantearnos muchísimos aspectos de nuestro día a día. Como digo, esta ola es grande y realmente
ya está aquí. Y para darnos cuenta de esto voy a presentar un indicador que para mí es muy relevante,
y es que en los últimos meses me habéis hecho llegar muchísimas noticias por redes sociales que
realmente a mí me han impresionado. Noticias para las cuales a mí me hubiera encantado poder
haber dedicado un vídeo al completo, explicando pues todos los detalles técnicos y todos los
efectos colaterales que todas estas tecnologías pueden traer. Pero es que en el momento en el
que me sentaba para documentarme y escribir el guión, ya estaba saliendo otra cosa nueva.
Mayo 2020, se publica GPT-3. La evolución del famoso modelo generador de texto GPT-2,
del que ya hemos hablado en varias ocasiones en el canal y que saltó a la fama hace ya más de un
año no sólo por ser capaz de generar párrafos y párrafos de texto con contenido creíble,
sino también por la polémica decisión de sus creadores de no hacer público temporalmente al
modelo para evitar así su uso fraudulento en internet en la creación de texto engañoso a
escala. Si en aquel momento el modelo GPT-2 nos abrumaba al superar en el número de parámetros
a su predecesor en mate 10 veces, contando con 1500 millones de parámetros, ahora GPT-3 consigue
aumentar esta cifra desde los 1500 millones de parámetros hasta los 175 mil millones. Un
modelo más de 100 veces más grande. Dejando aparte el debate sobre los crecientes tamaños
de los modelos, en lo práctico esto por un lado se traduce en algo obvio, y es que este modelo
es capaz de generar texto realista, muy realista, respetando la gramática, la coherencia párrafo
tras párrafo y podiendo redactar por ejemplo artículos artificiales sobre cualquier tema
que le demos como input en cuestión de segundos. Pero por otro lado, esto incorpora algo incluso
mucho más interesante, algo que ya se comenzó a evidenciar con el modelo GPT-2 y que podría
ser la clave hacia nuevos paradigmas de aprendizaje. En concreto estoy hablando de las capacidades que
estos grandes modelos pre-entrenados presentan a la hora de resolver incluso tareas para las
cuales nunca han sido entrenados. Es decir, para que lo entiendas, estos grandes modelos,
la única tarea que realmente tienen que resolver y para las cuales se les entrenan, es para predecir
cuál es la siguiente palabra a partir de toda la secuencia de palabras anteriores. Es un modelo
del lenguaje. Y claro, en estos casos lo que se ha comprobado es que si tú a estos modelos le
presentas una secuencia de sumas resueltas y una incompleta y le pidas al modelo por favor que te
termine de completar la frase, lo que sucede es que el modelo te resuelve la suma. De repente,
sabes sumar. O por ejemplo, reordenarte las letras de una palabra. O por ejemplo, traducirte texto.
Y a ver, recordemos, en ningún momento le estamos entrenando para que aprenda a resolver estas
tareas. Es decir, el modelo está aprendiendo o meta aprendiendo a través del lenguaje. Y puede
que de manera muy correcta tú estés pensando que la solución a todos estos problemas realmente está
autocontenida en el propio corpus de entrenamiento de estos modelos. Pero quizás por ello este es
uno de los ejemplos que más me ha sorprendido en este modelo GPT-3. Y es el caso en el que se
le muestra a este modelo ya pre-entrenado una definición de una palabra completamente inventada.
Por ejemplo, un wadpu es un animal que te puedes encontrar en la sabana africana. Y luego tú le
puedes pedir al modelo que te genera una frase utilizando dicha palabra. Y como es de esperar, o
bueno, no esperar, pero como realmente pasa, que el modelo puede generarte una frase donde utiliza
correctamente a partir de la definición que nosotros le hemos dado dicha palabra inventada.
Una clara demostración de inteligencia que realmente nos abre un futuro hacia...
Eh? Ah, que tenemos otra noticia. Abril 2020. Facebook publica el paper,
Recetas para Construir un Chatbot de Dominio Abierto. Y con él publica a Blenderbot.
Un chatbot impresionante con el que podemos mantener conversaciones naturales de mucha más
calidad de la que nos tienen acostumbrados otros chatbots. Con mayor coherencia, menos racismo,
y sobre una gran variedad de temas. Y bueno, tiene sentido. Al final detrás de esto, de nuevo
estamos integrando un modelo de procesamiento del lenguaje natural similares a GPT-3 que acabamos
de ver. Capacete generar frases realistas condicionadas a toda la conversación previa realizada.
Hablamos de la generación de diálogos naturales en función del ritmo que vaya llevando la
conversación. Y que por tanto nos aleja bastante del paradigma actual del chatbot. Donde la mayoría
de frases están prediseñadas y redactadas por humanos, almacenadas en una base de datos y donde
la inteligencia principalmente reside en saber elegir cuál es la frase o plantilla correcta que
mostrar al usuario en cada momento. Lo demostrado por Blender es de nuevo impresionante. Un chatbot
con el que puedes tener una conversación natural y que incluso te acepta como input una personalidad.
Es decir, que tú puedes coger este chatbot y decirle mira tú ahora vas a ser una persona que
pues le gusta mucho el deporte, le gusta mucho el gimnasio y estar fit. Pues a partir de ese momento,
fit como los modelos, bueno, a partir de ese momento el chatbot va a ser capaz de mantener
una conversación contigo ajustándose a dicha personalidad, diciéndote me encanta el gimnasio,
me encanta comer proteínas, me encanta, es brutal. Y en este momento quiero que realmente penséis en
todas las implicaciones, en lo revolucionario que esta tecnología puede ser. En, pensemos medicina,
educación, comunicación, informática. Preparados porque viene algo bastante bueno. Y es que si
estamos hablando de modelos capaces de generar texto e incluso saber cómo entenderlo y traducirlo
a otros idiomas o de poder mantener un diálogo con el propio modelo y pedirle cosas que nos impide
pedirle, por ejemplo, que nos traduzca determinadas tareas a código. Junio 2020, esta misma semana,
OpenAI ha presentado un prototipo de consola inteligente donde un usuario pues puede
directamente utilizando lenguaje natural describir qué quiere realmente que la consola haga. Pues
por ejemplo, oye quiero que te vayas a GitHub y te descargues el repositorio de OpenAI y lo
instales. Y en ese momento, a partir de entender ese lenguaje natural, la consola te podrá proponer
exactamente cuáles son los comandos que tienes que ejecutar. Una herramienta que de nuevo demuestra
el potencial que estos sistemas tienen a la hora de minimizar esta barrera entre la comunicación
humano-máquina para poder hacerla más natural y más semántica, eliminando casi por completo la
barrera de entrada para usuarios menos experimentados. Pero claro, ¿por qué quedarnos solo con la consola?
¿Puede generar código? Pues que programes. Esto sería tan sencillo como coger a estos
modelos preentrenados y reentrenarlos sobre un gran repositorio de código que podríamos
encontrar por ejemplo en GitHub. Tras hacer esto pues podremos comprobar cómo obtendremos
una potentísima herramienta en la cual podremos describir en los comentarios del código exactamente
lo que queremos que se implemente. Pues por ejemplo, para un texto que te pase como entrada,
quiero que me compruebes si es o no es palíndromo. Y pum, el sistema te genera automáticamente el
código. Y claro, pues seguramente aquí también hay gente que de manera muy correcta me dirá oye,
este ejemplo es muy sencillo, seguramente esté contenido los datos de entrenamiento. Vamos a
ver algo más complejo. Ok, vale, pues por ejemplo que me diga si el texto es palíndromo, pero si
supera una longitud que yo le puedo especificar como argumento de entrada, por ejemplo que sea
mayor a 7. Y de nuevo, pum, te lo genera. Y ojo, porque ya en este caso la cosa es más dinámica.
Aquí el modelo sí está entendiendo que el 7 es un argumento de entrada y entiende exactamente
cómo lo tiene que utilizar. ¿Quieres un ejemplo más complejo? Ya lo sabías. Por ejemplo,
cálculame un precio donde si el cliente tiene un nombre que sea palíndromo le aplicamos un descuento.
Estos casos en ocasiones pues no darán el resultado esperado, pero simplemente depurando
el propio comentario, especificándole mejor al modelo qué es lo que queremos hacer,
podemos llegar a la solución esperada. Y de nuevo, fijaros cómo en este caso el propio modelo es
capaz incluso de aprovecharse de los métodos que ha implementado anteriormente, como por ejemplo la
función palíndromo, para poder desarrollar su código. ¡Guau! A ver, ¿estamos pensando todos en
las repercusiones que esto puede tener en el campo de la informática? ¿Estamos pensando todos las
repercusiones que esto puede tener en cualquier campo? ¿Estamos pensando? O sea, y claro, si
gracias al Natural Language Processing podemos empezar a entender a los lenguajes de programación
como otro tipo de lenguaje natural más, pues no te has cabellado pensar que podamos aplicar sobre
ellos tareas que normalmente reservamos para el texto normal, por ejemplo hacer un resumen o cambiar
el estilo a algo más formal o por ejemplo traducirlo. Y cuando te quieres dar cuenta,
salta la noticia. ¡Boom! Facebook hace público un modelo capaz de aprender a traducir automáticamente
código escrito a Python, Java o C++ a otro de estos lenguajes, instantáneamente poder
portar el código de un lenguaje a otro manteniendo su funcionalidad. Y antes de que te dé tiempo de
leer el propio abstract del paper, salta otra noticia. ¡Boom! Microsoft despide a periodistas
para reemplazarlos con inteligencias artificiales en sus portales de Messenger y Microsoft News.
¿Os estáis dando cuenta del patrón que está surgiendo aquí? Efectivamente estamos entrando
en una nueva revolución y esa revolución ya ha comenzado. Es la revolución del lenguaje,
del NLP, del Natural Language Processing o en español del procesamiento del lenguaje natural.
Y yo no lo entiendo. No lo entiendo, realmente no entiendo cómo estos sistemas son capaces de
desarrollar este tipo de inteligencia. No entiendo cómo un modelo del lenguaje realmente está
aprendiendo a resolver otros problemas, cómo surge este meta aprendizaje. No sé realmente si saben
sumar o programar o si están memorizando todas las respuestas a todos estos problemas. Pero en
realidad tampoco sé cómo lo hago yo. Es decir, cuando yo estoy en una conversación y digo que 7
por 8 es igual a 56, yo en ningún momento me he parado a hacer ese cálculo, sino que simplemente
me acuerdo. ¿Es este lenguaje lo mismo que desarrollan estas máquinas? No lo sé, no lo entiendo,
pero quiero entenderlo. Y para entenderlo toca profundizar en la teoría. La buena noticia de
aquí es que todos estos grandes avances de los que estamos hablando, todos estos modelos GPT-3,
GPT-2, grandes modelos pre-entrenados, chatbots, trans compiladores, todas estas grandes tecnologías
realmente están basadas, todas tienen un factor común que son los transformers. Los transformers
son este avance que ha dado una nueva vida, un nuevo resurgir al campo del Natural Language
Processing y mi objetivo en este canal es que los entendáis. Estoy hablando de una miniserie al
puro estilo de CCW, como la serie de redes neuronales, pero donde iremos viendo pues que
son las redes neuronales recurrentes, mecanismos de atención, embeddings, trabajar textos como
vectores, todos los grandes avances del campo del Natural Language Processing, hasta culminar con
nuestros queridos transformers. Y el motivo de esta miniserie realmente es la tesis de este vídeo y
es que realmente creo que estamos entrando en una nueva revolución del lenguaje, una revolución
impulsada desde el campo del deep learning y que realmente nos va a permitir que en muy poquitos años
pues creo yo que veremos un gran evento al puro estilo AlphaGo donde una de estas empresas pues
se juegue en público el superar el test de Turing. Ya lo digo, yo creo que la próxima década esto va
a ocurrir y posiblemente ni siquiera nos sorprenda tanto porque ya estaremos viviendo en un mundo
rodeado de chatbots con los cuales podremos interactuar de forma más natural con todas las
máquinas. Este es un futuro fascinante porque como iremos viendo en esta miniserie el lenguaje no
solamente se basa en el texto sino que es algo que se abstrae a un nivel superior como por ejemplo hemos
visto con el código o como podría ocurrir también con la música. Y si es cierto que realmente esta
revolución del Natural Language Processing ya ha comenzado y te he convencido de ello pues tienes
que saber que aquí en.csu le vamos a prestar un poquito más de atención. Por cierto si estáis
motivados por esta miniserie temática hacedmelo saber a través de un buen me gusta aquí en el
vídeo vamos a hacer que este contador suba que es mi función de coste ideal y también pues podéis
apoyar financieramente este proyecto, este contenido que va a llegar al canal a través de Patreon.
También tenéis los enlaces aquí abajo en la cajita de descripción con el resto de papers y
cosas que hemos hablado hoy. Y ojo porque como muchos ya saben pues el proyecto.csu no se queda
solamente en YouTube sino que también se está expandiendo a Twitch que en futuros directos
pues por ejemplo leeremos el paper de GPT-3 para conocer todos los detalles que hay dentro de este
paper y realmente poder debatir sobre este anuncio. Hablaremos con investigadores dentro del campo del
Natural Language Processing o también jugaremos con Blender, el chatbot que hemos mencionado en
el vídeo de hoy pues lo intentaré preparar para poder interactuar con él y probarlo en directo.
Con esto me despido y seguiremos con más Natural Language Processing e Inteligencia Artificial aquí en.csu.