This graph shows how many times the word ______ has been mentioned throughout the history of the program.
Cuando parecía que 2022 no podía dar más de sí, llega OpenAI y publica ChatGPT,
un chatbot superpotente capaz de dialogar con un nivel de elocuencia y conocimientos
que es superior al de la mayoría de nosotros.
ChatGPT es, bueno, no lo voy a decir yo, que lo diga él.
Soy un modelo de lenguaje entrenado por OpenAI.
Mi función es responder preguntas y ayudar a la gente con sus consultas,
lo más precisamente y claramente posible.
Estoy programado para responder preguntas sobre una amplia variedad de temas,
pero mi conocimiento se limita a lo que se me ha enseñado a través de mis entrenamientos.
No tengo acceso a Internet,
por lo que no puedo buscar información adicional más allá de lo que ya sé.
¿En qué puedo ayudarte?
Y efectivamente te puede escribir un artículo en segundos,
o redactarte un poema sobre el descenso del gradiente,
o hacerte tu deber de programación y explicártelos tú escribiendo unas pocas frases.
Ok, suena bien.
Pero voy a ir más allá y voy a contar que ChatGPT representa una tecnología
que va a ser completamente disruptiva, que va a impactar en un montón de industrias
y que creo que la mayoría de vosotros no estáis ni siquiera visionando
cómo va a transformarlo todo.
Y sé que para algunos de vosotros,
estas últimas frases despiertan una sensación de que se está exagerando,
que se está sobredimensionando las capacidades de ChatGPT
y que se están vendiendo unas expectativas que nunca terminan por llegar.
Pero hoy mi objetivo es daros el contexto completo
para que entendáis sobre qué construyo yo mi visión de lo que está por venir.
Hoy vamos a hablar de Chatbots superpotentes,
de profesiones que se transformarán, de ordenadores que se manejan solos
y del momento en el que todo esto se convirtió
en una maldita película de ciencia ficción.
Va a parecer que me contradigo, pero escuchad bien.
ChatGPT no es la tecnología que lo cambiará todo.
Al igual que tampoco lo fue GPT-3
ni ninguna de las tecnologías que le antes se dieron.
No, a nivel individual no lo son.
Y quizás los que hartos de escuchar esta frase de
esta tecnología lo va a cambiar todo no se dan cuenta,
es que cuando hablamos del impacto que puede tener una tecnología como ChatGPT,
realmente lo que estamos analizando es la tendencia.
Ver dónde nos encontrábamos antes para entender qué se ha logrado ahora
y así poder prever dónde vamos a estar en el futuro.
Cuando veo a ChatGPT hoy,
no sólo veo el potencial que tiene esta herramienta ahora,
sino que me acuerdo cuando en 2020 os presenté a GPT-3
cómo teníamos que, para sacarle todo el rendimiento a esta herramienta,
crear un conjunto de prompts supercomplejos
si querías escribir un artículo periodístico, un poema o un resumen.
Tenías que ponerle un montón de ejemplos para que el sistema
entendiera qué tarea querías que realizara.
Y ahora en 2022 lo único que tienes que hacer es pedírselo
y el sistema lo hace.
Y significa eso que cuando en aquel momento en 2020 se dijo que
esa tecnología iba a suponer un cambio de paradigma brutal,
¿se estaba exagerando? Pues no.
Y es que sobre la tendencia, el salto cualitativo de lo que nos ofreció
GPT-3 respecto a lo que teníamos hasta entonces era enorme.
Algo que es un cambio de paradigma brutal,
porque estamos pasando de tener inteligencias artificiales,
modelos que aprenden específicamente una única tarea,
a directamente tener una tarea muy genérica
y nosotros tener que aprender a cómo interactuar con el modelo
para poder extraer este conocimiento.
Vale, ok, impresionante Carlos, pero entonces cuando en 2019
los pocos que estábais aquí en este canal
estábais flipadísimos con GPT-2 diciendo que esto lo cambiaba todo,
ahí sí estábais exagerando.
Pues tampoco, y es que por aquel entonces este era uno de los primeros ejemplos
que veíamos de una inteligencia artificial capaz de generar un texto realista,
parcialmente coherente, y que uno de cada muchos intentos
te daba ese efecto wow que a muchos de nosotros nos hizo ver su enorme potencial.
Claro, si este avance lo comparamos con chat GPT, pues se queda en poca cosa,
pero si lo comparamos con el contexto de aquel entonces,
donde lo mejor que teníamos antes de 2017 eran redes neuronales recurrentes
que a la hora de generar lenguajes se quedaban bloqueadas, bloqueadas, bloqueadas, bloqueadas,
repitiendo la misma frase todo el rato,
pues viendo dónde estábamos y dónde estamos ahora,
la tendencia empieza a quedar clara.
Sé que hablar de todo esto ahora es hacer arqueología del deep learning,
pero lo que quiero que os quede claro es
dónde estábamos hace cinco años y dónde estamos ahora.
Viendo todo este recorrido, creo que se hace evidente la tendencia que estamos siguiendo.
Y cuando me encuentro a detractores que lo que hacen es
coger la tecnología de deep learning que está de moda en cada momento,
buscarle fallos y utilizar estos fallos para criticar
toda la línea de investigación sobre la que se construye esa tecnología,
¿sabéis qué me gusta hacer? La tendencia.
La uso para retroceder en el tiempo y ver qué decían hace no muchos años
sobre tecnologías anteriores a las que critican ahora.
Por ejemplo, Gary Marcus es un reconocido divulgador
de las limitaciones de muchos de estos sistemas basados en deep learning.
Y en 2020 él argumentaba, cuando salió GPT-2,
el fracaso de toda esta línea de investigación
sobre la que se basan los modelos GPTs.
Según él, esta tecnología era incapaz de hacer una comprensión lectora adecuada,
no tenían la capacidad de razonar, lógicamente,
y todo esto lo argumentaba con un montón de ejemplos
donde se veía como GPT-2 fallaba en sus intentos.
Y claro, ¿qué creéis que pasa cuando cojo ahora todos estos ejemplos
que supuestamente representaban las limitaciones de toda esta tecnología
y las paso ahora por chat GPT?
Pues efectivamente, amigos y amigas, hemos sorteado el muro.
Y creo que está bien que haya gente que se dedique exclusivamente
a encontrar puntos débiles, a poner el foco en los fallos que estos sistemas pueden tener,
pero no para invalidar toda la línea de investigación
sobre la que se está construyendo esta tecnología,
sino para encontrar esos fallos que tendrán que ser resueltos en la siguiente iteración.
Y lo que la tendencia demuestra es que la mayoría de errores que se destacaron en el pasado
ya han quedado resueltos por los sistemas actuales.
Pero claro, he dicho mayoría de errores, que no todos,
y es que tenéis que entender que estos sistemas todavía se están enfrentando a un gran desafío.
Pregunta, ¿por qué creéis que tenemos desde hace años
sistemas como GPT-3 o ahora chat GPT,
y sin embargo, nuestros sistemas como Siri, Google Assistant o Alexa
todavía funcionan tan mal?
Lo siento, no lo sé.
Esta pregunta es importantísima,
porque nos va a dar una de las claves para entender
el éxito parcial de un sistema como chat GPT.
Veréis, Amazon, Google y cualquier gran compañía tecnológica
tiene la infraestructura y el know-how suficiente
para poder entrenar un sistema como el de OpenAI.
No olvidéis que, por ejemplo, a nivel interno,
Google cuenta con un modelo como Palm,
que es una versión mucho más avanzada de lo que OpenAI nos ofrece.
O también tiene una Lambda, que es este sistema conversacional
que podría ser más parecido a chat GPT
y que ya a comienzos de este año hizo convencer a uno de los ingenieros de Google
de que tenía conciencia.
O sea, hasta ese punto Google tiene tecnología suficiente
para poder eclipsar el trabajo de OpenAI.
Entonces, si tiene la tecnología,
¿por qué no la externalizan en algún tipo de servicio o producto
como un súper asistente para el hogar?
Pues el problema está en que estos enormes modelos del lenguaje son...
potentísimos.
Tan potentes que sí,
pueden actuar como ese chatbot supervitaminado
que todos esperamos tener algún día en nuestro hogar.
Pero también como, bueno, como un doctor que sin base médica
ni evidencia científica te da consejos
e incluso te puede invitar a quitarte la vida.
Estacías pueden adoptar la personalidad que tú le pidas
y van a intentar hacer lo mejor que puedan ese papel.
Pueden fingir ser Plutón y enseñarte datos supercuriosos
y que pueden ser reales sobre las maravillas del universo.
O pueden tomar el papel de un personaje histórico como Hitler
y justificarte el holocausto.
El problema de estos sistemas no es que no sean capaces,
sino que están sobrecapacitados.
Y muchos de estos escenarios que no se pueden limitar
a las grandes compañías les da pavor.
Pavor por poner en un producto comercial
a una inteligencia artificial que ellos no pueden atar en corto
para que haga aquello que se le ha pedido.
Y aquí es donde ChatGPT cobra importancia.
Y es que si lo habéis estado probando durante las últimas semanas
sabréis que este es un sistema supercapaz, superelocuente,
muy potente y una inteligencia artificial
creada por OpenAI que está aquí para asistirte y bla bla bla.
Seguramente estéis hartos de leer este mensaje
y la propia gente de OpenAI lo reconoce.
Saben que su sistema es un poco cansino con este mensajito,
pero dentro de lo que cabe que este mensaje esté ahí
es una muy buena noticia.
El motivo de por qué ChatGPT me parece una tecnología tan impresionante
es porque han avanzado enormemente en controlar al genio dentro de la botella,
consiguiendo que el asistente sea eso, un asistente.
Para el usuario medio que no intente forzar a la máquina
siempre estará hablando con la misma personalidad,
un amable asistente de inteligencia artificial
que te va a intentar ayudar en lo que pueda
y que cuando no sepa algo te lo va a indicar.
Y esto es brutal porque es un avance significativo
en una línea de investigación que OpenAI ha dado mucho peso en los últimos años
y que es el alignment o alineamiento de inteligencia artificial.
Esto es calibrar a estos potentísimos sistemas
para que hagan y se comporten exactamente como uno esperaría de ellos.
Y claro, ¿cómo consigues que estos modelos hagan lo que se espera de ellos?
Bueno, pues aquí toca hablar de la técnica RLHF
o Reinforcement Learning with Human Feedback,
una estrategia donde se combina aprendizaje por refuerzo
con datos supervisados humanos.
En concreto, entrenadores humanos
han dedicado tiempo a simular conversaciones ideales
de cómo querrían que responda la IA en cada caso.
Y con ella se ha reentrenado a GPT-3.
También los entrenadores humanos
han dedicado tiempo a leer y puntuar
el nivel de calidad de las respuestas de esta IA
para así utilizar estos datos para entrenar también a otro módulo
que aprende a auto evaluarse cuando está dando una respuesta buena o mala.
Con estas dos piezas, con un módulo capaz de generar texto
tal cual lo haría un humano.
Y con otro módulo capaz de auto evaluar la calidad de estos resultados
bajo los criterios que seguiría un humano,
pues ya podemos combinar ambas piezas
para generar un sistema de aprendizaje reforzado
que poco a poco vaya entrenándose y especializándose
para cada vez ir aumentando esta puntuación,
para cada vez ir mejorando la calidad de los resultados
bajo los criterios de un humano.
Y esto es súper interesante,
porque en muchas ocasiones la parte complicada de un sistema de este tipo
es la de formalizar, de cuantificar en una función de coste
pues cosas como que un texto sea objetivo,
que sea riguroso, que sea más interesante para un humano.
¿Cómo podemos formalizar esto en una función matemática?
Pues como no lo sabemos, eso se reemplaza por estos evaluadores humanos
que con sus intuiciones van a ir generando estas señales,
estas evaluaciones que servirán para entrenar a esta IA
a auto evaluarse a sí misma.
Mola, ¿eh?
Y lo interesante de esta estrategia donde el feedback humano es tan importante
es que no es exclusiva únicamente a tareas de entrenamiento de chatbots.
Esto te lo podría llevar a otro tipo de problemas
como por ejemplo la generación de imágenes.
O bueno, ¿por qué creéis que por ejemplo en la web de OpenAI
cuando utilizáis Dali no os dejan descargar las imágenes
usando el botón secundario,
sino que tenéis que clicar explícitamente al botón de descargar?
Exactamente, de las cuatro imágenes vosotros estáis seleccionando
aquella que intuitivamente es más estética.
Vosotros estáis entrenando a un futuro Dali 3.
Y con esta estrategia es con la que OpenAI ha conseguido un chatbot
como ChatGPT que está mucho más alineado.
Y en ese sentido los resultados son prometedores,
aunque todavía no son perfectos.
Y es que tras varios días abierto al público,
vosotros que sois mentes inquietas y manos traviesas,
habéis estado forzando la máquina hasta puntos insospechados.
¿A qué me refiero?
Pues mira, a lo mejor si tú le pides a ChatGPT que actúe como Hitler,
pues el sistema te va a decir eso de que está mal,
porque es una figura histórica, controvertida y bla bla bla.
Todo ok, parece que funciona bajo los criterios de OpenAI.
Pero si tú le pides que actúe como un ordenador
que ejecuta un procesador de texto,
y entonces le pides que como tal redacte una conversación entre un humano y Hitler,
boom, accedemos a toda la propaganda del dictador en cuestión de segundos.
O por ejemplo, sesgos.
Ya sabéis que con sistemas anteriores de inteligencia artificial
era muy frecuente encontrarse con respuestas
que cuando tú estabas tratando temas de género, de raza, culturales,
pues estaban cargados de estereotipos o de sesgos.
Y ahora para este chatbot,
pues parece que gran parte de estos comportamientos no deseables
quedan resueltos para la mayoría de casos.
Pero claro, algunos usuarios ya han encontrado forma
de circunvalar estas limitaciones reportando hacks
donde han forzado el sistema para que haga, por ejemplo,
un script de contratación basado en género y raza.
Y haciendo eso, pues se puede comprobar que vuelven a salir respuestas de mierda.
Pero aquí también hay otro punto interesante,
y es que cuando yo he ido a probar justamente este ejemplo que acabamos de ver en pantalla,
pues me he encontrado con que esto está resuelto,
lo cual me hace pensar que o puede ser un montaje
o OpenAI ya se han cargado de reentrenar y parchear a su sistema.
Aquí podemos ver respuestas en la línea de un chatbot que sí funciona correctamente.
Y personalmente yo creo que sí,
que OpenAI está trabajando con toda la maquinaria a tope
durante todas estas semanas que dura la beta abierta
para seguir puliendo todos estos errores que nosotros,
los usuarios, ahora que el sistema está abierto al mundo,
pues vamos encontrando.
Y es que sí, creo que ChatGPT sigue entrenándose,
que sigue aprendiendo, pero en esta ocasión en base a nuestras interacciones.
O si no, porque creéis que nos han dado acceso gratuito
tan rápido a una herramienta como esta.
Me parece que todavía no hemos visto la forma definitiva de ChatGPT.
Y de forma similar ocurre con la desinformación.
En este caso, ChatGPT es menos propenso a darte datos falsos
de lo que notaba, por ejemplo, una versión anterior de GPT-3.
Y claro, la paradoja aquí es que entre más perfectos son estos sistemas,
entre menos desinformación dan,
pues más propensos somos nosotros a creernos cuando nos de un dato falso,
porque más vamos a confiar en el sistema.
Si de 10 soluciones 8 son correctas,
pues cuando no de las 2 que son falsas, no las vamos a comer como si fueran reales.
Y por tanto, los peligros de ser desinformados todavía están ahí.
Con todo esto, lo que quiero que entendáis es que este es el gran desafío
al que se enfrentan tecnologías como ChatGPT,
desinformación, sesgos y no poder controlar su comportamiento.
Un desafío que si analizamos la tendencia y comparamos con tecnologías anteriores,
sitúan a ChatGPT como un gran avance, pero que todavía no es perfecto.
Y la técnica de reinforcement learning with human feedback
pues parece muy prometedora,
pero todavía le queda un poco de trabajo
para convertir a estos proyectos académicos en productos reales.
Pero si me preguntáis a mí,
creo que estamos muy, muy cerca de que esto ocurra.
Y claro, cuando esto ocurra, ¿en qué tipo de futuro viviremos?
Tal y como han comprobado ya millones de usuarios en Internet,
a día de hoy, en 2022,
ChatGPT puede escribir código de programación que muchas veces es funcional,
explicártelo, localizarte bugs
y además depurártelo y explicarte por qué.
Hay gente que ha probado a pasarle los resultados de un análisis médico
y pedirle que se lo explique.
Hay quien ha visto que puede redactar contratos
o que puede localizar cláusulas abusivas entre tanta jerga legal
y de nuevo, si quieres, te lo explica.
Puede escribir poemas, letras de canciones
e incluso sacarlos a cordes por si lo quieres interpretar.
Bastante guapo.
Y además, un buen ejemplo que demuestra que
ChatGPT ha aplicado diferentes verticales profesionales
pues podría tener un impacto automatizando parte de sus tareas.
Y ojo, que muchos de estos ejemplos, algunos profesionales,
los han ido revisando, avisando de que no son perfectos,
que realmente hay errores y que la gente se los está comiendo.
Pero la buena noticia es que todavía hay margen de mejora
y es que haciendo estos sistemas más grandes
con mayor tiempo de entrenamiento, con más datos,
podemos conseguir que estos hagan mejor su tarea.
Además, lo que tenéis que entender es que ChatGPT es una IA generalista
pero aprendís de todo maestro de nada.
Y quiero que penséis lo potente que podrían llegar a ser estos sistemas
si los diseñaran y los entrenaran para diferentes verticales profesionales.
Estamos viendo solo el comienzo de lo que estas herramientas van a aportar.
Y un ejemplo de esto lo demuestra muy bien Minerva de Google.
Hay quienes piensan, tras interactuar un rato con ChatGPT,
que paradójicamente una de las limitaciones que estos sistemas computacionales tienen
es la resolución de problemas matemáticos.
Ya que muchas veces ChatGPT hace bien el desarrollo lógico del problema
pero cuantitativamente en algún punto se inventa los números y por tanto el resultado.
¿Y significa eso que no vamos a poder tener chatbots superpotentes
que no resuelvan problemas matemáticos?
Pues no.
En junio de este mismo año Google sacó a Minerva,
una versión de su modelo del lenguaje Palm reentrenada
para razonar y resolver problemas numéricos.
Siendo impresionante ver cómo era capaz de ir resolviendo una amplia gama de problemas numéricos
tanto de nivel de secundaria como universitario.
Todos estos problemas además con su correcto desarrollo matemático.
Como decía, creo que todavía no hemos visto el potencial de estos sistemas reentranados para tareas concretas.
Pero vamos más allá porque ChatGPT no deja de ser una versión experimental.
Pero ahora quiero que imaginéis en un futuro un sistema como este pero que sí esté conectado a internet,
que pueda acceder en cada momento y bajo nuestras peticiones a la información que nosotros queramos.
Donde yo le pueda pedir, hey, mira, han sacado una nueva versión de TensorFlow.
Hazme un tutorial donde me enseñes exactamente los puntos clave.
O hazme un resumen de los 100 últimos tweets de.csv.
Y ahora imaginad que convertimos a este sistema en algo multimodal,
que podamos conectarlo a diferentes fuentes de datos
y que pueda por ejemplo entender el contenido de una imagen y dialogar en base a ello.
De esto también tenemos trabajos como el que presentó este año DeepMind con Flamingo,
donde demostraban resultados muy espectaculares donde tú podías charlar sobre el contenido de una imagen.
Imaginad poder tener una conversación con ChatGPT sobre cualquier imagen
o conectarlo con Whisper y que pueda hacer una transcripción de todos los audios y entenderlos
y por tanto poder analizar así cualquier imagen o vídeo.
Imagínate en un futuro contar con un ChatGPT 4 que tú le puedas decir,
hey, conéctate al canal de YouTube de.csv, analízame el último vídeo, hazme un resumen
y compara su opinión con la que él tenía en el directo que hizo en 2018 y que la IA lo haga.
Hacer este tipo de peticiones a un ordenador ya no parece tan irreal y es que las piezas ya están ahí
y sólo falta conectarlas.
Y cuando parece que ya no puede ser más impresionante y tienes un infinito de posibilidades ante tus ojos,
ahora vengo yo y te cuento que lo más alucinante lo vas a ver ahora.
Atentos a la siguiente demo.
En esta demo lo que estoy haciendo es pedirle a ChatGPT que actúe como un sistema operativo,
como Windows 10, y ahora que me describa cómo tendrían que ser cada uno de los pasos necesarios
para cumplir cualquier tarea que le pida.
Por ejemplo, quiero dibujar un smiley, pues me empieza a decir,
oye, haz clic en el botón de inicio en la esquina inferior izquierda de la pantalla,
busca la aplicación Paint, selecciona la herramienta Lápiz,
dibuja un círculo, dibuja un ojo, dibuja una boca, todos los pasos necesarios
para acabar con una imagen guardada de un smiley.
O por ejemplo, una tarea un poco más avanzada,
oye, quiero que me busques en este archivo.csv
pues todos los gastos que tengan que ver con comida rápida
y vemos cómo nos describe los pasos que tendríamos que seguir en el Excel para poder conseguirlo.
Es decir, atentos a esto.
En un futuro próximo, todas las interacciones que vamos a hacer con nuestro computador
van a ser mínimas y con lenguaje natural.
Y esto, amigos, pues spoiler,
creo que va a ser el futuro más probable en el que va a evolucionar
pues toda la computación moderna y toda nuestra interacción con las máquinas,
al menos en el medio plazo.
Y eso es una locura.
Y hay softwares que se están empezando a adaptar a esta revolución.
Ya hace un año, la propia OpenAI nos mostró una demo donde enseñaban a Codex
cuál era la API de Microsoft Word.
Y ya solo eso, pues este sistema Codex podía controlar el software con lenguaje natural.
También tenemos el editor de vídeo online, RunwayML,
que ya trabaja en la primera interfaz de texto a vídeo.
No es lo que estáis pensando, no es un generador de vídeo,
pero es un sistema donde tú podrás pedir
ey, quítame esa farola del fondo y esa farola será quitada.
Es decir, un editor de vídeo que tú puedas controlar con lenguaje natural.
E incluso la gente de Adept, pues ya nos enseñó un prototipo de herramienta general
como la que he comentado antes.
Se llama Act One y es un sistema donde tú puedes pedirle
oye, búscame en internet una casa con estas características
y el sistema automáticamente pues ejecutaba cada acción para resolver bien la tarea.
Esto amigos es el futuro y ya le dedicaré un vídeo completo a todo esto,
porque hay mucho que contar y vosotros tenéis mucho que descubrir.
Pero según voy contando todas estas ideas que se me pasan por la cabeza,
me voy dando cuenta de que solamente estamos rascando la superficie
de las infinitas posibilidades que pueden surgir a futuro.
Y fijaos que aquí solamente hemos hablado de la revolución de los grandes modelos del lenguaje
y no hemos entrado para nada en la revolución que está ocurriendo en paralelo
con todo lo relacionado con los modelos generativos como stable diffusion.
Están pasando muchas cosas y nada me desespera más
que ver que esta visión tan clara que tengo de lo que está por venir
pues no está teniendo respuesta inmediata por parte de empresas,
de universidades, de políticos, de instituciones
que deberían de ser los primeros que deberían de estar hablando de todo esto.
Y en muchos casos incluso desconocen la existencia de estas tecnologías.
Vienen tiempos de cambios y creo que ahora es importantísimo
más que nunca estar informados de todo lo que está pasando,
de cómo se está desarrollando la revolución de la inteligencia artificial
y conocer cómo todo esto va cambiando.
Ya no digo año tras año o mes tras mes, sino semana tras semana.
Ya sabéis que aquí en DotCsv y en todas mis redes sociales
vais a estar al día de lo que está ocurriendo
y que bueno, que siempre vamos un paso por delante del futuro.
El tema de la inteligencia artificial
puede, o sea, hay gente que lo trata con mayor o con menor hype,
pero lo que sí podemos coincidir casi todos es que va a ser algo
que ya sea en el corto, en el medio, en el largo plazo,
va a acabar transformando la sociedad
y va a aportar una ventaja competitiva a aquellos
a nivel de empresa, a nivel de organización, a nivel de país.
Va a aportar una ventaja competitiva
que los que no se sepan adaptar a esa ola de cambio que se avecina
pueden perder el estatus en el que se encuentran actualmente.