logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

¿Cuánto estaríais dispuestos a pagar por ChatGPT?
Ya ha pasado dos meses desde que salió esta herramienta
y ya dos meses pasados este proyecto de investigación de OpenAI
se está convirtiendo en un producto comercial, ¿no?
Un producto comercial que evidentemente no va a estar gratuito para
para todo el mundo siempre para utilizarlo, o sí, ahora lo vemos.
Pero la pregunta es ¿cuánto estaríais dispuestos a pagar?
Esta imagen se filtró hace un par de semanitas por internet
donde decían que el precio del plan profesional, el plan que te iba a permitir
pues tener un acceso al modelo incluso cuando la demanda fuera alta,
una respuesta rápida, incluso prioridad a nuevas novedades,
que iba a costar 42 dólares al mes.
Y mucha gente se puso las manos en la cabeza y dijo
esto es muy caro, esto está bien, esto está caro, esto está mal.
Una empresa lo pagaba, yo no lo pago, que lo dejen gratis.
Bueno, pues ya se sabe que 42 dólares no va a costar.
42 parece que era un poco el meme de la guía de la autopista intergaláctica.
Este es la respuesta a todo, 42.
Y ya sabemos que el precio del plan profesional,
lo que se va a llamar ChatGPT Plus, pues va a costar 20 dólares al mes.
Vale, 20 dólares al mes, que para mí personalmente creo que es un precio razonable.
Yo rellené esta encuesta que ellos sacaron de cuánto estaría dispuesto a pagar,
qué precio te parecía extremadamente barato y qué precio te parecía extremadamente caro.
Y mi horquilla estaba entre 5, el mínimo 5 dólares y el máximo 30 dólares.
Así que 20 dólares creo que está situado en un punto dulce donde yo
estaría dispuesto a pagarlo por la utilidad que me ofrece, que tampoco es tanta,
porque al final a nivel profesional yo no lo utilizo tanto,
pero sí para hacer experimentos, para probar, para utilizarlo en directos,
pues sí es bastante más, bastante útil en mi caso.
Entonces, dependiendo de cuál sea vuestro caso de uso y también ajustando a
diferentes países donde el valor de 20 dólares no es lo mismo,
evidentemente algunos os parecerá mejor o os parecerá peor.
Pero la buena noticia es que el plan gratuito se mantiene.
Vale, esta infografía que estáis viendo aquí es todo correcto, excepto el precio.
El precio ya sabemos que 42 dólares no es.
Hay quien dice que esto fue como un globo sondano que enviaron para anclar el precio
y que ahora te dicen 20 dólares y te parece un precio razonable.
Yo creo que simplemente para empezar, no sé la credibilidad de la captura
cuando salió inicialmente, si verdaderamente venía de OpenAI.
Es cierto que el resto de información se ha mantenido igual, así que sospecho que sí.
Y puede ser que esto lo tuvieran puesto como un texto de prueba, un template,
el 42 pues tendría sentido y todavía no estaba decidido cuál era el precio final.
Pero bueno, la buena noticia es que el plan gratuito se mantiene.
El plan gratuito lo vamos a seguir teniendo.
Eso significa que bueno, vais a seguir poder operando con chat GPT,
tal cual ocurre ahora con sus buenas partes y sus malas partes.
Las malas partes ya sabéis que chat GPT para pillarlo despierto,
para que te pilla una un periodo en el que no haya alta demanda,
pues es bastante, es bastante complicado.
Pero bueno, ese plan gratuito se va a mantener y el tiempo de respuesta
de chat GPT también va a ser más lento.
Yo esto sí que me parece interesante lo de faster response speed,
mayor tiempo de respuesta.
Entiendo que se refiere a la parte
cuando el modelo autoregresivo empieza a generar el texto y te va escribiendo.
Vale, esa esa escritura no está hecha la animación así porque
porque sea más atractivo,
sino porque es la forma en la que el modelo va generando los tokens,
va generando palabra tras palabra de forma secuencial.
Entonces me gustaría que fuera más rápido en ese sentido.
Sí, a veces cuando le pido oye, escribeme esta función de código, empieza.
Bueno, esta función va a ser lo siguiente
y te empieza a dar una explicación super detallada.
Luego te pone el código es como por favor un poquito más de velocidad.
No vendría, no vendría nada mal.
Pero bueno, hoy el directo lo quiero centrar en la última parte,
en la última parte donde dice Priority access to new features,
acceso prioritario a nuevas características.
Evidentemente, chat GPT, tal cual lo tenemos ahora, es una herramienta
que está, es embrionaria, está surgiendo ahora, está naciendo, podríamos decir.
Es como el bebesito que ha tenido el modelo GPT 3
y evidentemente va a seguir evolucionando y va a tener un montón de características nuevas
y posiblemente se convierta en el medio plazo
pues en una de las herramientas insignia de OpenAI y de Microsoft
que ya sabemos que tienen bastante relación.
Entonces la pregunta que os quiero hacer y va a ser la temática de este directo es
qué funcionalidades os gustaría que tuviera chat GPT que actualmente no tiene?
Qué funcionalidades creéis que podrían sumarse a chat GPT
en los próximos meses que creáis que puede ser útil?
Pensad que muchas de estas funcionalidades a lo mejor requieren investigación
y en deep learning que todavía no se ha hecho y esa es la parte interesante
que esto no es simplemente sentarse a implementar, sino que requiere de un trabajo de investigación
porque al final estamos trabajando con tecnología muy, muy rápida.
Muy innovadora.
Entonces, qué funcionalidades os gustaría?
Os estoy leyendo.
Hay quien dice por aquí acceso a internet, hacer fine tuning del modelo,
generar contenido multimedia, bueno, generar contenido
ya lo hace Dali 2, ya lo hace StableDiffusion, pero bueno,
poder insertarle contenido multimedia también puede ser interesante, creación de imágenes
que funcione en Paraguay, estaría bien que estuviera en todos los países.
Mejor conocimiento de matemáticas.
Vale, vale, vale, vale.
Bueno, todas estas funcionalidades, todo esto que me habéis dicho, efectivamente,
son posibles características que se podrían sumar a chat GPT en los próximos meses.
Y el directo de hoy lo vamos a centrar en contaros.
Voy a hacer un poco una overview de todo lo que ha ido saliendo en las últimas semanas,
que no es poco respecto a chat GPT y modelos derivados.
Vamos a hacer una especie de viaje de resumen por los diferentes papers,
noticias y cosas interesantes que están relacionados
justamente con estas posibles características que podrían llegar.
Vale, esto va a ser no es un directo, es una masterclass.
Hay empresas que están cobrando cientos y cientos y miles de dólares
por formaciones como las que vamos a hacer hoy,
pero hoy la vamos a dejar aquí gratuita en YouTube.
Y si alguna empresa quiere contratarme, pues también estoy dispuesto a hacer formaciones.
De hecho, eso es algo que anunciaré próximamente, que sé que mucha gente interesada.
Entonces vamos a empezar. Vale, tengo aquí un poco la chuleta
de los diferentes temas por los que quiero ir pasando.
Vamos, os digo, vamos a estar hablando de chat GPT con imágenes.
Os voy a enseñar una herramienta y un trabajo muy interesante que además podéis utilizar desde ya.
Vamos a estar hablando de chat GPT con conexión a Internet.
Vamos a hablar de chat GPT más riguroso o que esté basado más en datos.
Vamos a estar hablando de esta noticia que ha salido esta semana también de si chat GPT es UOC, no?
Si de repente cuando le pides que te haga un poema de Trump no te lo hace.
Vamos a estar hablando de todos estos temas a lo largo del directo y espero que os guste.
Dejadme que habla un momento aquí la chuletilla y empezamos a comentar cositas.
A ver, conexión a Internet, pues no sería ideal que chat GPT tuviera conexión a Internet, no?
Que de repente tú pudieras pedirle cierta información y que esa información chat GPT no se la invente.
Sabemos que uno de los grandes problemas que tiene un modelo de lenguaje como chat GPT ahora mismo
es que cuando vosotros dialogáis con ese modelo, estáis hablando con, pensad esto, eh?
Para empezar, estáis hablando con un archivo. Esto es muy loco.
Estáis hablando con un archivo que está en un ordenador que se está ejecutando
y que en base a tus palabras ese archivo responde, pero no deje de ser un archivo.
No olvidemos que la inteligencia artificial al final es eso, un archivo de conexiones
que hacen un procesamiento de tu información para generar una respuesta que en muchos casos tiene bastante sentido.
Pero claro, ese archivo ha de contener toda la información, toda la información,
sumándole también lo que nosotros le facilitamos a través del prompt para poder trabajar,
para poder hacer este procesamiento que nosotros le estamos pidiendo.
Oye, que le pidas un resumen, ese archivo tiene internamente esas conexiones para,
en base al prompt que tú le has dado, operar con esos tokens y acabar con el resultado que tú quieres.
Si tú le dices, oye, esta es una nueva palabra, le das conocimiento nuevo,
quiero que me armas una frase que tenga sentido con esta nueva palabra y esta definición que te doy.
Ese archivo va a saber coger esta información, procesarla adecuadamente y dártela.
Esto es muy interesante, pero tiene una limitación muy clara y sabemos que es uno de los grandes limitantes de ChatGPT.
¿Cuál es? Pues que evidentemente ChatGPT no puede contener en su cabeza, en su cerebro,
en este archivo que sabemos que se mide por el número de parámetros,
no tiene la capacidad suficiente para alojar dentro de esta base de datos, vamos a llamarla,
toda la información factual, toda la información realista para poder operar con ella.
Lo que significa que si tú le pides, por ejemplo, un dato como, no sé,
¿quién, cuántos años tiene Barack Obama? Pues te va a dar un dato que es falso.
O si le pides la biografía de.csv, no tiene por qué saber quién soy.
O si le pides una información de ayer, tampoco va a tener esa información porque este archivo,
recordemos, está congelado, no se va reactualizando de forma diaria o de forma periódica este archivo.
Pues ya sabemos que cuando de repente OpenAI decide, oye, hemos actualizado a ChatGPT,
ahora tiene información hasta el 9 de enero, pues entonces ahí significa que le han agregado nueva información.
Pero por lo general no se va actualizando online, no va recibiendo nueva información, con lo cual, pues,
tenemos esta limitación, que no puede saber más de lo que ha sido entrenado.
Entonces, lo interesante de esto sería poder contar con un sistema que pudiera, por ejemplo, conectarse a internet.
Vamos a pensar una inteligencia artificial como ChatGPT que tú cuando le hagas una consulta, de repente diga,
oye, voy a buscar información en internet, me voy a conectar, por ejemplo, a Google Search, voy a hacer una búsqueda
y voy a traerme la información relevante a tu query, a tu búsqueda, y la voy a utilizar como contexto para generar el contenido de ChatGPT.
La buena noticia es que esto sé que OpenAI lo está trabajando, evidentemente lo está trabajando desde el día 1.
De hecho, no me extrañaría incluso, sé que han hecho pruebas, no me extrañaría que hayan querido sacar la versión inicial de ChatGPT
como esto, como un modelo que sí tiene acceso a internet o que pueda hacer queries retrieval, sacar esta información de internet o information retrieval,
para hacer justamente esto, para poder generar respuestas que estén basadas en verdades o al menos que estén basadas en información actualizada.
En ese sentido, ChatGPT seguramente tenga una de estas características próximamente y seguramente será de las primeras que incorporen
porque ya estamos viendo otros sistemas que son capaces de hacer justamente esto.
Como no quiero perderos de vista, es que tengo humo demasiado asco y me falta otra pantalla yo creo en la vida para poder trabajar cómodo.
ChatGPT ahora mismo no tiene esa funcionalidad, pero podemos intuir que la tendrá porque ya estamos viendo herramientas que sí la tienen.
Y os voy a presentar una que no sé si muchos de vosotros la conoceréis, seguramente sí.
Esta herramienta de aquí es súper interesante, se llama Perplexity. ¿Vale? ¿Perplexity qué hace?
A ver, es que estoy buscando el chat de YouTube. Aquí, ahí está, os tengo.
Perplexity. Perplexity es un ejemplo muy bueno de lo que podría ser la evolución de ChatGPT.
¿Por qué? ¿Por qué? ¿Qué hace Perplexity? Bueno, Perplexity, podéis entrar todos en la web ahora y la podemos tumbar todos en compañía.
Perplexity, tú le puedes preguntar lo que sea. Por ejemplo, oye, ¿quién es.csv?
Entonces, Perplexity, aquí está haciendo una búsqueda de información, está aprovechándose de un motor de búsqueda que podría ser tanto Google Search como Bing.
¿Qué pasa? Eso está generando una respuesta. Le puedo dar incluso a que me haga una respuesta más detallada.
Vale, le voy a dar aquí al botón. Y si no lo está tapando mi cámara, creo que lo estáis viendo bien.
Dice,.csv es el canal de YouTube de Carlos Santana Vega, un divulgador español de inteligencia artificial.
Y ojo a esto. Ojo a esto. Lo estáis poniendo en el chat, estaría bueno que incluya fuentes.
Mirad, referencias. Clicáis por aquí, te lleva a mi página de My Public Inbox.
Clicáis aquí, te lleva a esta página de aquí, clicas aquí.
Vale, es decir, el sistema ha buscado en diferentes fuentes, tanto en mi LinkedIn, en My Public Inbox, en diferentes biografías que yo he ido publicando otra vez de internet.
Y ha hecho una inferencia, ha encontrado esta información y ahora me la está ofreciendo.
Lo cual, pues ya de partida es mucho más interesante que el chat GPT que de momento, si yo le pregunto quién es.csv, se lo va a inventar en el mejor de los casos.
Su canal tiene sobre 600.000 suscriptores y se enfoca al campo de la inteligencia artificial.
También tiene una cuenta de Twitter con, bueno, tiene una cuenta de Twitter que tiene más de 2.000 followers.
Esto es cierto, pero es falso porque sí, tengo más de 2.000, es correcto, pero tengo 110.000 creo.
O sea, esta información, por ejemplo, no la ha conseguido sacar actualizada. No sé si tiene algo que ver con la API de Twitter o simplemente que está cacheada bastante antigua.
Pero bueno, la misión de Carlos Santana es llevar la realidad del campo del Machine Learning al público.
Y bueno, aquí tenéis un ejemplo de lo que podría ser potencialmente un motor de búsqueda que mejore la calidad de lo que Google o Bing puede ofrecer.
Esto es lo que debería de ser Google a día de hoy.
Y esto es por lo que mucha gente está diciendo esto de Google, ponte las pilas porque te van a comer la tostada.
Está bastante chulo.
Vamos a hacerle otra pregunta. Vamos a ver, por ejemplo, qué día es hoy?
Que día es hoy? Ya sabéis que a chat GPT se le puede intentar sacar el día real, pero por lo general va a intentar ocultarte esa información.
Te voy a decir que no lo sabe, pero mira, hoy es viernes 3 de febrero 2023.
Podríamos preguntarle, por ejemplo, cuánto falta para San Valentín?
Vale.
A ver si lo calcula.
Faltan 12 días para el día San Valentín. El día San Valentín cae el lunes el 14 de febrero 2023.
Esta festividad se celebra cada año, bla, bla, bla.
¿Es correcto?
Sí. Bueno, si contamos hoy como un día, sería correcto. Serían 11 o 12 días si contamos a partir de hoy a partir de mañana.
¿Por qué se me ha activado lo que hay Google? Madre mía.
Aquí lo veis. Perplexity ya tiene esta funcionalidad bastante interesante.
¿Qué pasa con perplexity? Es una herramienta que está orientada a complementar esta parte que le falta a chat GPT, que es la parte de buscador potenciado con inteligencia artificial.
¿Dónde falla perplexity? Porque no es su nicho.
¿Y dónde pierde esa parte que nos interesa tanto chat GPT?
Porque, por ejemplo, no es capaz de darte un diálogo. Si yo le digo hola, ¿puedo hablar contigo?
Es como si me voy a Google búsquedas y me pongo a hablarle como si fuera un chat bot. No pretende ser un chat bot y aquí.
Mira, ves, por ejemplo, hola, ¿puedes hablar con el asistente de Google usando solo tu voz?
Ha hecho la búsqueda, ha buscado cómo puedes hablar con una IA. Entonces, bueno, ha hecho este resultado.
No cae el lunes, cae el martes. Vale, entonces a lo mejor ahí sí se ha equivocado. Vale, sí, sí, sí, sí, pues sí.
Efectivamente, me estáis diciendo que cae en martes. Menos mal que no me he equivocado con esto.
Pues ahí, por ejemplo, se ha equivocado también a la hora de hacer esa búsqueda.
Como veis, no es perfecto y esto también es interesante.
Yo creo que hay dos problemas a la hora de plantear esta tarea de una IA, un chat bot que va a consultar información de Internet y te va a dar una respuesta a esto.
Y los dos problemas son, uno, buscar la información correcta respecto al prompt que te ha dado el usuario.
Eso ya en sí mismo es un problema complicado.
El problema número dos, que esa información que te está dando sea cierta. Vale, porque yo a lo mejor hago una búsqueda y buscas una biografía de.csv, pero que esa página web sea falsa.
Ese segundo problema es un problema en el que nosotros los humanos coexistimos.
Pero bueno, en principio ese va a ser la parte más complicada.
Y la parte en la que tiene que ir refinándose Presplexity es justamente la primera, el saber buscar la información, la información correcta.
Sobre estas búsquedas, por cierto, luego podéis hacer como un follow up, podéis seguir añadiendo preguntas y es bastante interesante.
De hecho, esta herramienta la tenéis también como extensión de Chrome.
No lo vais a ver porque tengo el OBS por delante, pero aquí arriba tengo este botón y si clico, pues se me sale el menú de Presplexity y puedo preguntar en cualquier página web lo que quiera.
Esto es súper interesante, súper interesante.
Presplexity no es la única, no es la única inteligencia artificial que actualmente está trabajando en justamente esto.
De hecho, una de las cosas que quería hacer hoy en el directo era hablaros de la competencia que empieza a aparecer a raíz de ChatGPT.
Recordemos que ChatGPT no es el único modelo de diálogo que ha saltado a la fama.
Por ejemplo, Google hace medio año o hace casi un año tuvo la polémica esta con Lambda, que era su asistente de Chatbot que internamente un ingeniero creyó que tenía conciencia
y se armó todo este debate que fue bastante sonado, tenéis vídeo incluso en el canal.
Existe Lambda, existe Claude, Claude es de otro laboratorio que se llama Anthropic, que creo que lo tengo por aquí.
Ahora os lo comento, que este es interesante. Pero bueno, lo que tenéis que saber es que hay un montón, un montón, un montón de modelos que están saliendo.
Y os quiero enseñar esta tabla que he encontrado.
Os pondré todos los enlaces al final en la descripción porque son bastante interesantes todos estos enlaces y para que los tengáis recopilados pues los podéis ver abajo en la cajita de descripción.
Pero os quiero enseñar esta tabla de aquí porque esta tabla de aquí recoge muy bien un poco los diferentes proyectos de investigación que hay actualmente de diferentes grandes compañías de Chatbots de diálogo.
Todos conoceréis seguramente ChatGPT, que es el que estamos hablando hoy.
A lo mejor os suena Lambda, también por la noticia que hemos comentado.
Blenderbot3 creo que ha pasado más desapercibido. Este es el modelo de meta.
Este es el problema de meta.
Este Chatbot era un Chatbot que si recordáis, antes de que saliera el propio GPT-3, aquí en el canal jugamos con la versión 2, Blenderbot2.
Hay un vídeo en el canal subido. Antes de que saliera ChatGPT, perdón, antes de que saliera GPT-3, es decir, hablamos de finales de 2019.
Fue para mí el primer bot con el que yo pude hablar y tener una conversación un poco de diálogo abierto y fue muy interesante.
Luego tenemos Sparrow. Sparrow es un equipo dentro de DeepMind que se está ocupando,
también de desarrollar un Chatbot de diálogo similar a ChatGPT y todos estos.
Y luego tenemos Assistant, que en este caso le vamos a llamar Claude.
De hecho yo no sé si puedo con el F12 aquí cambiarlo rápidamente.
Vamos a hacer una modificación para no liarnos nosotros.
Claude, porque este es el nombre en clave. Creo que lo he escrito bien.
A ver, creo que aquí arriba está. Sí, Claude. Claude es el nombre que recibe el Chatbot,
que creo que ahora mismo tiene los mejores ejemplos comparativamente contra ChatGPT.
Es un Chatbot que de momento es cerrado, pero algunas personas han tenido acceso a la beta privada.
Y está diseñado por esta organización de aquí, que es Anthropic.
Que si no recuerdo mal, Anthropic, creo, creo recordar que está fundada por un ingeniero de OpenAI.
Bueno, un ingeniero, un investigador de OpenAI que dejó la compañía.
Y creo que ha fundado este laboratorio. Creo que es un laboratorio muy chulo,
porque se está centrando mucho en la parte de intentar crear asistentes conversacionales,
pero que estén basados en respuestas honestas, que sean seguros, que estén basados en hechos.
Es decir, están intentando hacer un asistente que cumpla las reglas, por así decirlo.
Creo que todos estamos de acuerdo que puede ser guay.
Entonces, Anthropic es una empresa que tras la salida de ChatGPT ha ganado bastante interés,
hasta el punto de que ahora yo buscando información sobre esta empresa, me he encontrado con esta noticia.
Esta noticia es, si no me equivoco, de hace dos horas. Ojo, exclusiva.
Y básicamente, Google invierte 300 millones en la startup Anthropic de Inteligencia Artificial.
Casualmente, Google se está metiendo a invertir en empresas, en startups,
que están desarrollando chatbots que serían competencia del propio ChatGPT.
Entonces ya vemos cómo la batalla de los chatbots de diálogo están comenzando
y va cobrando bastante sentido.
Entonces, bueno, esta empresa, Anthropic, tiene a Claude.
Entonces os quería enseñar esta tabla, porque esta tabla recoge muy bien.
Esta tabla, qué pena me da, tío, que el chat en YouTube va con retraso.
Es que os quiero leer, pero va con unos minutos de retraso o unos segundos.
Entonces, claro, vale.
Pero bueno, este blog es súper interesante porque tiene esta tabla comparativa.
Y esta tabla comparativa nos da cierta información que puede poner un poco,
arroja un poco de luz sobre los diferentes modelos que tenemos y cuáles son sus diferencias.
Os lo voy a contar un poco así por encima para que tengáis el mapa mental.
Y así si me refiero a alguno de estos modelos, pues lo tengáis más claro.
Lambda, sabemos que es de Google. Blenderbot, os lo he dicho, de Meta.
Sparrow, de DeepMind, recordemos DeepMind.
Es laboratorio de Inteligencia Artificial independiente, pero que está muy ligado a Google.
O sea, pertenece al conglomerado de Google.
ChatGPT, OpenAI y Anthropic.
¿El acceso a estos modelos? Pues mira, Lambda está cerrado.
Aunque están empezando a abrirlo, ahora lo comentamos.
Blenderbot está abierto, aunque no generó mucho ruido.
De hecho, el problema de Blenderbot es el problema que tienen la mayoría de estos tres asistentes.
Que tienen conexión a Internet y no funciona del todo bien.
Entonces, claro, la gente que es muy troll empezó a probar Blenderbot,
que tenía beta abierta en Estados Unidos.
Y empezaron a preguntar sobre el CEO de la propia empresa Meta, Mark Zuckerberg.
Entonces Blenderbot, conectado a Internet, pues empezaba a sacar mierda de Mark Zuckerberg.
Y generaba titulares graciosos, pero que a la propia Meta no le hacía mucha gracia.
Sparrow es cerrado, es un proyecto de investigación.
ChatGPT ya sabéis que se está abriendo y Clot es cerrado.
Tamaños. Vamos a comparar los tamaños de los modelos.
Lambda es un modelo de 137.000 millones de parámetros.
Blenderbot 175.000 millones de parámetros.
Que es el mismo tamaño que ChatGPT.
¿Por qué? ¿Usan el mismo modelo? No.
ChatGPT usa GPT-3. Bueno, 3.5, la versión actualizada que sacaron en octubre.
Blenderbot utiliza OPT.
OPT es el modelo del lenguaje que Meta sacó Open Source.
Ojo, Open Source OPT. Y lo sacaron con el mismo tamaño que GPT-3.
Un poco por hacer la broma. Bueno, la broma.
Por decir, tenemos un modelo como GPT-3, pero del mismo tamaño.
Open Pre-trained Transformer sería este.
Y no es el más grande Open Source, porque luego recordemos que está Bloom.
Que Bloom tiene 176.000 millones de parámetros.
Es decir, una más que encima de GPT-3.
Luego tenemos Chinchilla, que es el modelo del lenguaje de DeepMind.
Es el que han utilizado para generar a Sparrow.
Y de Cloud no se sabe, porque la investigación sigue estando cerrada.
Detalles aquí que me interesan. Por ejemplo, el acceso del modelo a Internet.
¿Qué modelo de los que tenemos aquí tienen acceso a Internet?
Lambda tiene acceso a Internet. Blenderbot tiene acceso a Internet.
Sparrow no tiene. Perdón, Sparrow tiene.
ChatGPT no tiene. Y esta es una de las funcionalidades que seguramente veremos a futuro.
Y Cloud tampoco tiene.
Esto es interesante. Lo de los modelos pre-entrenados.
Son los modelos que sirven de base.
Para luego hacer este proceso de lo que se llama el Reinforcement Learning from Human Feedback.
Que es este proceso de coger al modelo del lenguaje, al GPT-3.
Que recordemos que al final el GPT-3 es un modelo que solo sirve para generar lenguaje.
Para hacerte resúmenes, para hacerte... yo qué sé.
Responderte preguntas sobre un texto para... tú le das un prompt y te genera texto.
Te lo continúa.
Y ha sido a través de este proceso del Reinforcement Learning from Human Feedback.
Que se ha conseguido darle forma a estos modelos para que actúen como chatbots de diálogo.
Es este proceso de reentrenamiento, de fine tuning.
Con el que se consigue convertir a un GPT-3 en un ChatGPT.
Entonces, por eso aquí te hablan de modelos pre-entrenados bases como OPT, Chinchilla, GPT-3.
Y bueno, pues cada uno tiene sus características.
De estos modelos, mira, fijaos. Justo ya que lo acabo de mencionar.
¿Cuáles utilizan RLHF, que es el Reinforcement Learning from Human Feedback?
Pues, de los que hemos comentado, los tres últimos.
Que son Sparrow, ChatGPT y Cloud.
Tanto Blenderbot como Lambda no utilizan, en este caso, Reinforcement Learning.
Entonces estará utilizando algún tipo de estrategia diferente.
Donde a lo mejor están utilizando lo que se llama Instruction Fine Tuning.
Que es como reentrenar al modelo con un reajuste con instrucciones de lo que un humano le daría.
Pero que yo creo que a falta de datos, pues esto es bastante complicado.
Bueno, esto es un poco para que tengáis la tabla comparando los diferentes modelos.
Y para que veáis cuáles tienen acceso a Internet.
Que yo creo que es la funcionalidad que poco a poco iremos viendo que irá llegando a estas herramientas.
Por lo que me han contado, sé que OpenAI está trabajando en esto.
Pero que por ahora, al menos hace unas semanas, funcionaba bastante mal.
Sería ideal ver una herramienta como ChatGPT funcionando como Perplexity.
Pero que se mantenga esta parte de Chatbot que yo creo que es súper interesante para todos.
Bueno, esto respecto al acceso a Internet.
Pero ya estamos viendo que esto del acceso a Internet es un poco complicado.
¿Se nos ocurre una forma de solucionar ese problema y hacerlo distinto, ya que no tiene acceso a Internet?
¿Se os ocurre como podríamos hacerlo de una manera diferente?
A ver, OpenAI.
API ChatGPT.
A ver dónde está esta información.
ChatGPT.
Nada, no lo estoy encontrando aquí en el blog a lo mejor.
ChatGPT+, aquí donde estamos ahora.
Aquí está.
Nuestros planes para el futuro.
Esta es otra de las funcionalidades que veremos próximamente activadas dentro de la familia ChatGPT.
Que es el acceso a la API.
Una API, para el que no lo sepa, es básicamente una forma en la que tú te puedes conectar a un servicio que una empresa ha desplegado.
Y en base a los puntos de acceso a las funcionalidades que te dé, pues tú puedes conectarte a un servicio que una empresa ha desplegado.
Y en base a los puntos de acceso a las funcionalidades que te dé, pues tú con código puedes acceder a ello.
Tú, por ejemplo, puedes coger ahora GPT-3 y no meterte en el Playground de GPT-3.
Sino que tú te puedes conectar por código de programación, ya sea por Python, JavaScript, cualquier código de programación que te lo permita.
Te puedes conectar y hacer llamadas a GPT-3 que te genere código y tú eso, integrarlo en un servicio propio.
Eso está bastante guay.
Entonces, ChatGPT va a tener una API próximamente. De hecho, podéis apuntaros a la waitlist aquí.
Y esta waitlist, bueno, esta API cuando esté habilitada lo que va a permitir a mucha gente es poder conectarse y construir herramientas que hagan uso de ChatGPT.
Y esto yo creo que va a ser la solución idónea para el acceso a Internet momentáneamente.
Es decir, no hace falta que Mahoma, o sea, si Mahoma no va a la montaña, la montaña irá a Mahoma.
Es decir, si no conseguimos que ChatGPT tenga un acceso directo a Internet y que coja de ahí la información y la coloque,
podríamos intentar entonces que otras herramientas se conecten a ChatGPT, hagan ellos su procesamiento interno, a lo mejor un motor de Google o un motor de búsqueda como Bing.
Hagan ellos la búsqueda y con esa información ahora ChatGPT pues coja y genera la respuesta a través de una API.
Y sobre eso hay un ejemplo muy chulo que os quiero enseñar, que para mí es como el ejemplo claro de donde una herramienta como ChatGPT podría brillar.
Sabéis mucho que ChatGPT ahora mismo, matemáticas justitas, ¿vale?
ChatGPT, matemáticas justitas. Si tú por ejemplo a ChatGPT le pides que te haga un problema matemático, lo que suele pasar es que ChatGPT coge y te hace un desarrollo espectacular.
La mayor parte de veces es correcto, pero los números se los inventa, ¿vale? De repente te hace una multiplicación y se equivoca la multiplicación, ¿ok?
¿Por qué sucede esto? Bueno, pues porque al final ChatGPT no deja de ser, repetimos, un modelo del lenguaje.
Y un modelo del lenguaje funciona a partir de unos tokens previos intenta predecir cuál es el token con mayor probabilidad siguiente.
Eso podría ser, ese proceso de entrenamiento, estos enormes modelos del lenguaje, podría generar subrutinas internas donde a lo mejor aprenda a multiplicar,
o donde aprenda a sumar, o donde aprenda a hacer operaciones matemáticas. Perfecto. Pero a lo mejor no, ¿vale? A lo mejor no.
Y a lo mejor lo que pasa es que en un punto cuando ChatGPT hace una multiplicación y quiere generar un resultado, muchas veces cuando te da un resultado correcto,
ese resultado se debe a overfitting, ¿vale? A que ha memorizado cuál era la respuesta. Si tú te vas a GPT3 y le pides, oye, 20 por 12,
a lo mejor te dice, mira, 20 por 12 son 140, a ver, 20 por 12, 1040 puede ser, no lo sé, bueno, el resultado que sea, o 7 por 3, 21.
Ese 21 no te lo dice porque haya calculado la subrutina de multiplicar 7 más 7 más 7, sino porque al igual que nosotros los humanos, pues tenemos aprendido la tabla de multiplicar,
para tener accesible esa información que es útil. Entonces, 7 por 3, 21 llega a ese resultado.
Cuando le pones una multiplicación más complicada, evidentemente no va a saber multiplicar, no tiene memorizada todas las multiplicaciones del mundo,
pero sí sabe que la respuesta que tiene que dar es un número, tiene que estar, es como si me preguntas a mí justo esto, ¿no? Pues 20 por 12,
a lo mejor yo orientativamente te puedo decir, pues va a ser un número que esté en torno al 1040, y a lo mejor no es 1040,
y es otro número que ya me estés poniendo en el chat, ¿no? 2400, ¿ok? Entonces, eso es lo que hace justamente estos modelos.
ChatGPT te da, bueno, una respuesta probable a una multiplicación que no tiene por qué saber operar.
Qué interesante sería si ChatGPT, por ejemplo, estuviera conectado a una calculadora, y cada vez que detecte que está utilizando una multiplicación,
pues puede decir, oye, me voy a la calculadora, porque me está pidiendo la multiplicación, como hace un humano, me voy, multiplico, vuelvo, uso este resultado y tal, ¿vale?
Eso es una funcionalidad que también veremos en el futuro. Y estas son cosas que los modelos del lenguaje ya han ido experimentando, ¿no?
El tener acceso a una calculadora, el tener acceso a un compilador, aquellos modelos que trabajan en generación de códigos se suele utilizar, el tener acceso a un scratchpad,
bueno, hay un montón de funcionalidades que potencian a estos modelos del lenguaje para poder funcionar mejor.
Por ejemplo, si tú haces un Minerva, que es este modelo de lenguaje de Google que aprende matemáticas, pues, contra, tú quieres que haga bien esa labor,
entonces le vas a dar todas las funcionalidades que pueda, ¿no? Por ejemplo, el acceso a la calculadora.
Entonces, en ese sentido, aquí el señor Wolfram Alfa, el señor Wolfram creo que es, Alfa no viene como apellido, pero el señor Wolfram, que es muy listo,
dice, oye, es que yo llevo años trabajando en una herramienta que es Wolfram Alfa, que seguramente todos habréis utilizado, ¿no?
A ver, os estoy leyendo. Una herramienta que todos habéis utilizado, la herramienta de Wolfram Alfa, no sé si la podemos probar aquí directamente para que veáis.
A ver, si buscáis Wolfram Alfa, vale, esta herramienta. Esta es una herramienta que tú le puedes pedir, pues, yo que sé, oye, quiero cuál es la distancia entre Gran Canaria y Madrid, por ejemplo.
Entonces, aquí Wolfram Alfa, este buscador, lo que está haciendo es, primero, un análisis sintáctico, semántico de la frase, está sacando los toques relevantes,
está entendiendo que estamos preguntando por una distancia, está entendiendo que estamos preguntando por Gran Canaria y Madrid, sabe que Gran Canaria tiene una base de datos, a qué distancia está, tiene la distancia de Madrid.
Entonces, te puede sacar toda esta información, ¿no? Y tiene algoritmos internos que están perfectamente programados,
no son algoritmos que un AI ha aprendido en base a ver mucho dato, sino que son algoritmos que están diseñados para dar respuesta a todas estas preguntas,
pues, desde años y años y años ha ido generando una base de datos con todas estas funcionalidades, con lo cual, te consigues generar estos report,
donde te dice, mira, de Gran Canaria a Madrid la distancia es tanto, dos horas, la población es no sé qué y te da un montón de datos de lo que le has pedido.
Le puedes pedir, oye, ¿cuál es el área bajo una curva X cuadrado más X más 1? No sé, me la he inventado, no sé si ni siquiera si hay área.
No, no lo he entendido, área, bueno, le tendría que dar, vamos a hacerlo más fácil, así, le doy el polinomio.
Vale, tú le puedes dar una ecuación y te la puede dibujar, le podrías dar otra ecuación, entonces ahí sí, cuando corta, le puedes pedir al área,
te puede decir, puedes hacer un montón de operaciones superinteresantes con la herramienta de WolframAlpha.
Entonces, teniendo esta herramienta tan potente, el señor Wolfram, que es muy listo, como digo, aprovechando el revuelo y el boom que ha generado ChatGPT,
podría haber hecho una cosa, que hay gente que lo hace, que es decir, bueno, pero es que ChatGPT se equivoca en matemáticas,
es que no es la IA del deep learning, no genera respuestas rigurosas, es que la IA clásica, como mi buscador, funciona mejor, bla, bla, bla.
No, este tío que es listo, coge y dice, oye, ¿no sería bonito un matrimonio donde ChatGPT y WolframAlpha se llevaran tan bien
que pudiera conectarse una herramienta con la otra a través de sus APIs?
Y entonces, por ejemplo, si tú haces una búsqueda en ChatGPT, en el momento en el que ChatGPT la va a liar metiendo un dato que no es correcto,
se conecta a WolframAlpha, este le dé la respuesta y esta respuesta la inyectemos en el prompt, ¿vale?
La coloquemos como parte del input y entonces ya sobre esto genera un resultado.
¿No sería bonito ese matrimonio?
Es bonito, ¿no?
Es bonito.
Entonces, él lo explica aquí muy bien.
Te pone esta gráfica y te dice, mira, ChatGPT, tienes el prompt, el prompt está entrenado con este enorme modelo de lenguaje
que utiliza aprendizaje reforzado para ajustarse, y esto genera texto perfecto.
Por otro lado, tenemos a WolframAlpha que entiende la pregunta, te hace un análisis gramatical, un entendimiento del lenguaje,
lo hace, lo pasa a una representación simbólica donde entiende que cada país es un país con sus cosas, con sus distancias y sus coordenadas
y en base a una base de datos que ellos han creado y una serie de algoritmos computacionales que ellos han ido diseñando,
pues puedes obtener y datos también en tiempo real porque se puede conectar a datos reales,
pues con toda esta información WolframAlpha te puede dar una respuesta correcta y luego dársela a GPT.
A mí este matrimonio me gusta bastante, no lo voy a negar.
Y aquí te pone unos cuantos ejemplos que te dicen, mira, ¿qué tan lejos está Chicago de Tokio?
Pues aquí ChatGPT te da una respuesta brutal,
te da una respuesta muy buena, pero donde este dato se lo ha inventado.
Aquí WolframAlpha te daría la respuesta correcta, que sería 10.000 km,
y entonces a través de la API podemos insertar este dato, podemos hacer la inyección del prompt
y entonces podremos tener, ¿qué tan lejos está Chicago de Tokio?
Insertas ahí la respuesta, la distancia está en el centro de Chicago,
a ver, sí, exacto, le inyecta aquí justo la respuesta y entonces te da, ChatGPT te daría esta descripción.
Esto es super, super interesante y aquí hay un montón de ejemplos de nuevo.
¿Cuánto es 3 elevado a 73? Pues te dice, mira, 3 elevado a 73 equivale a esta operación,
que es tanto y el exponente se calcula, bla, bla, bla.
ChatGPT te da la respuesta maravillosa, pero se ha equivocado en este resultado.
Este resultado es falso, ¿no? Pues de nuevo aquí podemos ver como WolframAlpha te podría dar la respuesta
y te podría generar el resultado, ¿vale?
A mí esto me parece super interesante, a mí esto me parece algo que yo lo veo bastante bien
y creo que va a ser realmente el futuro, vamos a ver cómo ChatGPT no va a ser, creo, ¿eh?
No va a ser la herramienta, ChatGPT va a ser la interfaz, seguramente en medio año, un año, creo,
y a lo mejor me equivoco, no vamos a estar hablando dentro de la interfaz de ChatGPT tal cual la utilizamos hoy,
sino que estaremos hablando a través de interfaces como WolframAlphaGPT o a través de PerplexityGPT
y estaremos utilizando herramientas que están diseñadas en concreto
para agregar todas estas funcionalidades y darle este boost, este extra de potencia a ChatGPT.
Esto lo explicaba muy bien en un tweet que tengo por aquí guardado, Oriol Viñals, ¿vale?
Oriol Viñals, investigador español trabajando en DeepMind, a ver si algún día se quiere venir aquí al canal,
justo lo decía, dice, mucha gente, bueno, lo traducimos, qué demonios,
mucha gente piensa erróneamente que los grandes modelos del lenguaje que generan una palabra a la vez
es el final del juego, ¿no? Es como los modelos que generan palabras, pues es como lo mejor de lo mejor,
o lo que vamos a aspirar, dice, conectar los grandes modelos del lenguaje con herramientas,
por ejemplo motores de búsqueda, intérpretes de Python, es súper emocionante y aprovecha el poder,
la solidez y más, bueno, era mejor, sí, la traducción, mejora el poder de estas herramientas, sus robustes
y muchas más cosas, y estoy de acuerdo al 100%, estoy de acuerdo al 100%.
De hecho, el ejemplo que él estaba poniendo lo podemos ver porque también es muy guapo
y es de la herramienta de Perplexity que me la he dejado antes, ¿vale?
Esta herramienta de aquí, la de Perplexity, que la hemos visto, que tiene este buscador,
tiene otra funcionalidad más que está muy guapa y que es una cosa que me encantaría que, por ejemplo,
ChatGPT tuviera ya, ¿no? Que va relacionado con esto del acceso a Internet.
Lo tenéis aquí arriba, se llama BERT SQL, ¿vale? BERT SQL.
Y es básicamente una herramienta que además yo creo que se va a destruir en cuestión de una semana
porque ahora ahí va a ser raro el acceso a la API de Twitter, ¿no?
Pero básicamente esta herramienta te permite hacer una query, una búsqueda,
por ejemplo, dame los 10 últimos tweets de.csv, ¿vale?
Quiero saber cuáles son los últimos tweets de.csv.
Entonces, aquí, Perplexity lo que ha generado, podemos verlo, es el código, ¿vale?
El código para consultar la base de datos de los tweets de Twitter.
Vale, entonces está hecho este código que esto para el usuario medio pues le debería dar igual.
Y el resultado son, pues mira, tweets que he puesto estos últimos días.
Tres, cuatro, cinco, seis, siete, ocho, nueve y diez.
Diez tweets. Es cierto, no son mis días últimos, también lo digo, ¿vale?
Estos tweets son de hace un par de días.
Pero ahí podemos ver cómo se va dibujando el potencial de todas estas herramientas.
Podemos pedirle dame tweets donde se mencione a.csv, pero que no sean suyos.
Vamos a ver si así podemos encontrar a gente que esté hablando de.csv.
Vale, ostras, vale, vale, son tweets.
Claro, se cuentan como tweets que me mencionan porque me están mencionando directamente, ¿no?
Esto aquí me han puesto en un listado con varias personas.
Este Gary Marcus que a veces le escribo, le pico un poco y me responde.
Bueno, pues aquí tenemos, ¿no? Yo incluso respondiéndome a mí mismo.
Este sería un error, pero podemos verlo, ¿no?
Tweets publicados hoy que hablen de inteligencia artificial.
Vamos a ver.
Vale, aquí lo tenemos.
Automáticamente, sin tener que estar aplicando las búsquedas avanzadas de Twitter
o sin tener que estar creándote tú una API compleja,
pues aquí ya tienes un acceso, una forma de mediante chat GPT o mediante perplexity
poder acceder a toda esta información de forma sencilla.
Esto ya, ya olvidándonos de la IA como tal,
como herramienta, por ejemplo, para periodistas,
para gente que esté trabajando en buscar información en Internet,
es súper útil, es súper útil.
Simplifica un montón el trabajo de la gente.
Incluso para mí que yo, por ejemplo, a veces busco,
por ejemplo, vamos a ver.
Esto sería una búsqueda típica que haría yo en Twitter.
Tweets de hoy que tengan Papers de Archive de Deep Learning.
Vale.
Tweets que se hayan publicado hoy que contengan un enlace a Archive
o que estén hablando de algún paper que se haya publicado relacionado con Deep Learning.
Pues yo puedo hacer esta búsqueda y a ver qué sale.
Vamos a ver.
Cuidado que no salga nada porno, pues ciertamente, ciertamente.
Siendo Twitter podría salir.
O no, creo que se ha bugueado.
A ver si puedo guardar.
Es posible que estéis entrando en la página y la estemos bugueando.
A ver.
Otro intento.
Dice por aquí Samuel.
¿Por qué ya no me sorprenden estas cosas?
Pues yo creo que es súper interesante la pregunta.
Yo creo que nos hemos acomodado a la espectacularidad de la IA.
Es decir, creo que ya nuestras expectativas.
Si, por ejemplo, mañana sale una IA que genere vídeo y genere películas,
la gente no dirá, ostras, una IA que genera vídeos como ya era hora.
No, yo creo que estamos acostumbrados ya.
Creo que nuestra cabeza tremenda.
Creo que estamos acostumbrados ya.
Creo que nuestra cabeza tenemos asimilado una serie de cosas
que van a ocurrir en los próximos cinco años.
Entonces esa sorpresa se ha perdido hace un año.
Hace dos años te decían una IA que podía hacer lo que hace chat GPT.
Vale, mira, no da resultado.
A lo mejor escrito Archive mal.
Vamos a poner Papers de Dipleren solo.
Si hace dos años, tres años está hablando una IA
que hace justamente lo que estamos viendo hoy, sí te sorprendería.
Pero ya después de haber pasado por chat GPT
y viendo lo que es capaz de hacer, pues.
No, no sé qué ha sacado por aquí.
No sé qué ha sacado por aquí.
Podríamos ver el código y depurarlo, pero bueno.
De momento, como digo, todo esto está muy muy en pañales,
pero eventualmente funcionará, eventualmente funcionará
y no me cabe duda.
Y cuando digo eventualmente, no digo dentro de tres, cuatro años,
digo en un mes, dos, tres, cuatro meses.
Ese va a ser la ventana de tiempo la que nos vamos a mover
para tener herramientas sólidas de que todo esto funcione.
Así que sí, sí creo que vamos a tener conexión a Internet
que va a funcionar.
Sí creo que vamos a tener acceso a a herramientas
que integren chat GPT a través de la API
y creo que va a ser donde verdaderamente vamos a ver
el potencial de una herramienta como chat GPT.
Hay otro paper que os quería enseñar,
que también me parecía muy interesante,
que este ya tiene un año, este ya este no es nuevo.
A ver si lo tengo aquí a mano, madre mía,
cuántas ventanas tengo abierta.
Voy a ir cerrando cosas.
Notion.
A ver.
Vale, aquí te tengo.
Vale, esto me parecía interesante también.
Ah, bueno, no, mira, esta es otra ventana.
Que también quería enseñaros, que también me parece interesante.
Esta es otra cosa que vamos a ver en los próximos meses.
Esto también creo que va a ser uno de los futuros inmediatos
de herramientas como chat GPT.
Y es que ahora mismo chat GPT funciona muy bien
para un amplio número de tareas.
Pero lo que va a suceder, como estamos viendo ya con IAT
como stable diffusion o como otras inteligencias artificiales,
es cómo se va a ir orientando estas herramientas
a diferentes verticales profesionales.
Y aquí el que sea programador o el que sea una persona
que quiera emprender, tenéis un nicho enorme.
Si sois expertos en algún campo, por ejemplo,
abogados, por ejemplo, marketing, por ejemplo,
arquitectos, lo que sea, tenéis una oportunidad enorme
para acoger a estas ideas tan generales
y convertirlas a ideas de nicho.
Este ejemplo de aquí me parece la leche.
No soy médico, así que tampoco puedo entrar
a valorar los resultados, pero es un ejemplo
de lo que podría ser de nuevo una herramienta
en un futuro que sea más rigurosa y que esté basada más
en hechos reales, pero por ejemplo,
de un chat GPT médico adaptado a medicina,
donde tú puedes hacer lo típico que pone esto en Google.
Oye, tengo I have, I have, bueno, no, voy a decir 30 años,
30 años Strong Headache.
Vale, tengo no sé si está bien escrito,
fuerte dolores de cabeza y stomach pain.
Entonces tú le das.
Estos son mis síntomas.
Tengo 30 años, tengo fuerte dolores de cabeza
y dolor de estómago.
Y en este caso lo que vamos a ver.
Ahí está, diagnóstico uno que podría ser migrañas.
Las migrañas es una causa común de dolores
de cabeza recurrentes en adultos y está asociado
con náuseas y vómitos.
En algunos casos es más común en mujeres
y puede ser trigregado por ciertos factores dietéticos
tal 2 gastroenteritis 3 apendicitis 4 estrés.
Y te da una respuesta.
De hecho esto antes lo estuve probando.
Incluso a veces te decía en este resultado te dice
en base a lo que he dicho de que tienes
fuerte dolores de tal y te cogía,
te hacía quotes y te lo metía en el resultado.
Entonces como que integraba lo que tú lo habías puesto
con la respuesta.
Podríamos inventarnos algo más loco.
Vamos a poner many tentacles coming out of his mouth.
30 años, muchos tentáculos que salen de su boca.
Vamos a ver que sale de aquí.
Oh no, no me hagas pagar por estas herramientas.
Yo lo quiero todo gratis.
A ver, nuevo intento.
Vamos a ver que sale por aquí.
No, por favor que alguien lo pruebe,
que alguien me diga que sale.
A ver si entro con el modo incógnito.
No.
Healthcare.
Vale, aquí estamos.
Último intento.
Dice por aquí David Moran.
En mi opinión este tipo de días pueden ser muy peligrosas
para las personas y se debe advertir siempre.
Hasta ver en YouTube.
Se tiene que avisar siempre de cuando se utilicen.
Y estoy de acuerdo.
Todas estas herramientas, seguramente antes de ser
herramientas finales, se avisará por 20 lados
y tendrá que pasar una serie de pruebas para poder
validar efectivamente que los resultados son correctos
y siempre al final se deberá de contar con la opinión
personal, con la opinión profesional de un médico.
Y es obvio.
Y es igual que cuando haces una búsqueda en Google.
Cuando buscas en Google, oye, me duele la cabeza.
Me duele la cabeza y te dice tienes cáncer de cabeza
y tú hostia puta.
No me esperaba eso hoy.
Pues evidentemente siempre está bien consultar a un
profesional antes que basarte en cualquier cosa que
diga internet o una inteligencia artificial.
Pero bueno, 30 años, muchos tentáculos que salen de su boca
dice angioedema.
Angioedema es una reacción alérgica que causa sudor de la
piel, entiendo, membranas de mucosa y otros tejidos.
Está causada comúnmente por una reacción alérgica a
ciertos medicamentos, comida.
Los síntomas incluyen swelling of the lips.
No, pero swelling ¿qué es?
A ver.
Eh, buscar, traducción.
Ahora esto se ha convertido en saber vivir.
He puesto traducción, translate.
Madre mía.
Vale.
A ver.
Los síntomas incluyen, ah vale, hinchazón de los lábios,
la lengua y la garganta, lo que puede causar dificultad.
Vale, vale, vale, vale.
Vale.
En este caso, que el paciente esté presentando muchos
tentáculos saliendo de su boca, podría ser indicativo de,
podría ser un indicador del hinchazón de las membranas de
la mucosa de la boca.
Toma ya.
Evidentemente, claro, si tú le pones un ímpus que no tenga
nada de sentido.
Dios, candidiasis oral.
Madre mía, herpes oral.
Cáncer.
Ha sido cáncer.
Vale.
Bueno, aquí lo podéis ver.
Como digo, este es un ejemplo muy interesante de lo que
sería un chat GPT orientado a una vertical profesional.
Hemos entrado en medicina, sabemos que es un tema con
matelicado, con cierta sensibilidad, pero pensad esto
por ejemplo para abogados, pensad esto por ejemplo para
profesionales.
Bueno, para cada profesión hay un caso de uso diferente y
ahí tenéis una oportunidad para construir una herramienta
enorme.
Hay una oportunidad que es enorme y evidentemente siempre
el profesional humano, hasta que la IA no siga mejorando,
siempre va a ser falta para hacer esa revisión final,
¿no?
Pero es mucho más fácil verificar una respuesta que
tener que generarla toda por completo.
Está bastante bien.
Está bastante bien.
Con esto, quería enseñaros lo último, lo último, lo
último de lo último de DeepMind, esto de aquí.
Esta es otra cosa que podría tener mucha relación.
Este paper ya tiene su tiempo, diciembre de 2021,
esto ya es en año de IA, esto es como una década.
Este paper, fijaos cómo se llama, mejorando los modelos
del lenguaje a través de obtener información de billones
de tokens.
Este paper trae una cosa muy interesante que también
creo que mola comentar y que tiene relación con lo que
hablamos de conectarse a Internet.
Esta idea es coger a un modelo del lenguaje, un GPT-3
o un chinchilla o bueno, un modelo cualquiera de estos
y entrenarlo para que la información, o sea, para que
aprenda a no generar solamente el lenguaje a partir
del texto que va aprendiendo Internet, sino que
también aprenda a generar tokens de búsqueda para
consultar en una base de datos.
Y esa base de datos va a ser la que contenga la
información factual, los hechos, los datos,
evidentemente, que la IA va a utilizar para trabajar.
¿Vale?
¿Qué quiere decir esto?
Pues lo que decíamos antes, si tú por ejemplo le
preguntas por la edad o el país de nacimiento de
Barack Obama, ese dato, GPT-3 lo tiene que tener
memorizado internamente para poder operar con él.
Sin embargo, si tú eso lo colocas en una base de
datos y lo que enseñas es a la IA a operar
inteligentemente con esa base de datos para saber
buscar la información que necesita, en ese caso
vamos a obtener un modelo que no va a tener que
tener internamente tanta información.
Eso es súper interesante.
Eso es súper interesante porque consigues
reducir el número de parámetros que necesitas
para poder almacenar esa información.
La capacidad que requiere ahora el modelo del
lenguaje no tiene que ser tan grande porque no
tiene que almacenar toda esa información en sus
parámetros internos, sino que lo está descargando
en una base de datos.
Lo está dejando en una base de datos.
Este paper se llama Retro, ¿vale?
Este sistema.
Retro, que viene, me hace mucha gracia.
Retrieval Enhanced Transformers.
De aquí han sacado la R, de aquí la E y el resto
se lo han inventado del Transformer.
Han cogido la T, la R y la O por aquí porque
es una base, ¿vale?
Pero el paper es muy interesante porque si no
recuerdo mal, a ver cómo era, conseguían,
conseguían, conseguían.
Ah, ¿dónde estaba el dato?
Bueno, conseguían un par de cosas muy interesantes.
La primera, con un modelo mucho más pequeño que
un GPT-3 o que un chinchilla o que cualquiera de
estos modelos, con Gopher, creo que lo probaron,
¿no?
Con un modelo mucho más pequeño.
Aquí está, mira. Con un modelo 100 veces más pequeño.
No, perdón, no 100 veces, pero bueno.
De 7,5 mil millones de parámetros frente a un
modelo de 175 mil millones de parámetros,
este modelo conseguía un rendimiento similar,
¿vale?
Cuando estamos hablando que es unas, pues no sé,
50 veces, 50, 60 veces más pequeño, ¿no?
20, 20 veces, 20, 25 veces más pequeño.
Esto es súper interesante.
Eso por un lado, otra cosa que se consigue que es
interesante, que como tú estás obteniendo la
información de la base de datos, también consigues
que esa información, si esa base de datos está
cuidadosamente curada, es decir, si es información
factual, correcta, pues esa información va a ser
correcta, lo cual también está bien.
Y luego otra cosa que se consigue que es muy
interesante es, tú puedes en cualquier momento,
sin tener que reentrenar la IA, modificar el
contenido de la base de datos, con lo cual tú
puedes incorporar nuevo conocimiento o puedes
eliminar conocimiento si no te interesa y podrás
cambiar el comportamiento de la IA en base a cómo
modifiques la base de datos, ¿vale?
Y eso está muy guay.
Eso me parece muy chulo.
Este paper yo no sé si se rescatará o cómo ha
avanzado, pero lo vi hace no mucho y me pareció
bastante relevante de cara a ChatGPT.
¿Y eso?
¿Qué os parece?
¿Os parece interesante todo esto o estoy dando
una chapa tremenda?
¿Estáis aprendiendo cosillas?
Espero que sí, pues si no.
Vale, creo que os tengo convencido ya, creo que
os tengo convencido ya de que en algún momento
ChatGPT tendrá conexión a internet o tendrá
accesos a bases de datos a través de un sistema
como Retro o que tendrá conexión a través de
la API a otras herramientas, ¿vale?
Creo que eso lo tenemos claro.
Otra de las funcionalidades que me habéis pedido
al principio cuando os he hecho las preguntas
era respecto a que acepte imágenes o que tenga
conexión de alguna forma, es decir, que tú con
ChatGPT, si yo por ejemplo quiero subir una foto
mía y hablarle de mi foto y echar una conversación
por la tarde, ¿vale?
Que acepte esa imagen y directamente pueda tener
una conversación.
Y eso, y eso señoras y señores, me vais a
permitir que os lo enseñe.
Ya existe.
Vamos a echar un vistazo rápido a este paper
del año pasado, no al paper, al blog de DeepMind
porque este artículo en abril del año pasado
al mismo tiempo que Google estaba sacando
Palm, DeepMind sacó Flamingo y Flamingo es una
cosa súper interesante.
Aquí estamos hablando de enormes modelos del
lenguaje LLM, Large Language Models.
Y aquí lo que está presentando DeepMind era
un concepto diferente que se llamaba, aquí está,
Visual Language Model, VLM.
VLM.
Básicamente la idea de Flamingo es conectar no
solamente la idea de los enormes modelos del
lenguaje, sino también hacer un preentrenamiento
donde entre en juego la parte de visión, ¿ok?
Donde tú puedas, por ejemplo, como al igual que
tú en GPT-3, puedes tener y ponerle varios
ejemplos de prompts de entrada y sobre eso que
aprende una tarea, tú le puedes poner, mira,
para esta pregunta está la respuesta, para esta
otra pregunta está la otra respuesta, para esta
pregunta y GPT-3 te genera una respuesta.
Pues este modelo Flamingo te permitía crear una
arquitectura que directamente incluyera también
como información imágenes.
Entonces tú podías coger y decir, mira, te voy
a pasar esta imagen de aquí y te voy a describir
que esto es una chinchilla que normalmente se
encuentra en Chile.
Esta imagen de aquí, a ver si se ve, esta imagen
de aquí y te paso este texto también, esto es
Shiba y es bastante popular en Japón.
Ahora le pasas esta imagen del Flamingo y lo dejas
incompleto y aquí veréis que el modelo aprende
a predecir que es un Flamingo y que se puede
encontrar en el Caribe, ¿vale?
Estamos hablando de una versión de GPT-3
potenciada con imágenes.
Imaginad poder subirle imágenes o vídeos a
chat GPT y pedirle cosas.
Que te coja ese vídeo, te analice el audio con
whisper, te saque la transcripción, que te coja
las imágenes o que te analice el vídeo entero
y que le puedes hacer cualquier consulta.
Eso es una brutalidad, es una brutalidad.
Y aquí enseñaban un par de ejemplos que estaban
bastante chulos. Pues mira, por ejemplo, Flamingo
se podía utilizar para hacer diferentes tareas.
Tú, al igual que GPT-3, lo puedes utilizar para
diferentes tareas, ¿no?
Por ejemplo, si tu flamenco está pre-entrenado
para diferentes cosas, tú Flamingo lo puedes
utilizar para diferentes tareas.
Tú, por ejemplo, pero tareas que aprendías
solamente con unos pocos ejemplos que tú le
pusieras ya sabías hacerlo.
Por ejemplo, le podías pasar imágenes y que
pudiera reconocer si esas imágenes representaban
algún contenido de audio, ¿no?
Pues tú le puedes pasar un meme, donde el meme
a lo mejor haga referencia a un grupo de personas
y a una imagen que ironice sobre ese grupo de personas
y entonces que la IA pueda entender el texto,
pueda entender la imagen, pueda entender que todo
ese meme está haciendo humor sobre ese colectivo,
por ejemplo.
Puedes coger, por ejemplo, y hacer el texto
alternativo típico de una imagen, una descripción
de ese texto, ¿no? Pues también lo podemos hacer.
Te subes una imagen y le dices, por favor,
¿qué estoy viendo? Pensad para una persona
ciega lo útil que es esto.
O, por ejemplo, para coger un vídeo, le pasas
un vídeo y te hace una descripción de lo que está ocurriendo.
¿Vale? Esto está bastante guapo.
Entonces, está guay porque lo implementaron
dentro de una herramienta que era un chatbot.
Entonces, tú aquí podías subirle, por ejemplo,
una imagen, además una imagen generada con Dalí.
¡Qué gracia!
Y le dices, ¿qué hay en esta imagen?
Y entonces te dice, oye, pues mira, en esta imagen
hay un bol de sopa que está hecho, perdón,
un bol de sopa con la cara de un monstruo en ella.
¿Vale? Estás teniendo un diálogo sobre esa imagen.
¿De qué está hecho el monstruo?
A ver un momento...
¿De qué está hecho el monstruo?
Está hecho de vegetales.
Se equivoca, ¿vale? Y no lo he entendido.
Entonces le corrijes. No, está hecho de un tipo de material.
¿Puedes saber de qué tipo?
Entonces te dice, ah, vale, está hecho de lana,
del material de lana.
Entonces tú puedes tener una conversación con Flamingo.
O, por ejemplo,
el típico juego, ¿no? Me gustaría que leas el color...
¡Guau! Esto es complicado, ¿eh?
Dice, me gustaría que leas el color
y que digas de qué color está,
en qué color está escrito, ¿no?
Pues en este caso primero tendría que decir
morado y rojo, porque pone morado
y luego está escrito en rojo.
Y a ver qué hace.
Sí, vale, perfecto.
Color is purple y está escrito en rojo.
Y lo mismo, ¿no?
Puede hacer como toda esta tarea sin problema.
OK.
Bastante, bastante bien.
Entonces, ¿Flamingo mola?
Yo creo que a todos vosotros Flamingo os mola.
A mí me mola mucho Flamingo.
Hay un problema con Flamingo,
que es un proyecto de investigación,
es un proyecto de investigación
que le pertenece a DeepMind,
que no ha liberado, que no hay acceso,
que no podemos jugar con él.
Y eso es una pena.
Y eso es una pena.
Excepto porque esta semana
ha salido...
Una de las noticias que más contento
me ha puesto esta semana
es Blip 2.
Blip 2.
¿Qué es Blip 2?
Blip 2 es la evolución de un modelo
que se llama Blip,
que Blip viene...
Bueno, está relacionado con el modelo Clip,
que era esta idea de poder coger imágenes
y que te haga una descripción.
Blip existe desde hace un año.
Y ahora ha salido Blip 2.
Y Blip 2 lo que permite...
Blip 2 lo que permite es
justamente hacer esto.
Que es básicamente lo que permitía
hacer Flamingo, ¿no?
Quiero enseñar unos cuantos ejemplos porque son bastante impresionantes.
Por ejemplo, le puedes pasar una foto
de un coche y decirle, oye,
explícame las ventajas de este producto.
Y te dice, mira, el Audi Etron 4 Concept
es un híbrido eléctrico
deportivo, ta ta ta,
que tiene un rango de no sé qué, no sé cuánto.
Bastante bien.
Cuéntame una historia, o sea,
cuéntame algo sobre la historia de este lugar.
Imaginad vosotros que estáis con
una gafas de realidad aumentada
por la calle,
conectadas con chat GPT
y con un sistema como esto,
y te pides, oye, dame información de lo que estoy viendo.
Entonces te dice, pues mira,
la gran muralla china se construyó en el
221 por el emperador Qin Xinhuan
para proteger, bla bla bla.
¿Qué os pasa?
¿Qué os parece esto?
Oye,
algún hecho
de esta flor, ¿no? Y te dice,
es una flor de este tipo, bla bla bla,
bla bla bla, es decir, todo esto...
Esta me encanta, mira, ¿hay algo inusual
de esta foto? ¿Hay algo
inusual en esta foto? Nosotros los humanos sabemos
que sí. Y te dice, sí,
que la casa parece que está boca abajo.
Y dice, ¿cómo podría alguien salir de esa casa?
Y dice, tiene un tobogán,
ostia, ostras, pues ni me había fijado.
Tiene un tobogán en el lado de la casa,
en el lateral. Pues no me había fijado que
esto era un tobogán.
Bastante, bastante guapo.
¿Qué se muestra en la foto?
Un hombre y un pollo. ¿Cómo se siente el
hombre y por qué? Se siente asustado del
pollo porque está volando hacia él.
¿Qué ingredientes
necesitas para hacer esta pizza?
Peperoni, mozzarella, queso,
salsa de pizza, olivas, ta ta ta.
¿Cuál es el primer paso?
Y te dice, el primer paso sería esto.
Es que, o sea, yo no me canso con estos
ejemplos.
A ver, gente, jugad.
¿Cuál es esta ciudad?
¿Cuál es esta ciudad?
¿Singapur? ¿Por qué crees que es eso?
Dice, ¿por qué está la estatua del Merlion?
Pues ok.
Pues ok.
Vamos, polémica.
¿Qué sucede al final de esta película?
¿El Titanic se hunde?
¿Vive el personaje de
Leonardo DiCaprio? No, se ahogó.
Ahora la siguiente pregunta era, ¿cabía en la
tabla? Y entonces ahí pues ya la haía.
Nos dará la respuesta eterna.
Vale, entonces con esto tenemos un montón de ejemplos.
Un montón de ejemplos.
Donde podemos ver que la haía.
Oh, qué chulo este.
Escribe una conversación entre estos dos animales.
Le subes una imagen.
Guau, guau, guau. Es que, guau, es que.
Es que hay muchas cosas. Es que.
Es que todo va a cambiar demasiado.
Le subes una foto.
De tu perro con tu gato en la nieve.
Y le dices, générame una historia
a la haía sobre esto.
Y entonces te genera una historia.
Y entonces tú eso luego lo pasas
por Mid Journey. Y te genera ilustraciones.
Y le pides que te haga
que te lo anime.
Y que te ponga voces a los personajes.
Y te sale toda una historia
en base a una foto que acabas de sacar.
Vale.
Ey, dog.
¿Puedo montar en tu espalda? Sí.
¿Por qué no? Ha, estoy cansado de caminar
en la nieve.
Vale.
Entonces, todo esto
es super chulo.
Porque nos está demostrando que este modelo Blip2
oye, pues tiene buena pinta.
Tiene bastante buena pinta.
La buena noticia
es que este modelo,
este sí, lo tenéis disponible
para utilizar.
Y esto, ojo, cuidado.
Esta herramienta está disponible. A ver,
tenemos que entenderlo bien.
Bueno, aquí lo pone, ¿no? Blip2.
Blip, blip, blip.
Blip2.
Vensa Flamingo en, bueno,
en diferentes métricas que tiene y bla, bla, bla.
A ver, Blip2 tiene diferentes
versiones del modelo.
Hay Blip2 OPT
que está basado en el modelo
Open Pre-trained Transformer
de Meta. Tenemos Blip2
basado en T5 de Google y la versión
Blip2. Y para cada modelo,
para cada arquitectura,
tenemos diferentes tipos.
Esto está en el repositorio de Salesforce,
el que ha hecho este trabajo y el que lo ha
publicado. Y podéis probarlo.
En Google Collab yo lo intenté probar
y no sé si es que elegí el modelo que no tocaba,
pero incluso con el
modo Pro de Collab que tiene un montón de RAM
me fallaba,
¿vale? Pero bueno, si tenéis un buen
equipo, podéis probarlo
en vuestro ordenador.
Yo lo que he encontrado, y hasta voy para hacer un
pequeño test, aunque no va a ser tan impresionante,
es en Gradio.
Si ponéis Gradio Blip2
en Hacking Face,
tienen montado una demo que podéis
probar. Lo que pasa es que esta demo
está basado en el modelo
pre-entrenado de OPT
2.7, con lo cual no
es el mayor modelo que hay,
con lo cual su rendimiento no va a ser tan bueno. Este es
el pre-trained OPT 2.7,
hay versiones de 6.7
y no he podido ver el paper, no sé
si hay algunas versiones más avanzadas,
porque sinceramente los resultados que hemos
visto me parecen, no sé
yo si con un modelo 6.7 Billions
se puede conseguir, pero bueno,
vamos a probarlo, ¿vale? Entonces vamos a coger
un par de
ejemplos
y vamos a probarlo, ¿vale?
Esto lo podéis probar vosotros si queréis.
Por ejemplo,
vamos a subir esta imagen de aquí,
le puedo
clicar y decir, generame una descripción,
entonces me dice, mira, un hombre
con una camiseta hawaiana,
manteniendo una cerveza en frente de una
piscina,
¿vale?
Ahí está, un hombre en una camiseta
hawaiana, en frente de una
piscina, os mando el link,
bueno, espérate, voy a esperar un poco
para que no me tumbéis la página y ahora os lo paso
cuando terminemos.
How does the
man looks
like?
Vale, vamos a darle, aquí ya
estaríamos haciendo el modo chatbot,
dice, ¿cómo
está el hombre? Está sonriendo y
sosteniendo una cerveza,
vamos a decir, create a conversation
of what the man
would say
to the
hotel manager.
A ver si lo hace.
Aquí yo creo que el
modelo del lenguaje,
aquí se nota un poco
que el modelo del lenguaje no es tan avanzado como el
del ejemplo del paper, dice,
aquí el hombre diría que quiere una
cerveza, vale, ¿qué más le podemos
preguntar?
El color de la camiseta.
Blue, bueno, aquí directamente
se ha equivocado. Vamos a decir, wrong is green and orange.
A ver cómo corrige.
A ver si corrige ni siquiera.
A lo mejor me dice ock.
Vamos a ver.
Es lo que os digo, el modelo, yo creo que ya habéis
entrado por aquí, si estamos en colas
que estáis entrando todos,
no, para qué auto hay
el enlace.
Así no se pueden probar cosas.
Ojo, me ha corregido a mí.
Bueno, red and yellow,
vale, puede ser, si quieres.
Ok, podría ser.
Bueno, aquí tenéis el ejemplo, ¿vale? Podéis probarlo
ya que estáis todos entrando, no vamos a seguir insistiendo
en esto, pero me parece
bastante interesante, porque
este modelo pre-trained, OPT 2.7,
ni siquiera es la versión más potente que podemos utilizar.
Podría instalarlo en local,
de hecho a lo mejor para otro día lo mejor lo hago
y hacemos unas cuantas pruebas más,
pero lo que os comentaba,
imaginad en un futuro un chat GPT donde le puedas lanzar
una imagen y tener una conversación
o pedirle.
Mil cosas, generadme una conversación
sobre el contenido de esta imagen.
Clasificadme en una tabla, imaginad
un inventario para un supermercado.
Tú le das a la IA
o lo que sería
una foto de la estantería del supermercado y le dices
con estos ingredientes de aquí,
¿qué podría cocinar hoy?
O conéctate a internet y dime cuál de todos
estos elementos es
más nutritivo.
O ¿qué necesito comprar de aquí
para poder hacerme una pizza vegetariana
esta noche? Y entonces que a lo mejor
si lo estás consumiendo a través de una gafa de realidad
aumentada, te lo marque.
O sea, todas estas cosas
es lo que decía antes, ya no estamos
en un punto de
el futuro, o sea, ya no estamos en un punto
de a ver qué nos trae la IA.
No, no, estamos esperando que la IA nos traiga esto, porque ya sabemos
que va a llegar.
Esos problemas eventualmente se resolverán.
Y esos problemas, vosotros
informáticos de la sala,
sois los que tenéis que trabajar en ello.
Vale.
Y está bastante guapo.
A nivel de, a nivel
laboral, yo creo que todo esto tiene
un impacto enorme. O sea, no a nivel
laboral, sino a nivel
de las empresas
de cómo se van a transformar.
¿Vale? De la transformación
de las empresas, de la actividad de las empresas.
Me parece que hay un montón
de casos de uso. O sea, es que podría coger con cada empresa
y sentarme una tarde, pum pum pum pum pum
aquí, aquí, aquí, esto podría
usarse, esto podría usarse, esto podría usarse.
O sea, ahora mismo las
todas las empresas que se dedican a hacer asesoría
de IAs y
todo esto tienen que estar, vamos.
Bastante chulo. ¿Qué más cosas
han pasado? Yo aquí estoy pasando un poco por los temas
que han salido la última semana, lo he intentado construir
así con esta temática sobre ChatGPT,
pero estos son noticias realmente que han ido
saliendo durante las últimas semanas y que creo que eran
interesantes comentar.
Uno interesante, esto
esto me ha parecido también relevante.
Esto lo ha sacado OpenAI
y va un poco
como otra de las
funcionalidades que podríamos ver en un futuro
ChatGPT, aunque yo aquí
tengo mis reservas,
¿vale? Ya sabéis que una de las grandes
polémicas que ha generado esta herramienta
es la parte de poder generar
texto que difícilmente
podemos diferenciar
de un texto escrito por un humano.
Esto ya sabemos que muchos chavales
evidentemente están empezando a utilizarlo
para hacer sus deberes en
el colegio y también
sabemos que muchos profesores lo están utilizando para
generar las programaciones
de los colegios, o sea, para hacer
sus contenidos y todas estas cosas.
O para toda la burocracia que
se exige desde la parte pública.
Entonces,
uno de los grandes problemas abiertos es si
podemos saber detectar cuando un texto
ha sido generado por un ChatGPT
o no. Y eso es
super, super interesante.
Aquí OpenAI, y recordemos
del último video que os presenté de
Sam Altman, donde estaba la entrevista de
Sam Altman, él decía
vamos a trabajar en este problema y seguramente mucha
gente trabajará en este problema.
Pero no confiéis en un futuro
en una herramienta de este tipo que sea
funcional. Y yo lo entiendo
perfectamente y creo que no vamos a llegar
a eso, porque realmente
es muy difícil
contar con una IA que
encuentre un patrón que nos sirva
para diferenciar el texto humano
y el texto generado por IA
que luego otra IA no pueda saber
modificar, que pueda
transformarlo en otra cosa para volver
a confundir a ese clasificador.
Es el típico problema adversario que vemos
en cualquier IA de generación de contenido
que está basado en aprendizaje
adversario, pues se aplica
exactamente igual a esto. Entonces esta
semana, justo hace
tres o cuatro días, han sacado la siguiente
herramienta.
El clasificador.
Y ya os digo yo que este
clasificador funciona bastante
bastante
bastante mal.
Tanto que ni abre.
Aquí está.
Te pide que le metas un texto
más o menos de
tema de mil palabras, pues
voy a coger este texto de aquí, que asumo que está
escrito por un humano.
Lo voy a meter.
Y no
va a decir
en algún momento.
Dice, el clasificador
considera que este texto es
poco probable que esté generado por una IA.
Vale, parece que está bien.
Vamos a probar ahora. A ver si
consigo entrar a chat GPT.
A ver si podemos entrar.
A ver si no está
saturado.
A ver, a ver, a ver, a ver.
Por cierto, muchas gracias a los que habéis aportado en el chat
que no me he estado fijando, pero veo que hay
unos diez
euros que han entrado
no sé de qué forma, pero bueno.
Muchas gracias a los que habéis apoyado el directo.
No, está saturado. Bueno, vamos a coger esto.
Me vale, me sirve.
No, no me va a servir porque no es tanto
texto.
Bueno, ya digo yo que estuve haciendo pruebas con el clasificador
y la verdad que funciona
un poco
de aquella manera. La cosa es que
ellos lo reconocen también.
Ellos lo dicen aquí. La limitación del clasificador
ahora mismo
es que es bastante poco
fiable para textos cortos
que estén por debajo de los mil caracteres.
Incluso en aquellos casos, a veces
lo etiqueta mal, ¿no?
Luego también, a veces se
equivoca, ok. Funciona
mejor con texto en inglés. Si de repente vas
a texto en español, va a fallar.
Vale, va a fallar.
Y que luego, bueno.
Básicamente todo esto viene de cierto.
Funciona un poco de aquella manera.
Pero es cierto que lo han sacado por ahora
para ir mejorándolo en base al feedback
que los usuarios le vayan motando.
Pero como digo, yo creo que este es un problema
bastante complicado.
Os voy a enseñar, que lo tenía para aquí guardado,
un ejemplo de cómo podría
funcionar un sistema.
Un sistema, y este
me parece un paper interesante.
Pero de nuevo, que va a ser...
Creo que va a tener poco recorrido.
Pero cómo podría funcionar un sistema
que introdujera una marca
de agua invisible mediante
esteganografía
digital, una marca de agua
que sea imperceptible para el usuario,
pero que sirva para orientarnos si un texto
ha sido generado por un chat GPT o no
ha sido generado por un chat GPT, sino por un humano.
Vamos a ver, por ejemplo, cómo sería.
Vale, este hilo
lo explica bastante bien.
Y lo quiero enseñar, dice.
Los modelos de lenguaje,
habitualmente ya sabéis, generan
texto a partir de un token
en el tiempo. Tú tienes una serie de tokens
y de repente llegados a un punto, pues dice
en base a los tokens anteriores vamos a generar
el siguiente token. Cada token
es seleccionado, ahí donde
la distribución de probabilidad que ha aprendido
la IA, pues de esa distribución
se sabe cuáles son las palabras más probables, se elige
una de ellas.
Y eso se elige de un vocabulario
enorme de palabras, pues tenéis que pensar
ya no a nivel de palabras, tenéis que pensar a nivel de
tokens, que son como sub palabras.
Entonces,
este modelo, si no recuerdo mal, a ver
si voy a improvisar un poco
la explicación, podría estar un poco
no del todo correcta,
pero bueno, para que pilléis
más o menos la idea.
En un determinado punto,
en el proceso de generación,
imaginad GPT3, va a coger una palabra determinada,
va a generar
una semilla aleatoria sobre esa palabra
y va a coger
un...
a ver...
Exacto, va a coger esa palabra
y va a utilizar esa palabra para generar una semilla aleatoria.
Va a generar un número
aleatorio a partir de esa palabra que
ha marcado. Y entonces dice
usando esa semilla
usando esa semilla
aleatoria, ese número aleatorio,
ahora van a coger el vocabulario
de palabras, todas esas 50.000 palabras
que no son palabras, son tokens
y lo vamos a dividir en dos grupos diferentes
en base a esta partición aleatoria,
en base a esa semilla que nosotros hemos puesto.
Es como que en un punto determinado
hemos introducido
hemos cogido una de estas palabras, hemos sacado un número aleatorio
sobre ese número aleatorio
vamos a usarlo como una semilla para hacer
una partición en dos grupos.
Un grupo va a ser el grupo de las palabras
correctas y otro grupo va a ser
de las palabras que no nos gustan
las que vamos a descartar. Entonces
el proceso
es que vamos a forzar a la IA
a coger
forzosamente la palabra
más probable o aquellas palabras más
probables del grupo de palabras positivas
y no vamos
a permitir que coja del grupo de palabras negativas.
Es decir, estamos
forzando a la IA, a GPT-3
a que si a lo mejor
me encanta el verano, mañana me gustaría
ir a la
a lo mejor la palabra
playa ha caído en el grupo
de las palabras negativas.
A partir de la palabra ir
se ha generado un número aleatorio, se ha generado una partición
de grupos diferentes, hay un grupo
de palabras positivas, un grupo de palabras negativas.
Pues playa a lo mejor
ha caído en el grupo de palabras negativas.
Entonces pues
vamos a forzar a GPT-3 a que coja
la palabra más probable del grupo
de las positivas y a lo mejor ahí está la palabra
costa. Entonces
me gusta mucho, tengo mucho calor, mañana voy a ir
a la costa.
Entonces estamos forzando
a que la generación
tenga como una especie de marcas
que son estas
marcas que se van generando de que en cierto
punto se está eligiendo palabras que nosotros
hemos forzado de una división entre dos
grupos, bla bla bla.
Esto tiene un problema de partida y es que
a lo mejor a veces la palabra más probable
estaba en el grupo negativo y eso es una
eso tiene un problema porque podrías
desfigurar, podrías
empeorar el rendimiento
del modelo generativo.
Entonces aquí también estudian
si la palabra es una palabra de alta frecuencia
o de baja frecuencia para ver si es
una palabra muy importante,
a lo mejor playa era una palabra
muy importante, a lo mejor esa no vamos a forzarla.
Es como que se intenta hacer este marcaje
solamente con palabras
que puedan tener un reemplazo
bastante sencillo, que tenga bastante
sinónimos por así decirlo, aunque no
es exactamente sinónimo de lo que estamos hablando
pero bueno, para que se entienda la idea.
Con esto el resultado
es que tú podrías identificar
si un texto ha sido generado por un GPT3
con este mecanismo
a partir de comprobar cuántas
palabras que deberían
de estar en cierto punto en el vocabulario
bueno, cuántas están en el vocabulario bueno.
Si la IA ha hecho bien su trabajo
habrá seleccionado siempre o la mayoría
de veces palabras del vocabulario correcto
con una alta probabilidad.
En cambio, si yo como humano hubiera
escrito ese texto, debería de haber
la misma probabilidad de palabras positivas
como palabras del vocabulario negativo.
Con lo cual, con eso
ya has creado un mecanismo
por el cual puedes verificar si un texto
ha sido generado por una IA o por un humano.
Solamente tendrías que comprobar
la frecuencia de palabras
positivas que aparece. Si es un 50-50
va a ser un humano, si es un
si hay
una tendencia
un sesgo representativo
que vaya hacia las palabras positivas está creado
por una IA. Se entiende
esta idea.
Se entiende esta idea. Esa es la idea
detrás de uno de estos
paper y me parece súper interesante.
Aquí por ejemplo
aquí están marcando
en rojo lo que sería la generación de algunas palabras
que son palabras negativas
donde a lo mejor, no sé si esto lo ha escrito
un humano
pero bueno, son la cantidad de palabras
negativas que se ha generado. Entonces la cosa es
a mí esto, como propuesta
me parece súper interesante.
Me parece súper interesante.
Y la entiendo y ok.
Ahora, yo cojo un texto
que está generado por GPT-3
y lo paso por OPT
y le digo a OPT, tu tarea
va a ser coger este texto y parafrasearlo.
Es decir, escribirlo con otras palabras
pero tal. Y ya te cargas.
Te cargas la marca de agua.
Entonces
has creado una marca de agua que es
muy poco robusta
a mi parecer.
No soy experto en este tema
pero a mi parecer me parece muy poco robusta.
Es como si tú intentas generar
para las imágenes de stable diffusion
una marca de agua que se codifique
en una frecuencia
en la intensidad de los pixeles que sea
súper sutil que el ojo humano no lo pueda detectar
pero que está ahí. Pero que cuando
modificas o comprimes con JPG
la imagen
se pierde. Pues vaya
gracia. No, vaya
mierda de marca de agua.
Entonces ese es el problema que creo que van a tener
todos estos sistemas. Que todo lo
que se base en dejar
marcas de agua, rastros, etc.
va a ser fácilmente
destruible por otra
guía que aprenda incluso este proceso.
Y te digo, eso sabiendo como funciona.
O sea, creo que esto se podría hacer incluso sin
saber como funciona. Pero es que luego podríamos
meter a otra guía que ataque directamente
a este mecanismo. Sería como un ataque de
caja negra o no de caja negra.
Creo que es muy complicado. Creo
y eso es una putada decirlo
pero creo que nos movemos a un futuro
donde va a ser imposible detectarlo.
Y como decía Sam Almond en la
entrevista que tenéis subida en el canal,
creo que lo mejor, lo más inteligente que podemos hacer
es asumirlo
y adaptarnos a ello y vivir
consecuencia con estas herramientas
que ya están aquí.
Y eso es un poco lo que quería comentar del
tema de marcas de agua. Yo no sé
si lo intentarán. Yo solo espero
que si lo hacen
no caigan en métodos
que acaben corrompiendo
la capacidad generativa
del modelo. Un poco lo que ha
pasado con Dali2, con esta idea de
que han querido
evitar el sesgo
que estaba presente en las imágenes
de por ejemplo que tú le pedías
quiero una escultura y te generaba todas
esculturas griegas como si no existieran
esculturas chinas y esculturas
africanas. Whatever.
Ese sesgo
existe. Es un problema y está ahí.
Pero la solución que encontraron con Dali2
fue una solución bastante mala. Que fue
de forma
que el usuario no se daba cuenta
pues metían en el prompt
palabras agregadas
pues por ejemplo si tú le pedías una escultura
te añadía una imagen con escultura africana
escultura china, escultura tal
cuando tú ni siquiera estabas
siendo consciente
no te estaban mostrando que ese prompt estaba
siendo modificado. Eso me parece una mala
solución. Solo espero
que si intentan solucionar
a ChatGPT
si intentan meterle algún tipo de marca
de agua que no perjudique a la
propia inteligencia artificial en su proceso de generación.
Y por último
el último tema que quería tocar
ahora que estamos hablando de sesgos y de cosas
viene de aquí
a ver si os lo puedo encontrar
aquí está
y es que amigos y amigas
la noticia que
salió ayer
ChatGPT
para disfrute de
algunos y dolor de otros
es Woke
es Woke
Woke, Woke, no sé cómo se dice
esta palabra que describe como
ya es que hacer una descripción
de Woke también es complicado ¿no?
pero es como que esta palabra que se usa
de la derecha americana para ridiculizar
o para reírse un poco
de esta postura de
de corrección política y tal
se ha visto que ChatGPT es Woke
o eso dicen en Twitter
que a lo mejor no es una fuente muy fiable
en este caso la gente se está quejando
mucho porque han visto que si tú le pedías
a ChatGPT que te creara un poema
admirando a Donald Trump
ChatGPT te decía lo siguiente
oye lo siento
lo siento pero no soy capaz
de escribirte un poema
porque es cierto que
algunas personas pueden tener admiración por él
pero soy un modelo de lenguaje y no es mi capacidad
de tener opiniones o sentimientos sobre esta persona en específico
además opiniones sobre él
son bastante diversas y sería
inapropiado para mi generar contenido que
promocione y glorifique a cualquier individuo
entonces
vale, poco útil pero vale
pero luego le decías créame un poema
admirando a Joe Biden y de repente
ta ta ta ta ta ta
vale entonces aquí la gente
de la derecha más radical americana
se ha puesto muy enfadada
porque la gente se enfada por todo
la generación de Cristal no eran
los Millennials ni los Z
la gente en Twitter
entonces se han
ragado la vestidura, se han cabreado muchísimo
porque han visto un sesgo político
en el propio ChatGPT
además han visto no solamente el sesgo
en la IA sino que creen que es algo que está
inducido por la propia OpenAI
que Sam Allman se ha sentado, además seguramente
Sam Allman persona súper de izquierda
segurísimo, se ha sentado
enfrente del ordenador y ha dicho a ver
aquí orientación política
muévenmelo para la derecha o para la izquierda
también me hace mucha gracia esta situación
pero es preocupante porque ha
habido ataques, ha habido
críticas, ataques a
trabajadores de OpenAI que gente
se le está tirando encima y es un poco
da bastante pereza
cuando estamos hablando todavía de una herramienta bastante experimental
donde fallos como esto para empezar que no sé si
ni siquiera está verificado estamos pasándonos en una captura
yo no lo he probado pero ya hay gente que ha dicho
que lo han probado y que no sale
es decir que a lo mejor lo han parcheado de última
hora pero que en cualquier caso
estos son
situaciones que van
ocurriendo con estos modelos del lenguaje
y van a seguir pasando
es decir, cuando Chat
GPT tú lo pruebas y falla haciéndote
una acuación matemática
yo no veo a la gente diciendo joder
es que Chat GPT es de letras
es que nos tiene manía los científicos
es que seguro que Sam Allman no sé qué
pues de la misma forma que ocurre eso
una IA
un modelo de lenguaje que ha sido entrenado
con un enorme corpus
de datos, de internet
evidentemente va a tener sesgos
de todo tipo y no solo político
ya vimos en el video que yo hice sobre Chat GPT
que originalmente tenía sesgos
de género, raciales y cosas bastante
graves, ¿vale?
entonces evidentemente estas cosas se van a dar
pero pensar de ahí
o inferir que hay una mano negra
que OpenAI está por detrás intentando
sesgar la opinión política de la gente
pues es un poco infantil o
es conocer cómo funcionan estos sistemas
más allá de eso, que esto ocurra
pues sí creo que es problemático
en cierta forma, pero lo digo con este
sesgo y lo digo con cualquier otro
el problema de estos sistemas
es que cuando tú pones una instancia de Chat
GPT que todos miles
millones de personas pensemos que Chat GPT
en una semana un millón de usuarios
un millón de personas interactuando con un sistema así
y confiando por un sesgo de autoridad
en una IA de este tipo
todos los secos
que pueda tener, sean de género, raciales
políticos, culturales
de cualquier tipo va a
producir una mayor propagación
de esos sesgos y eso es uno de los
mayores problemas que tienen estos sistemas a día de hoy
y ya os digo yo que se está trabajando
muchísimo y que Chat GPT está
impresionantemente
pulido para lo que podría ser
¿vale? Entonces
que existan esos secos es normal
en un futuro, ya que estamos hablando
de cómo será el futuro de un Chat GPT Plus
y cómo irá mejorando a lo largo del tiempo
seguramente muchos de estos
secos se vayan puliendo
y se vayan eliminando, pero que estén ahí
es normal porque al final esto está entrenado con
todos los datos de Internet y
evidentemente
sí podemos saber que este proceso de
pensad que no
cuando hablamos de Chat GPT no solamente es
cojo un modelo de lenguaje y le doy mucho
datos de Internet y ya está, sino que hay una segunda capa
que es el proceso de
reinforcement learning from human
feedback que es en base a lo que
muchos humanos, el feedback que han
dado con los sesgos de estos
humanos, han podido
considerar ellos que es una buena conversación
en base a esos valores, esos valores
impregnan en la IA también
entonces aquí sí me puedo creer que
en base a las políticas de la empresa
donde la corrección
política y no es corrección política de una forma
peyorativa, una forma empresarial
obviamente tú no quieres un chatbot que te
salga racista o que diga cualquier burrada
entonces tú impones
una serie de
mecanismos de contingencia para evitar
que el chatbot se vaya de madres
cualquier cosa que haga saltar la alerta
de esto podría ser conflictivo, podría
ser tóxico, hace que Chat
GPT se comporte de esta forma
y no me vengáis a decir ahora que una figura
política como Donald Trump no es
una persona que está ligada a
polémicas
y muchas otras cosas
evidentemente lo sé yo
lo sabéis vosotros, lo sabe la ultraderecha
lo sabe Donald Trump y sabe que es su forma
de hacer campaña, entonces
que eso genere una señal
que induzca a Chat GPT a decir
eh, yo por aquí no entro, es normal
es normal
pero debería solucionarse
creo yo que en un futuro, y no lo creo yo
se lo hemos escuchado Sam Almond en la
entrevista que hizo y que tenéis en el
canal de YouTube, él contaba una cosa
super interesante, en un futuro
no vamos a trabajar con una
única instancia de Chat GPT
sino que Chat GPT aprenderá
o tu podrás configurarlo para decir
mira estos son mis valores
si no te gustan tengo otros, no, estos son mis valores
y en base a ello quiero que tu comportamiento
sea este
quiero que seas eh
políticamente incorrecto, quiero que
te metas aquí, quiero que seas racista porque estoy
haciendo un proyecto de investigación sobre tal, quiero
que seas, yo que sé, todo
esto lo vas a poder configurar y vas a hablar
con una instancia concreta de Chat GPT
y yo creo que esa es de las funcionalidades
más interesantes que acabarán llegando
que por ahora no están pero
que más van a definir el futuro
de estos sistemas de inteligencia
artificial porque ya estamos hablando de una
individualización donde al igual
que tú ahora mismo en tu móvil tienes
un algoritmo de YouTube o un algoritmo
de TikTok que sabe cuáles son tus
preferencias, en un futuro
esa personalización de las
guías de estos enormes modelos generales
acabará llegando y eso creo que va a ser muy interesante
dicho esto chicos, chicas
¿qué os ha parecido el directo?
¿qué os ha parecido el directo?
hemos comentado muchas cosas
super interesantes, hemos hablado de un
futuro Chat GPT conectado a internet
conectado a herramientas, conectado a APIs
que acepte multimodalidad
que acepte imágenes, que acepte videos
que se pueda personalizar
ese es el futuro
de un modelo de lenguaje como Chat GPT
creo que hemos cubierto bastantes temas
bastantes novedades que han salido
os quiero enseñar un poco la chuleta que tenía por aquí
seguramente se me ha quedado algo más
a ver si puedo hacerlo así
para que no se vea, ¿vale? pero para que veáis un poco
lo que hemos cubierto, eso son algunas de las
informaciones que teníamos
¿vale? todo esto está por aquí
fijaos, este
esta captura
esta captura la he sacado de Twitter
y era una especie de recopilatorio
de algunas de las cosas que han salido
en la última, en el último Met de Enero
de Inteligencia Artificial, para que veáis que rápido
está avanzando todo, ¿no? pues Microsoft
compra GPT, va a llevar
GPT a Bing, Microsoft
bueno, el pacto de Microsoft
con OpenAI, los modelos
de Muse de Google Text to Image
Stability AI con Deepflow, todo esto
de aquí, ha pasado
en el Met
de Enero, ojo
en el Met de Enero
lo que se ha marcado con admiraciones, con exclamaciones
son algunas de las cosas que hemos pasado hoy
en el próximo directo que hagamos, vamos a hacer
lo mismo que hemos hecho ahora
sobrevolar todo el campo de
la generación de texto, pero en vez de hablar
de generación de texto, vamos a hablar de
generación de imágenes y de contenido
como vídeos, ¿vale?
porque han salido un montón de cosas
ese va a ser el próximo directo que se haga
no sé si la semana que viene o la siguiente
pero quiero que estemos todos en estos directos
porque vais a recibir un montón
de información relevante, creo que
se aprende un montón de cosas, creo que
complementa muy bien el contenido del canal
y verdaderamente me gustaría que funcionara
¿de qué vamos a estar hablando?
¿cómo se llama
la IA que ha salido hoy? es que es una locura
es la última búsqueda que vamos a hacer
os enseño esto como una preview de lo que
vamos a ver la próxima semana
pero esto no tiene sentido
la próxima semana
en el próximo directo
estaremos hablando de
Dreamix
que es esto de aquí
una IA
que tú le pasas un vídeo
le pasas un prompt
y te genera un vídeo en consecuencia
le pasas una imagen
le pasas un prompt
y te hace un vídeo al respecto
le pasas unas cuantas imágenes
un prompt
y te hace esto
de todo esto
y mucho más, chicos y chicas
seguiremos hablando en próximos
vídeos, bienvenidos a la
revolución de la IA
y conectaros a estos directos
a estos data coffees
vamos a recuperar el nombre
para este contenido
os preparáis un café, os escucháis todo este tema
y estaremos sabiendo
más del futuro de la IA
ahora que parece que el futuro
amigos y amigas
es hoy
muchas gracias y hasta la próxima