logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Hace un par de semanas, OpenAI hizo lo que más le gusta. Un evento relámpago donde menos de media
hora han dejado caer una tecnología sorprendente, sacada de una película de ciencia ficción y que
de nuevo pone al mundo, al menos en teoría, patas arriba. ¿Lo presentado? Bueno, ya lo sabéis. Un
nuevo asistente por voz que pone la inteligencia de GPT-4 a funcionar en tiempo real.
Los resultados son verdaderamente impresionantes y el culpable detrás de todo esto es una nueva
tecnología de OpenAI, un modelo que ya conocemos como GPT-4O de OVNI. Y esto es importante entenderlo,
esto es un nuevo tipo de arquitectura, un nuevo tipo de modelo, un nuevo tipo de GPT-4, algo diferente.
Un modelo multimodal de texto, audio e imagen. Inteligente como GPT-4, pero más rápido y más
barato. Y en esta última frase es donde están todas las claves para entender la importancia del
nuevo modelo insignia de OpenAI. Vamos a analizarlas. Pero antes os traigo nuevas
ofertas del patrocinador de este vídeo que vuelve a ser Hostinger. Y es que si estás pensando en
lanzar tu propio proyecto online, tu página web, tu portfolio personal, lo que sea, puedes contar
con las ventajas que te ofrece Hostinger. Ya que en muy poquitos clics podrás registrar con ellos tu
propio dominio. Luego seleccionar un estilo que coincida con tus gustos o dejar que la inteligencia
artificial instruida a partir de una descripción sencilla que tú le des, la diseñe al completo
por ti. Y luego, si quisieras, pues podrías retocarla y cambiar cosas en la página web utilizando
su potente creador de sitios web. Además, cuando hagas esto vas a poder contar con la ayuda de
modelos que predigan con mapas de calor a dónde se irá la atención de tus visitantes. Y contaréis
también con herramientas de creación de contenido optimizada para SEO usando también inteligencia
artificial y un montón más de funcionalidades que ahora, durante la primavera, pues podéis
obtener con un gran descuento. Así que si por fin quieres lanzar tu página web, no pierdas
la oportunidad. Os dejo abajo la información en la cajita de descripción. Y ahora sí, vamos
con el análisis.
A ver, aunque parece que mucha gente lo está empezando a descubrir ahora, ya en ChatGPT
teníamos la opción de poder interactuar por voz con el sistema. Esto es algo que muchos
lo habréis probado a través de la aplicación móvil y la experiencia, lejos de ser perfecta,
pues era bastante satisfactoria. Poder tener una conversación con una IA pues siempre mola.
Pero antes este asistente de voz no era multimodal puro, sino que funcionaba a través de la concatenación
de tres modelos diferentes. Whisper, para la transcripción de voz a texto. GPT-4, el modelo
del lenguaje que tomaba el texto y razonaba con él generando más texto. Y el Voice Engine,
capaz de leer esa respuesta en texto, pues con una voz más o menos natural y con cierto
parecido en algunos casos a Scarlett Johansson. Y este esquema tenía sentido con las piezas
que OpenAI pues había ido desarrollando desde finales de 2022. Pero no era suficiente, había
problemas. El primero es que concatenar tres modelos diferentes agregaba más latencia,
que rompía por completo la ilusión de estar hablando en una conversación en tiempo real.
Algo que ahora con el nuevo modelo GPT-4O, que acepta como input audio y genera como salida
audio, ocurre directamente en un mismo modelo, reduciendo así drásticamente los tiempos de
respuesta por debajo de los 320 milisegundos. Habrá que ver si estos tiempos se respetan
cuando seamos millones de usuarios hablando con la IA conectados a los servidores de OpenAI.
Pero más importante que la latencia está que en el esquema anterior pues se perdía mucha información
vital de una conversación. Cuando transformas la voz a texto pues pierdes información como el tono
de la voz, la entonación, el sonido ambiente, el quién está hablando. Aspectos fundamentales que
aportan una información extra con la que la IA también podría razonar. Entender por tu tono de
voz si estás alegre o si estás triste. Si estás hablando de forma sincera, ¡oh, qué interesante!
O saber por el sonido ambiente el contexto en el que te encuentras, si estás trabajando en una
cafetería o a lo mejor estás en tu casa. Todo esto son tareas que antes era imposible de resolver
con modelos que sólo transcribían a texto y que si queríamos resolverlas pues nos obligaba a
entrenar modelos de audio específicos para dicha tarea. Este ejemplo lo ilustra muy bien. Aquí le
piden a GPT-4O que presente un concurso de cultura general y ambos participantes al inicio con su voz
se presentan. En ese momento la IA no sólo está escuchando sus nombres sino que también es capaz de
asociarlos con el tono de su voz, de identificarlos. Ellos ahora van jugando por turnos y la IA
inteligentemente pues improvisa preguntas, lleva la puntuación. Y en la ronda final donde se lo
juegan todos vemos como hay un momento en el que los dos responden casi a la vez.
Este ejemplo es espectacular porque sutilmente nos está enseñando pues capacidades en tiempo
real de análisis de audio que hasta ahora la IA no podía ejecutar de forma tan general. De hecho
esta tarea de identificar a los diferentes interlocutores de un audio antes requería
de entrenar a modelos específicos para que cumplieran esta tarea. Y ahora podemos contar
con un sistema de voz lo suficientemente general como para poder hacerlo automáticamente. Pero es
que además lo mismo ocurre con la salida. Y es que GPT-4O de forma nativa sí puede escuchar pero
también puede hablar. Y eso significa que su output pues no se restringe a unos parámetros concretos del
habla. Que sólo habla con una voz que lee un texto. Sino que inteligentemente según el contexto y la
tarea que le pidamos pues va a poder modular su voz y expresarse de diferentes formas a distintos
ritmos con diferentes emociones.
De hecho y aunque es un poco confuso tal cual lo han presentado en su página web en teoría este
modelo podría ser capaz incluso de generar cualquier tipo de sonido. Pues por ejemplo reproduce el sonido de
de monedas cayendo sobre el metal. Y que GPT-4O pues note un sonido como este.
Visto así pues a GPT-4O lo podemos considerar todo un avance en los modelos de audio. Y que además
esto funcione en tiempo real y que nos permita tener conversaciones donde podemos hablar de
donde podemos interrumpir, donde podemos contarle en cualquier momento lo que estamos pensando. Pues
creo que no sólo es un avance a nivel académico sino que va a ser toda una revolución y fenómeno social de los
próximos meses. Y que esto funciona en tiempo real y que nos permita tener conversaciones donde podemos
interrumpir, donde podemos contarle en cualquier momento lo que estamos pensando. Pues creo que no sólo es un avance a nivel
académico sino que va a ser toda una revolución y fenómeno social de los próximos meses. Y sin embargo
GPT-4O todavía esconde unos cuantos secretos más. Porque como hemos dicho antes la O de GPT-4O no viene de
Oh qué guapo, un asistente de voz. Sino que viene de la palabra Omni. Que es la forma tan bonita que ha encontrado
OpenAI para referirse a multimodal. Ya que en este caso el modelo no sólo es un modelo de audio a audio. Sino que
su multimodalidad abarca tres modos de datos diferentes. Texto, audio e imágenes. Y esto tanto
de entrada como de salida. Hasta ahora lo que teníamos en ChatGPT era lo siguiente. La modalidad
de texto a texto, que sería el GPT-4, el modelo de lenguaje normal de siempre. La modalidad de imágenes a texto,
que era el modelo GPT-4-V. Y la modalidad de texto a imagen, que era el modelo de generación de imágenes
DALI 3. Pero ahora todos estos modelos que antes funcionaban por separado, ahora vuelven a estar
combinados en un único modelo. Y con ello, pues por combinatoria, la cantidad de funcionalidades
nuevas y nuevas interacciones que podremos pedirle a la IA crece exponencialmente. Por ejemplo,
en teoría el modelo podría escuchar un sonido ambiente y en función de lo que haya escuchado,
pues generar una imagen que vaya acorde a justamente ese sonido. O aprovechando el canal de audio a texto,
pues podríamos generar una aplicación que no solo analizara la transcripción de lo que estoy diciendo,
sino que utilizara el tono de mi voz y las diferentes formas de expresarme, pues para hacer un análisis de
sentimiento durante una conversación en tiempo real. Algo que podría tener un enorme valor en
aplicaciones de atención al cliente, donde se esté analizando pues el grado de satisfacción según la
conversación se vaya dando. Esta es la potencia de la multimodalidad. Y justamente a esto es a lo que
ha apuntado OpenAI con su modelo Omni, tal y como muestran en esta foto del laboratorio, donde en la
pizarra podemos ver cómo, bueno, pues el modelo multimodal procesa la probabilidad conjunta de
analizar imágenes, audio y texto, excepto porque esta imagen no es real. Esta es una imagen generada
también por GPT-4O. Recordemos, puede generar imágenes. Efectivamente,
esto es una imagen generada por inteligencia artificial, pero ya no utilizando a un modelo
tipo Dalí que está conectado a GPT-4O, sino que directamente es una imagen generada por el
mismo modelo Omni. El resultado pues nos enseña cosas interesantes, donde vemos que este modelo
es bastante bueno generando detalles como el logo proyectado en la camiseta, iluminación natural de
esta escena, o algo bastante interesante, lo bien que genera el texto, en este caso elegible a la
perfección. Esto marca una diferencia con los modelos de difusión con los que habitualmente
trabajamos, ya sea Dalí 3, Mid Journey o Stable Diffusion. Es algo diferente. Y digo diferente y
no mejor porque en el resto de ejemplos que han mostrado en su web, la calidad parece no ser tan
buena como la de un modelo de difusión. Ahora veremos por qué. Pero sí lo es, por ejemplo,
su capacidad de mantener una consistencia entre imágenes generadas, donde tú puedes crear un
personaje y continuar modificándolo en las siguientes generaciones a partir de instrucciones de texto,
pero manteniendo iguales sus características. O podríamos pasarle al modelo una imagen de
entrada a través de su canal de visión para que el modelo la perciba, la entienda y luego a partir
de ella pues genere algo nuevo o algo parecido o que la modifique. Algo que con Dalí pues no podíamos
hacer trabajando dentro de ChatGPT porque en esta concatenación de sistemas de GPT-4V, ChatGPT y Dalí 3,
pues había una transformación a texto a través del prompt que hacía que mucha información se
perdiera. Algo similar a lo que pasaba antes con el sonido. De nuevo, ventajas de trabajar con un
modelo multimodal. Y aquí estamos hablando mucho de todas las novedades que GPT-4O pone sobre la mesa,
pero no estamos entrando a hablar tanto de cómo funciona esta multimodalidad. ¿Qué cambios en la
arquitectura han hecho que ahora GPT-4 pueda hacer esto? No lo sabemos. Y es que ya sabéis que OpenAI no
comparte nada. Pero por suerte pues siempre está por ahí Meta queriendo molestar un poco y en este
caso a los pocos días de haber salido el modelo GPT-4O, Meta presentó esto de aquí. El modelo
Camilleon o Camaleón. Un modelo en el que los propios investigadores apuntaban en este tweet a
que podría ser una arquitectura similar al famoso GPT-4O. Qué sutileza. Bueno, la idea es la siguiente.
Ya sabemos que los modelos del lenguaje actuales se basan en tomar texto y convertirlo a trocitos de
palabras. Y luego se entrena un modelo tipo Transformer para a partir de una secuencia de
tokens aprenda a predecir cuál es el siguiente token futuro. Y aprenda a predecir a partir del
texto pasado cuál es el texto futuro. Pues ahora con las nuevas modalidades de datos,
por ejemplo las imágenes, vamos a hacer lo mismo. Convertimos las imágenes en trocitos,
las tokenizamos y a partir de una secuencia de tokens visuales dejamos que el modelo prediga
los siguientes tokens. Claro, si lo vemos desde el punto de vista de generar una imagen pues esto
es muy diferente a los modelos de difusión tipo Dalí, donde a partir de ruido y un prompt pues se
genera toda la imagen al mismo tiempo. No, aquí hablamos de un modelo autoregresivo donde usamos
los tokens anteriores para generar tokens futuros. O lo que es lo mismo donde la imagen se va a ir
generando secuencialmente, donde para predecir el siguiente trozo de imagen nos basamos en los
trozos anteriores. Y esto, si os acordáis, no es una idea nueva. De hecho ya en este canal en 2021
hablamos de las VQGAN, que sería el tipo de arquitectura que más aproximaría al funcionamiento
de este tipo de modelos generativos. Y seguramente sea por esta diferencia de arquitectura respecto a
los modelos de difusión por la que nos estamos encontrando esta diferencia de capacidades a la
hora de hacer texto legible, pues la calidad, la consistencia, va por ahí. Y lo interesante es
que este modelo autoregresivo es multimodal. Es decir, esta idea de basarte en los tokens anteriores
no solo se tiene que basar en tokens visuales de imágenes o solo tokens de texto, sino que
podemos intercalar diferentes tokens de texto e imágenes para hacer diferentes tareas. Por ejemplo,
podemos imaginarnos tener una conversación en la que tú le pides a la inteligencia artificial
que te explique algo sobre pájaros extraños. Y donde ahora el modelo podrá ser capaz de
secuencialmente generarte párrafos de textos acompañados de imágenes. Imágenes completamente
nuevas que se intercalan de forma coherente en el texto y que han sido generadas a partir del texto
e imágenes anteriores. Es que de hecho en un futuro en teoría le podríamos pedir incluso al modelo que
nos generara el sonido que hace cada pájaro. Algo que de nuevo no era imposible hacerlo antes con
GPT-4v, con DALI-3, con todos estos sistemas funcionando en conjunto, pero que ahora lo
podemos conseguir con un único y mismo modelo. Y sumado a esto otra capacidad nueva aprendida por
la IA y que nos muestra meta a través del proyecto Chameleon, pues sería la siguiente. Pues podríamos
tomar una imagen y convertirla a tokens para luego adjuntarle tokens de texto que indiquen una
instrucción de cómo modificar dicha imagen. Y luego podríamos dejar que la IA prediga los
siguientes tokens, que serán tokens de imagen que generarán la imagen modificada. Es decir,
lo que tenemos es un modelo InstructPix2Pix, pero que no hemos tenido que entrenar explícitamente
para dicha tarea, sino que el modelo multimodal pues lo ha aprendido de forma automática.
Como veis, la multimodalidad es la leche y todavía quedan muchos casos de uso que no empezaremos a
descubrir hasta que la tecnología llegue a nuestras manos, similar a como pasó con ChatGPT en el pasado.
Ahora, tengo clarísimo que la capacidad que mayor impacto va a tener en los próximos meses,
sí, es la capacidad de escuchar, la de hablar, pero también la de ver.
Sí, en realidad, tenemos un nuevo anuncio para hacer.
Sí, en realidad, tenemos un nuevo anuncio para hacer.
Aunque pueda parecerlo, el modelo de OpenAI no cuenta con análisis de vídeo. Pero si entendemos un
vídeo como una secuencia de fotogramas y audio, pues ahí podemos ver por qué GPT-4O puede con
ello. Posiblemente lo que está ocurriendo aquí es que el modelo estará seleccionando pues ciertos
fotogramas clave cada pocos segundos y estará analizándolos en tiempo real para generar una
respuesta de ello. Y esto es interesante porque mientras estos tokens de estos fotogramas permanezcan
dentro de la ventana de contexto del modelo, que ahora se ha ampliado a 128.000 tokens, pues el modelo
podrá recordar cosas que ha visto previamente. Esto, por ejemplo, lo vemos en este caso donde
tras haber desaparecido la chica de escena, pues Greg le pregunta a la IA si ha ocurrido algo extraño.
Y donde la IA lo recuerda. Y esto también es algo similar a la demo mostrada por Google de su proyecto Astra, donde tras varias interacciones multimodales, luego se le pregunta a la IA si ha visto un par de galas.
Y donde la IA lo encuentra. Muy interesante. Esto habilita nuevos usos que parecen sacados de películas de ciencia ficción. Desde los muchos ejemplos que nos han mostrado en su página web usando el asistente de voz en el móvil.
Hasta usos más potentes y que nos dibujan el camino que OpenAI quiere seguir en los próximos meses. Estoy hablando de contar con un asistente que pueda ver, sí,
pero que pueda ver nuestra pantalla. Para ver y entender qué sucede en las aplicaciones que estamos utilizando y que nos pueda ayudar en todo momento.
Y como ya predije en el vídeo original sobre ChatGPT de hace año y medio, pues sí, a día de hoy todavía es para ayudarte a cómo hacer una tarea en tu ordenador,
pero próximamente será para ejecutarla la propia IA. Y los ejemplos de agentes asistenciales no solo los veremos en nuestros ordenadores, sino también en el mundo físico real.
Puesto que la baja latencia de este tipo de modelos, como GPT-4O, pues van a permitir su aplicación en la robótica general.
De hecho, estoy segurísimo de que la demo que vimos hace un par de meses del robot Figure One ya estaba utilizando a GPT-4O en sus capacidades de hablar, ver y escuchar en tiempo real.
Y fijaos que ahora estoy haciendo mucho hincapié en esto de en tiempo real.
Porque aquí es donde creo que OpenAI ha logrado una de las cosas más impresionantes y creo que nos le estamos dando la importancia que verdaderamente tiene.
Y es el enorme grado de optimización que han tenido que aplicar a este modelo.
Un modelo multimodal capaz de ver y generar imágenes, capaz de razonar a través de texto, capaz de escuchar, capaz de hablar de manera instantánea.
Para poder haber logrado esto han tenido que aplicar técnicas de destilación de conocimiento muy, muy agresivas.
Y normalmente cuando tú aplicas este tipo de técnicas, pues acabas teniendo un modelo que sí, que funciona, que es más ligero, pero que es más tonto.
Y si bien por el uso de los usuarios hemos visto que algunas tareas, pues este modelo las hace mejor y otras las hace peor que GPT-4, creo que sí podemos hablar de que este modelo es digno perteneciente a la familia de GPT-4.
Y esto es impresionante.
Hacer un modelo semejante a GPT-4 con todas estas nuevas capacidades y que además funciona a la velocidad que funciona, me parece de las noticias más importantes del año.
Y su eficiencia no solo se percibe en la velocidad en la que se ejecuta, sino también en el precio.
Que ha vuelto a bajar a la mitad de precio respecto a hace unos meses y que ya es seis veces más barato de lo que era GPT-4 hace un año.
Y si esta es la tendencia que tanto OpenAI como el resto de la industria va a seguir de hacer modelos cada vez más inteligentes, más capaces y más baratos con el paso de los meses, pues estamos ante un camino bastante prometedor.
Y aquí la duda es la de siempre en el mundo del Deep Learning y es, ¿este nuevo modelo hasta dónde escala?
Es decir, si OpenAI ha entrenado a este GPT-4, targeteando pues que sea un modelo eficiente y barato, que pueda estar disponible para todo el mundo y que funcione en tiempo real,
¿qué pasaría si ahora entrenaran a un modelo, bueno, que tuviera tiempo de inferencia más lento, que fuera más costoso, pero que fuera más potente?
Quizás con más capacidades. ¿Qué sería este modelo? ¿Un GPT-5O? ¿Un modelo GPT-Next? No lo sabemos.
Del futuro de OpenAI sabemos muy pocas cosas, no sabemos cuándo ni cómo, pero sabemos que algo grande está por llegar.
Y creo que estos modelos Omni pues están abriendo un nuevo camino que diverge de los modelos GPT-4 originales, pero que puede ser muy interesante y muy prometedor.
Aún así, lo que sí podemos tener claro es la apuesta por parte de OpenAI por la multimodalidad.
Y esto es algo que quedó perfectamente demostrado en esta impresionante demo que hicieron la semana pasada en un evento en Francia.
El punto de inicio de esta demo es un prompt de texto que vamos a utilizar para generar un vídeo con Sora.
Claro, en el contexto de un evento en Francia, pues han querido recrear la Expo Universal de 1889 que se celebró en París, con un vídeo que como podemos ver y como nos acostumbran las creaciones de Sora, pues es impresionante.
Podemos ver gente paseando, monumentos impresionantes, la Torre Eiffel, pero la cosa no se queda aquí.
Porque el siguiente trabajo de la inteligencia artificial será analizar el propio vídeo que ha creado.
Y en concreto no el vídeo, sino algunos fotogramas seleccionados, tal y como hemos visto antes.
Aquí se han elegido algunos fotogramas, algunas imágenes, y ahora GPT-4O, con su capacidad de visión, va a crear una narración explicando qué es lo que está sucediendo en el vídeo.
Y seguimos avanzando, porque aprovechando las capacidades de clonación de voz del sistema Voice Engine, pues ahora el presentador usando 15 segundos de su voz
Va a dar su voz para narrar el texto generado por GPT-4O.
Narración, que además si quiere, pues puede doblar a diferentes idiomas.
Esta demo que acabamos de ver es impresionante.
Es una demo a fin de cuentas, así que hay que cogerla como tal.
Y también hay que entender que no se trata de un sistema multimodal puro.
Pero aquí no estamos trabajando con un único modelo, sino con diferentes tecnologías por parte de OpenAI que trabajan conjuntamente.
Pues Sora para generar vídeo, el Voice Engine para clonar la voz y generar la narración, GPT-4O para entender qué pasa en ese vídeo.
Es decir, diferentes tecnologías trabajando en conjunto.
Lo que tenemos que entender es que OpenAI esto lo ve como un paso intermedio.
Y seguramente en un futuro den el salto a una tecnología, a una demo como esta, pero en una estructura similar a lo que hemos visto hoy con GPT-4O.
Es decir, un sistema multimodal conjunto capaz de entender texto, vídeo, audio, imágenes.
Y que en consecuencia pueda generar texto, vídeo, audio, imágenes y seguramente nuevas modalidades de datos que todavía a día de hoy ni nos imaginamos.
Debloqueando así un montón de funcionalidades que seguramente en el horizonte temporal que queramos, 5 o 10 años, funcionará de forma muy barata y en tiempo real.
Este es el futuro al que OpenAI y al que todos nosotros nos tenemos que empezar a preparar.
Y mientras tanto, pues actualmente en mayo de 2023, estamos viviendo un impasse un poco raro.
Es lo que me gusta a mí llamar el efecto bomba atómica.
Hemos visto estallar la bomba, hemos visto el flash de luz, pero la onda expansiva todavía no ha llegado.
Hemos visto la demo, hemos visto la capacidad y un futuro de ciencia ficción que se ha hecho realidad con esta nueva demo de GPT-4O, pero todavía no ha llegado a nuestras manos.
Todos vosotros, a día de hoy, si habéis interactuado con el modelo GPT-4O, ya sea en la capa gratuita o en la capa premium, habéis trabajado con el modelo de texto a texto.
Pero el resto de modalidades, tanto generación de imágenes, pues sigue funcionando con Dalí 3, comprensión de imágenes sigue funcionando con GPT-4O, es decir, el modelo todavía no funciona como nos han mostrado.
¿Llegará? Sí, llegará.
La onda expansiva llegará.
Creo que va a ser muy bestia, creo que va a ser muy revolucionaria, creo que va a cambiar de nuevo un poquito más el mundo, como la inteligencia artificial nos acostumbra.
Y cuando llegue, pues lo contaremos aquí, en este canal, en .docsv, donde la inteligencia artificial no solo se presenta, sino también se explica para que todos vosotros disfrutéis de esta revolución.
Si os ha gustado el vídeo, no dejéis de suscribiros, que tenemos que llegar al millón de suscriptores antes de acabar el año.
Si os ha gustado este análisis sobre GPT-4O, compartidlo.
Muchas gracias de nuevo al patrocinador de este vídeo, a Hostinger, por apoyar este contenido, que cuesta mucho hacerlo.
Y que, bueno, gracias a este apoyo lo podemos tirar hacia adelante.
Y chicos, chicas, nos vemos ahora sí con más inteligencia artificial aquí en .docsv.
Muchas gracias.