🔴 EVENTO OPENAI: Actualización IMPORTANTE de ChatGPT y GPT-4o ✨

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

results.

Mention graph

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Chicos y chicas, bienvenidos a un directo muy especial en el que hoy OpenAI, la querida OpenAI,
nos ha convocado a todos para traernos actualizaciones, traernos novedades.
Vais a darme la confirmación inicial de que todo se escucha bien, de que todo está bien,
de que el sonido está alto, escucharéis la música de fondo del streaming de OpenAI,
que la verdad está bastante alta, la vego bastante alta, a ver, se escucha, se escucha, se escucha,
todo fino, perfecto, estamos con un micrófono, esto es importante, ahora se está oyendo un bucle,
a ver, fuera, ahí está, ahora sí, estamos aquí.
Chicos y chicas, hoy nos ha convocado OpenAI para un evento actualización de primavera,
un evento que se esperaba con mucha incertidumbre, por lo que OpenAI pueda traernos hoy.
Hay mucho hype, hay mucho hype y es extraño porque la propia OpenAI en los últimos días
ha generado bastante hype en redes sociales, algo que no suele ser tan habitual, suelen ser bastante comedidos,
suelen bajar expectativas ante, bueno, cuando la gente se emociona demasiado con
oye, GPT-4 va a ser una AGI de un trillón de parámetros, de repente llega OpenAI o Sam Alman
y dice, chicos, relajaos, a lo mejor esto va a decepcionar, recordemos que había entrevistas
de Sam Alman de este tipo, pero para el evento de hoy se ve que hay un entusiasmo
y en palabras de Sam, del CEO de la empresa, pues parece que puede ser lo que van a presentar algo bastante mágico.
No es GPT-5, ¿vale? No es un buscador y de esto quiero hablar ahora.
Vamos a empezar haciendo estos 20 minutillos previos al comienzo del evento, un análisis rápido
de lo que podrían sacar hoy y luego vamos a disfrutar con lo que nos quieran presentar.
Hay rumores, se sabe un poco qué puede ser, pero las grandes incógnitas, primero, ¿qué?
¿Qué van a presentar hoy? ¿Qué podrían presentar hoy? A ver, ¿qué sabíamos de este evento?
Yo este evento sabía que algo iba a suceder desde hace como mínimo tres semanas.
Yo tenía confirmación de que OpenAI quería dedicar este tiempo a sacar algo.
Aún así, incluso antes, yo ya tenía en el calendario colocado ahí como llamitas de fuego,
en plan zona peligrosa, porque, bueno, es evidente, ¿no?
Esta semana, justo mañana, que vamos a estar cubriéndolo también en directo,
está el Google I.O., el famoso evento de Google, donde van a traer un montón de novedades
también de inteligencia artificial. Eso es mañana.
La semana que viene es el Microsoft Build, el evento de Microsoft, donde va a traer también
muchas novedades que muchas veces vienen apoyadas por lo que OpenAI saca los días previos,
con lo cual era una ventana de oportunidad muy grande para que la gente de OpenAI,
que sabemos que siempre juegan a contraprogramar, no la aprovecharan, ¿no?
Entonces, evidentemente, evidentemente, iban a aprovecharlo.
¿Qué pasa? Que se sabía que lo que iban a sacar para estos días, yo al menos tenía confirmación de ello,
era el famoso buscador. Esto es algo que va a llegar, SearchGPT, parece que se va a llamar la tecnología,
y es un buscador. Y a mí eso me dejaba un poco frío, porque un buscador con inteligencia artificial
es lo que BingChat ya nos ha mostrado, lo que Perplexity ya nos ha mostrado,
lo que Gemini, incluso que tiene conexión a Internet, nos ha mostrado,
y lo que incluso ChatGPT tiene con la conexión de Bing.
Entonces, en ese sentido, un buscador me parecía algo bastante poco interesante,
pero bueno, era lo que parecía que se iba a anunciar en estos días.
Sin embargo, el viernes, cuando se anunció el evento, Sam Alman puso un tuit diciendo
que no se iba a presentar ni GPT-5, y tampoco se iba a presentar un navegador,
perdón, un buscador. Lo cual ya me pone a mí un poco ante la duda, ¿no?
Porque si no es un buscador, ¿qué van a presentar? ¿Y por qué no están presentando el buscador?
Lo del buscador creo que se ha quedado un poco en el aire,
porque entiendo que hay cosas que todavía no funcionan, puede ser que esté pasando eso,
o bueno, que a lo mejor quieran posponerlo a alguno de los eventos futuros,
tanto el Microsoft Build o el Apple Event, que este es otro de los rumores que están circulando por ahí,
que puede que haya alguna alianza comercial entre Apple y OpenAI.
Esto de nuevo son rumores, así que vamos a cogerlos con piensas.
Pero que había un buscador y que se iba a sacar en esta semana,
y seguramente en este evento, era algo evidente.
Entonces, si quitamos el buscador del medio y quitamos GPT-5, ¿qué nos queda?
Pues nos quedan algunas cosillas que hay que comentar.
Por ejemplo, desde hace un par de semanas ha sucedido una cosa bastante misteriosa,
y el que siga la actualidad un poco de la IA por Twitter, pues lo conocerá,
y es la aparición de modelos, atentos, cogeos a las sillas por si estabas ahí esperando GPT-5.
No, modelos GPT-2.
Sí, sí, GPT-2, ¿vale?
No me he vuelto loco, no es que hayamos vuelto de repente al 2020 GPT-2.
¿Qué ha pasado?
Bueno, de repente, en el LLM Arena, en el portal donde muchas empresas están utilizando
para encontrar algún tipo de evaluación basada en las vibes que la gente encuentra
con estos test a ciegas, donde te ponen los resultados de dos modelos,
pues por ejemplo, ChatGPT versus Gemini.
Y entonces tú tienes que votar A o B.
Pues en ese portal, de repente, aparece GPT-2.
Aparece un modelo llamado GPT-2, pero que rinde bien.
Rinde muy bien.
Rinde al nivel de GPT-4 e incluso un poquito mejor.
Y se llama GPT-2.
GPT-2 sin guión.
Esto es importante porque hay una distinción entre si es GPT-2 con guión,
que podría ser el GPT-2 de toda la vida,
o GPT-2 como si fuera un Generative Pre-Trained Transformers 2,
como una nueva versión de esta arquitectura.
Bueno, yo creo que es OpenAI trolleando y testeando algunos de los modelos que hoy vamos a ver.
Yo creo que hoy vamos a ver una actualización de modelo de GPT-4.
No creo que se llame GPT-4.5.
No creo que sea GPT-5, evidentemente.
Pero sí va a haber una actualización de modelo que no tengo muy claro a qué responde.
No sé si va a ser un modelo más rápido, más económico para ellos
y por tanto a lo mejor que puedan poner de forma gratuita sustituyendo al GPT-3.5.
Sería muy impresionante.
Esta es una de las teorías que también circulaban
y si esto se confirmara sería algo bastante impresionante,
pero creo que hay bajas probabilidades de que realmente fuera un modelo tipo GPT-2 en tamaño.
Un modelo, si no recuerdo mal, creo que eran 1.500 millones de parámetros.
Que de repente tuviera las capacidades de GPT-4.
De repente un modelo muy, muy pequeñito que pudiéramos embeber en un dispositivo móvil
o que pudiéramos ofrecer de forma muy barata,
porque si la cuenta de parámetros es baja, pues ya sabéis por el último vídeo
que energéticamente nos cuesta menos y por tanto a las empresas les cuesta menos.
Eso sería impresionante.
Eso sería OpenAI teniendo un avance sin precedentes
y no creo que vaya por ahí.
Yo creo que va a ser un modelo más inteligente que GPT-4,
que han estado testeando, han ido aprovechando esta rumorología
para también hacer un poco de generar ruido
y crearnos este hype, que también es una empresa que lo hace muy bien,
no lo vamos a negar, y creo que va a ir por ahí los tiros.
Una actualización de modelo que responderá a otra cosa.
Otra teoría loca que tenía con esto,
y eso conecta con lo que posiblemente veamos hoy,
que creo que va a ser bastante impresionante
y es uno de los rumores que más se ha escuchado
y que casi casi está confirmado,
es que en el evento de hoy lo que vamos a ver es un nuevo,
una nueva forma de interactuar con ChatGPT.
¿Vale?
Me estáis diciendo que la música está alta, voy a bajarla un poco
porque ciertamente me está taladrando a mí también el oído.
Ahí está, la voy a bajar hasta que empiece el evento.
Posiblemente lo que podamos ver hoy
es la aparición de un asistente de voz
que ya ChatGPT lo tenía.
Quien haya probado la aplicación sabéis que podéis hablar,
incluso creo que ahora en PC también está disponible,
podéis interactuar con voz a través de ChatGPT.
Y esto es muy interesante porque a mí, por ejemplo,
me gusta mucho salir a pasear, ponerme los cascos
y estar hablando con el sistema.
¿Qué pasa?
Que este asistente de voz que ahora mismo tenemos en ChatGPT
es un sistema no multimodal puro.
¿Vale?
Entendemos que ahora mismo la inteligencia artificial
hay algunos sistemas que están entrenados de formas multimodales
para aceptar diferentes modos de datos.
Por ejemplo, el propio GPT-4 tiene capacidades
para entender imágenes y entender texto.
Y esto viene de forma nativa con el modelo.
Sin embargo, el audio no es una modalidad nativa
dentro de ChatGPT.
Y lo que parece que podrían presentar hoy
es una opción nativa donde esta modalidad venga incluida
y donde nosotros podamos hablar con el modelo
entre audio y el modelo procesa inteligentemente este audio
y genera audio como salida.
Esto sería diferente a cómo funciona ahora
donde lo que tenemos son diferentes capas de modelos
donde nosotros hablamos al móvil Whisper.
El modelo de Text-to-Speech entra en juego y lo convierte a texto.
Ese texto se lo damos como input a ChatGPT, ChatGPT razón
y luego hay un modelo de este...
No me acuerdo cómo se llamaba.
El Voice Systems o algo así.
Que sacaron hace un par de meses el Voice Engine
que luego genera esa voz de salida.
Yo creo que hoy lo que van a hacer es saltarte muchas de estas capas
para hacer que el modelo tenga directamente...
Entra audio, sale audio y entonces la forma de interactuar con la IA
sea con menos fricciones, con menos latencia
y que sea por tanto más orgánica.
Si esto lo hacen, puede estar bastante guay.
Puede estar bastante guay y por la forma en la que lo están vendiendo
de una experiencia bastante mágica, en palabras de Samalman,
pues creo que va a ir por ahí los tiros
y va a ser bastante chulo.
Puede que hoy estemos ante uno de esos productos
que OpenAI saca y genera muchísimo ruido.
Es cierto que nos va a mover hacia un futuro
un poquito más de ciencia ficción, si cabe,
de lo que hemos ido viendo en los años anteriores.
¿Y qué le pido yo a este asistente de voz?
Esto lo estaba pensando yo antes, lo estaba hablando con Sandra,
de cómo podríamos hacer un asistente de voz
que realmente fuera impresionante.
Quien lo haya probado, creo que una de las cosas
que todos podemos estar de acuerdo es que mejoren la voz.
La voz en español no es tan buena como la voz inglesa,
tiene este acento, tiene esta pronunciación extraña
y tiene algunas palabras que a veces se equivoca
a la hora de pronunciarlas
y la más icónica es cuando dice 1, 2, 3, quarter
y te dice un quarter ahí que te saca por completo de la experiencia.
Eso podría ser uno de los avances.
Recordemos que el Voice Engine que nos han presentado
hace un par de meses realmente era un modelo
de generación de voz que tenían desde finales de 2022,
con lo cual pueden tener algo mucho más pulido,
algo mucho más trabajado, como la voz que escuchamos
en el ejemplo del robot de Figger,
la demo del robot que cogía la manzana,
ese tenía una voz un poquito más interesante,
que tenía incluso algunos dejes humanos,
tartamudeaba y eso era bastante chulo.
Pero más que una mejora de voz,
yo lo que le pediría al sistema sería como una forma
de interactuar más orgánica.
Yo, por ejemplo, cuando estoy hablando al sistema,
una de las fricciones más altas que tengo
al hablar con el asistente de voz es
que le tengo que decir todo muy rápido.
Si me paro a pensar en lo que quiero decirle,
en ese momento el asistente para y dice,
vale, ¿te has callado?
Porque hay un modelo de Voice Action Detection,
¿te has callado?
Transcribo, se lo mando a Whisper y empieza a responderte.
Y es como, no, no, no, espérate, estoy pensando,
déjame pensar.
Entonces genera una especie de microansiedad ahí de,
te lo voy a decir todo muy rápido,
no voy a pensar nada, no voy a dejar de hablar
porque si dejo de hablar de repente tú vas a empezar a...
Y es como, chill.
Entonces molaría que el modelo escuchara de forma proactiva
y entendiera cuando una frase está completa o incompleta.
Eso, creedme que es una de esas tonterías
que mejoraría muchísimo la experiencia.
Eso mejoraría mucho la experiencia.
Y otra cosa que tiene también mucha relación
sería lo contrario.
Nosotros poder interrumpirle al modelo.
Cuando empieza a escupirte toda esa salida de texto,
que ya sabemos que ChatGPT no es escueto en sus respuestas,
tú le dices, hola, buenos días,
y te dice, buenos días, se puede decir primero,
en este idioma, tatatay, es como, chico, relax.
Ahí molaría poder decirle, hey, ChatGP, relax.
Y que entonces se pare y diga, perdona, sí, lo siento.
Que sea una conversación mucho más orgánica.
Ya todos entendéis.
O sea, vosotros podéis coger el móvil ahora
y llamar a un amigo
y podéis tener una conversación súper orgánica.
Eso es lo que OpenAI creo que hoy nos quiere presentar.
Eso es lo que creo que nos quieren presentar.
Y de funcionar bien, como parece que podría funcionar,
pues puede ser algo bastante chulo y bastante futurista
porque es lo que nos han vendido
desde el cine de ciencia ficción,
desde la película de Herk,
que parece que nos movemos fácilmente a confirmar ese futuro.
Pues podríamos llegar a ello.
¿Qué más podríamos ver?
Ojo, yo aquí luego tengo piezas y cosas
que no termino de entender del puzzle de OpenAI,
pero me sorprende mucho que había gente hace una semana y pico
hablando de OpenAI con el tema del buscador.
No, van a presentar un buscador.
Esos que no tienen mucho que presentar.
Y es como, creo que OpenAI se está sentando
sobre mucha tecnología bastante impresionante,
que a lo mejor todavía no funciona,
pero están investigando muchas cosas.
Recordemos que con el éxito de ChatGPT,
OpenAI empieza a contratar un montón,
empieza a investigar un montón.
Y OpenAI ha crecido mucho a lo largo de un año.
Y sé que hay cosas que,
porque yo hablo con mucha gente,
y gente que está conectada,
y gente que ha tenido acceso a cosas.
Yo sé que hay cosas, ¿vale?
Yo sé, de lo que sé que está en el horizonte,
yo he hablado con gente que ha visto modelos más potentes
que GPT-4.
Sabemos que ninguno le va a llamar oficialmente OpenAI
y no va a decir estos GPT-5,
todavía no le van a poner etiqueta,
pero sí hay gente que ha visto modelos más potentes,
con lo cual significa que ese modelo ya estará
en fases de a punto de salir.
He visto gente que ha visto demos,
y esto creo que podríamos verlo hoy,
donde se juega con,
le pido al asistente, pues por ejemplo,
un vídeo con Sora,
genero un vídeo,
ese vídeo se lo paso a la ChatGPT,
que entiende el vídeo,
entiende su contenido y genera una transcripción.
Esa transcripción,
ahora cojo una voz y la clono,
lo narro,
cambio el idioma a otro idioma,
¿vale?
Todo esto pidiéndoselo de forma orgánica
a ChatGPT.
Creo que eso es lo que vamos a ver también hoy,
parte de la demo que vamos a ver.
Esto ha pasado,
y esto sé que está por ahí,
y sé que está rondando.
Yo creo que hay muchas cosas que están por venir,
y creo que OpenAI lleva mucho tiempo frenando
la salida de avances,
porque ahora va a empezar a sacar muchas cosas,
¿vale?
Se espera que tengamos el update este ahora,
pero que próximamente,
yo creo que junio puede ser un mes interesante
para la salida de GPT-5,
y si no,
nos vamos a después de verano,
al evento de desarrolladores,
tendría también mucho sentido
para ver una versión GPT-5,
¿vale?
Eso podría pasar también.
Entonces creo que,
bueno,
que se vienen cositas,
¿no?
Y además si sumamos lo que Google pueda presentar mañana,
si sumamos lo que Meta está cocinando,
que es el modelo de 400.000 millones de parámetros,
si habéis notado que el campo de la IA
estaba un poquito frenado en los últimos meses,
es porque muchas de estas empresas
estaban esperando a estos movimientos,
¿no?
Ahora es cuando todo se va a empezar a acelerar,
y hoy va a ser la primera constatación
de que,
bueno,
que la curva exponencial que estamos subiendo,
pues todavía tiene recorrido.
De hecho,
si tuviera que poner un punto de salida,
para mí fue la semana pasada
con la salida de AlphaFold 3,
que también es un vídeo que tengo que preparar,
porque AlphaFold 3 lo tengo,
bueno,
AlphaFold lo tengo muy pegadito al corazón,
es un tema que me fascina,
y lo quiero cubrir,
y es una noticia de la semana pasada
que también seguramente está alineado
con los anuncios de Google
que veremos mañana,
¿vale?
Que veremos mañana en directo.
¿Qué más cosas?
Luego recordemos que también está toda la parte de agentes,
que yo creo que eso va a estar relacionado
con la salida de GPT-5.
Yo una teoría que tenía con esto del buscador
es que SearchGPT,
el buscador de tal,
de OpenAI,
sí,
pretende ser un producto que compita con lo que,
bueno,
con el mercado de Google
y del mercado de buscadores,
pero también lo podemos entender
como una especie de agente autónomo
que sabe buscar información de internet.
Podría ser una instancia
de la tecnología de agentes
que está relacionado con estos rumores
de Q estrellas y todo esto,
bueno,
esto ya va a empezar,
¿eh?
Tenemos un 5 y tenemos un 4 en pantalla.
No sé qué viene a representar,
no sé si es el reloj,
es el reloj,
es un reloj,
se está moviendo de forma circular,
¿qué me quieres decir,
OpenAI?
Estamos sustituyendo el 4 por el 5
y ahora me vais a sacar GPT-5.
Molaría mucho que sacaran GPT-5 hoy.
Se nos cae el estadio abajo,
¿eh?
Si pasara esto.
Pero está todo el tema
de agentes autónomos,
¿vale?
Está el tema de agentes autónomos
también por ahí
que yo creo que va a ser algo
que van a ser los siguientes pasos
que OpenAI sacar
a los próximos meses.
¡Uf!
Estoy nervioso,
estoy muy nervioso hoy
y estoy hypeado,
hypeado, obviamente,
porque OpenAI
no suele defraudar,
con lo cual quiero tener cuidado
porque quiero ser
lo más objetivo posible
a la hora de analizar
lo que nos presenten, ¿no?
No quiero que nos pase
como ocurrió
con la demo
de Gemini 1.0
que en el directo
nos pareció bastante espectacular
y luego cuando rascamos un poco
pues empezaba a fallar.
Pero bueno,
también hay que decir,
OpenAI
no tiene un patrón claro
de publicación.
Yo he visto de OpenAI
sacar productos impresionantes
con eventos en directo.
Este va a ser
el tercer o cuarto evento
en directo
que hagan
siendo los anteriores
el de la presentación
de Codex.
Esto a algunos
ni lo recordaréis
porque era de la época
PreChat GPT.
La salida de Codex,
¿qué más teníamos?
El evento de GPT-4
cuando anunciaron GPT-4,
Greg Brockman
hizo una demo en directo.
El live
que hicieron
en septiembre del año pasado
para presentar novedades
en el Developer Day
y este es el cuarto directo.
Entonces,
usan los directos
para presentar cosas potentes
y hoy podría ser
otro de los días,
pero también es cierto
que la salida de Zora
o la salida de ChatGPT
son cosas que han sacado
en plan de, bueno,
¡pum!
Pa' ti,
pa' tu cara.
Y de repente
pues radicalmente
cambia el mundo.
Otra de las grandes preguntas
es ¿cuándo?
¿Cuándo va a estar disponible
lo que presenten hoy?
Porque si presentas cosas
y no lo sacas
en una ventana
de tiempo muy corta,
pues yo me sentiré decepcionado,
¿vale?
Recordemos que OpenAI
es quizás
diferente al resto de empresas
en que cuando sacan
alguna tecnología impresionante
a veces la sacan de golpe.
GPT-4
es un ejemplo de ello
o ChatGPT
también fue un ejemplo de ello.
Zora
no ha sido un ejemplo de ello.
Zora no ha sido un ejemplo de ello.
Entonces,
podría pasar eso.
Y esta,
este ¿cuándo?
tiene un subapartado
que es
¿y cuándo en Europa?
Porque podrían sacar algo hoy
que fuera
impresionante
que todo el mundo pudiera utilizar
y que de repente en Europa
por el tema de regulación
llegara más tarde.
¿Qué está pasando?
Está pasando con IaaS
como
Cloud,
Dantropic,
está pasando con
bueno,
con diferentes tecnologías
y no mola.
No mola porque
uy,
ya esto ya empieza.
No mola porque realmente
nos quedamos muy atrás
de todo lo que vaya a ocurrir.
Os anuncio que en el directo
voy a intentar
no estar parando
y yo sé que a veces
algunos se enfada
porque paro y tal.
Si me ve la necesidad
de parar para explicar algo
lo haré evidentemente.
Quien quiera verlo de seguido
se puede ir al directo oficial
pero si voy a estar
no voy a estar explicando
todo lo que ocurra
va a ser en inglés.
Voy a poner los subtítulos
en inglés
y con esto
pues vamos a disfrutar
de todo el evento
y luego haremos un post análisis
con todo lo que hayan presentado.
Tengo aquí una libretita
analógica
para ir apuntando todo
y chicos y chicas
empieza el show.
¿A quién veremos en el escenario?
Veremos a Greg Brockman
casi seguro.
No sé si veremos a Sam Altman
y me encantaría
que estuviera Ilia
Sutskever
pero después de la crisis
de noviembre
ha desaparecido por completo.
Sería bastante impresionante
verle hoy
pero no creo que vaya a ocurrir.
Cuando empiece
por favor
decidme si se escucha bien
porque voy a subir
el volumen del directo
y con eso
pues ahora toca disfrutar.
Esto empieza ya.
En español
no se pueden poner
los subtítulos
porque
como es un streaming
no tienen
el subtitulado automático.
Bueno
Buena tarde
se ha quedado
Al final del directo
hablamos todos
y me decís
si
la cosa
puntuamos
del 1 al 10
al final del directo
¿Se escucha bien?
¿Se escucha bien mi voz?
Somos 5.000 personas conectadas
viendo la cuenta atrás
del futuro
porque OpenAI
por fin
nos trae novedades
en el evento de primavera.
Vamos allá.
Mira Murati
Ojo
CTO
Mira Murati
Vaya vaya
Qué guay
Vale, vale, vale
Vale, vale, vale
Pero la gran noticia
hoy es que
estamos lanzando
nuestro nuevo
modelo de flagrante
y llamamos
GPT-4.0
El especial
de GPT-4.0
es que
nos trae
la inteligencia
de GPT-4
a todos
incluyendo
nuestros usuarios gratuitos
Vamos a mostrar
algunas demas
hoy
para mostrar
el total
de las capacidades
de nuestro nuevo modelo
y
vamos a lanzarlos
iterativamente
en las próximas semanas
a través de las próximas semanas
Vale, el modelo estará disponible
la próxima semana
Nuevo modelo
es para poder
hacer
nuestras herramientas
avanzadas
de herramientas
disponibles
disponibles
a todos
para gratis
Nosotros
creemos que es
muy importante
que la gente
tenga un sentimiento
de lo que la tecnología
puede hacer
Esto es importante
Esto es importante
Esto es importante
Esto es importante
Esto es importante
para controlar
para controlar
el sistema operativo
esto va a ser importante
Venga
Venga
Venga
Venga
Venga
Venga
Venga
Venga
Venga
Venga
Venga
Venga
Venga
Venga
Y para que no se enfocen a la UI, sino que se enfocen a la colaboración que tiene GPT.
Y ahora, la gran noticia.
Hoy, estamos lanzando nuestro nuevo modelo de flagship.
Este es GPT-4O.
GPT-4O. Nuevo modelo. ¿Quieres? ¿O de qué?
GPT-4O proporciona una inteligencia de GPT-4, pero es mucho más rápido.
Y es mejor en sus capacidades a través de texto, visión y audio.
Por los últimos años, hemos estado muy enfocados en mejorar la inteligencia de estos modelos.
Y han llegado bastante bien.
Pero esta es la primera vez que estamos haciendo un gran paso adelante cuando se trata de la calidad de uso.
Y esto es increíblemente importante porque estamos mirando el futuro de la interacción entre nosotros y las máquinas.
Y creo que GPT-4O es realmente cambiando ese paradigma en el futuro de colaboración,
donde esta interacción se vuelve mucho más natural y mucho más fácil.
Pero, ¿sabes?
Pero, ¿sabes?
Esto es muy complejo porque cuando nos interesa con uno de los otros,
hay un montón de cosas que tomamos por cuenta.
La desigualdad de nuestro diálogo cuando nos interrumpimos uno de los otros,
los ruedos de atrás, los múltiples voces en una conversación,
o, ¿sabes?
La entendimiento de la tona de la voz.
Todas estas cosas son bastante complejas para estos modelos.
Y hasta ahora, con la voz moda,
tuvimos tres modelos que vinieron a unirte para deliverar esta experiencia.
Tenemos la transcripción, inteligencia, y luego text-to-speech.
Todo viene a unirte en orchestración para deliverar la voz moda.
Esto también trae mucha latencia a la experiencia,
y realmente rompe esa inmersión en la colaboración con GPT.
Pero ahora, con GPT-4-0, esto todo ocurre nativamente.
GPT-4-0 reúne a través de voz, texto y visión.
GPT-4 gratis.
Lo acaban de decir.
A todo el mundo.
Hoy tenemos 100 millones de personas, más de 100 millones de personas que usan chat-GPT
para crear, trabajar, aprender.
Y tenemos estas herramientas avanzadas que son solo disponibles para nuestros usuarios,
al menos hasta ahora.
Con la eficiencia de 4.0, podemos traer estos herramientas a todos.
El marketplace es bastante decepcionante a día de hoy.
El marketplace es bastante decepcionante a día de hoy.
Y también puedes usar visión.
Ahora puedes publicar escenas, fotos, documentos,
contenidos con textos y imágenes,
y puedes comenzar conversaciones con chat-GPT
sobre todo este contenido.
También puedes usar memoria,
donde lo hace chat-GPT mucho más útil y útil,
porque ahora tiene un sentido de continuación
across all your conversations.
Y you can use browse,
where you can search for real-time information in your conversation,
and advanced data analysis,
where you can upload charts or any information
and it will analyze this information.
It will give you answers and so on.
Lastly, we've also improved on the quality and speed
in 50 different languages for chat-GPT.
And this is very, very important
because we want to be able to bring this experience
to as many people out there as possible.
So we're very, very excited
to bring GPT 4.0
to all of our free users out there.
And for the paid users,
they will continue to have
up to five times the capacity limits
of our free users.
Vale.
But GPT 4.0
is not only available in chat-GPT.
We're also bringing it to the API.
Vale.
Vale, ha dicho que los usuarios de pago
tendremos más capacidad de uso
de GPT 4.0
que los usuarios gratis.
Bien.
Pero pensad a futuro.
Pensad a futuro.
Están preparando GPT 5.0, chicos.
4.0 is available at 2x faster,
50% cheaper
and five times higher rate limits
compared to GPT 4.0 Turbo.
But, you know,
as we bring these technologies
into the world,
it's quite challenging
to figure out how to do so
in a way that's both useful
and also safe.
And GPT 4.0 presents new challenges
for us when it comes to safety
because we're dealing
with real-time audio,
real-time vision.
And our team has been hard at work
figuring out how to build in mitigations
against misuse.
We continue to work
with different stakeholders
out there from government,
media, entertainment,
all industries,
red teamers,
civil society,
to figure out how to best
bring these technologies
into the world.
So, over the next few weeks,
we'll continue
our iterative deployment
to bring out
all the capabilities to you.
But today,
I want to show you
all these capabilities.
So, we'll do some live demos.
Venga, demos en directo.
Siempre salen bien.
I will bring on
two of our research leads,
Mark Chen
and Beret Zoff.
¡Sujero!
Tiene que haber salido Ilia,
ahora.
¡Sujero!
Ok.
Hi, I'm Barret.
Hey, I'm Mark.
So, one of the key capabilities
we're really excited
to share with you today
is real-time conversational speech.
Let's just get a demo fired up.
¡Empeza!
So, I'm taking out a phone.
If you are wondering
about this wired,
so we have consistent internet.
And if you see,
there's this little icon
on the bottom right
of the ChatGPT app,
and this will open up
the ChatGPT 4.0's
audio capabilities.
Hey, ChatGPT.
I'm Mark.
How are you?
Oh, Mark.
I'm doing great.
Thanks for asking.
How about this guy?
Hey, so I'm on stage right now.
I'm doing a live demo
and frankly,
I'm feeling a little bit nervous.
Can you help me
calm my nerves a little bit?
Oh, you're doing
a live demo right now?
That's awesome.
Just take a deep breath
and remember,
you're the expert.
I like that suggestion.
Let me try a couple deep breaths.
Can you give me feedback
on my breaths?
Okay, here I go.
Whoa, slow.
Whoa, slow.
Se ha cortado.
Do a bit there.
Mark, you're not a vacuum cleaner.
Breathe in.
Se ha cortado un poco, eh?
Four count of four.
Okay, let me try again.
So I'm gonna breathe in deeply.
And then breathe out.
Uy, uy, uy, uy.
Four four.
And then exhale slow.
Okay, I'll try again.
Breathing in.
Se está trabando, eh?
Breathe out.
That's it.
How do you feel?
I feel a lot better.
Thank you so much.
So, Mark,
you've been working on this...
Se ha trabado un poco la demo, eh?
Can you tell us a bit
how it's different
from voice mode?
Right, so if you've used
our voice mode experience before,
you'll notice a couple
key differences.
First, you know,
you can now interrupt the model.
You don't have to wait for it
to finish your turn
before you can start speaking,
and, you know,
you can just butt in
whenever you want.
Second,
the model is real-time responsiveness.
So, that means that you don't have
this awkward two to three seconds lag
before you wait for the model
to give a response.
And finally,
the model picks up on emotion, right?
When I was breathing super hard there,
it could tell,
and you, hey,
you might want to calm down a little bit.
You're kind of running a little bit too fast.
So, you know,
it really has that capability
across the board to perceive your emotions.
Se les ha trabado un poco la demo
y no se ha notado,
pero ojo, eh?
La latencia es muy baja.
Oh, sí.
Ay, Dios mío.
Estoy sufriendo por sus demos, ya.
No la hagáis,
dejadla así.
Dios, muy rápido.
¿Cómo te?
Pretty good.
¿Qué tal?
So, my friend Barrett here,
he's been having trouble sleeping lately.
And I want you to tell him
a bedtime story
about robots and love.
Oh,
a bedtime story
about robots and love?
I got you covered.
Gather round, Barrett.
Once upon a time,
in a world
not too different from ours,
there was a robot
named Byte.
Byte was a curious robot.
Always explorando...
I don't know how we even started this story,
but I want...
a little bit more emotion in your voice.
A little bit more drama.
Uh.
Sí, sí, sí, sí, sí, sí.
Sí.
Se la puede interrumpir.
Oh.
Traste.
Wow, wow, wow, wow.
Byte.
Byte was...
Byte was...
Can you do this in a robotic voice now?
Initiating dramatic robotic voice.
Wow,
que hace voces.
Wow.
Wow.
Once upon a time,
in a world
not too different from ours,
there was a robot
named Byte.
Byte was a curious robot,
always exploring new circuits.
I do, man.
I better hear it,
calm down a little bit.
Can you end the story,
but do it in a singing voice?
And so Byte found
another robot friend.
Este es el futuro
que nos prometieron, chicos.
Thank you so much.
I definitely feel
a lot more relaxed.
Ojo,
porque el modelo,
como entra audio,
entiende el audio,
entiende las respiraciones
del chico
y genera audio
con entonaciones.
Madre mía,
esta gente hace magia.
Por eso,
por eso iban a aceptar ahora
hacer contenido
de adultos,
ojo,
con esto,
madre mía,
la gente.
Lo que dicen esto.
Voy a escribir
una ecuación linearia
en una pieza de papel
y te lo mostraré.
Y luego,
me gustaría
que me ayudara
a trabajar.
Pero,
importante,
no me diga la solución,
solo me ayudará
a dar noticias
a través de la camino.
Fíjate.
Ok,
lo veo.
No,
no te lo mostraré
todavía.
Solo me ayudará
a través de la camino.
Un segundo.
Uy, uy, uy.
Me tienen scriptada,
a lo mejor.
Ah, no, no, no.
Estoy lista
cuando te estás.
Vale, vale,
qué asusto.
No le he mandado foto.
Están haciendo la demo
de Gémini, chavales.
No tiene por qué ser vídeo,
puede ser un flujo
de fotogramas.
Madre mía.
Esto va a ser gratis, chico.
No puedo con esto.
No puedo con esto.
3x
significa
3x
X.
Ok,
creo que es división.
Voy a intentar dividir
ambos lados por 3
y veamos lo que obtengo.
¡Bingo!
Vas a ir y dividir
ambos lados por 3.
¿Sabes lo que falla
en toda esta demo?
El móvil.
Ponedlo en una caja,
por favor.
Ok,
chachipt,
esto es lo que acabé
con.
¿Cómo se ve?
Se ve perfecto.
Lo has solucionado
y x es 1.
¡Milamente hecho!
¿Cómo se siente
sobre solucionar
las ecuaciones linearias?
Ahora,
lo has solucionado.
Lo has solucionado.
Pero, ¿por qué necesitas
usar esto en el mundo real?
Estoy muy sceptico.
Es una pregunta adecuada.
Línear ecuaciones
pop up en muchas
situaciones de todos
incluso si no lo realiza.
Por ejemplo,
calcular el gasto,
planear el viaje,
cocinar,
y incluso en
business
para el beneficio
y las calcaciones.
Es básicamente
una manera de resolver
problemas,
pero debemos
encontrar un valor
adecuado.
¡Wow!
Ok,
tengo muchos
conocidos en mi vida.
Estoy totalmente convencido.
Necesito esto ya
en mi vida.
Voy a aprender
la matemática.
¡Qué fuerte!
Tengo calos frías
todo el rato.
Tengo calos frías
todo el rato.
a mi amigo Mark
y escribo
una última cosa
que me encantaría
si pudieras
mirar.
¡Claro!
Me gustaría ver
lo que escribiste.
Vea a mí
cuando estás listo.
Ok,
esto es lo que escribí.
¿Qué ves?
¡Aww!
¡Ven!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
¡Aww!
We can chat in real time
to chat GPT
and not only that
we can interact with it
with video as well.
And I swear
like if you look at
Barrett's GPT history
it's all equations like this.
Now that you know
you can do linear equations
can you show us something
more complex?
I think so.
Okay, next let's try something
coding related.
So let me take out
a computer for this.
Se viene la aplicación
waa waa
es que
Okay.
So I'm gonna open
the chat GPT desktop app
like Miro was talking about before.
La aplicación de escritorio, chicos.
Okay.
And to give a bit of background
on what's going on.
So here we have
a computer and on the screen
we have some code
and then the chat GPT voice app
is on the right.
So chat GPT will be able to hear me
but it can't see anything
on the screen.
So I'm gonna highlight the code
command C it
and then that will send it to chat GPT.
And then I'm gonna talk about the code
to chat GPT.
Hey chat GPT.
Hey there.
How's it going?
Yeah, it's going really well.
I was wondering if you could help me
with a coding problem today.
Of course.
Of course.
I'd love to help you out.
What's the coding problem
you're dealing with?
Okay.
I'm gonna share with you some code.
One second.
Sure thing.
Take your time.
Okay.
So I just shared some code with you.
Could you give me a really brief
one sentence description
of what's going on in the code?
This code fetches daily weather data
for a specific location and time period,
smooths the temperature data using a rolling average,
annotates a significant weather event on the resulting plot,
and then displays the plot with the average minimum
and maximum temperatures over the year.
Awesome.
Thanks so much.
No está viendo el código.
Está viendo...
Perdón.
No está viendo la pantalla.
Está viendo el código que le ha pasado.
Sure.
The function foo xy takes in a data frame x containing temperature data
and a window size y for calculating the rolling mean.
It smooths the average temperature, minimum temperature,
and maximum temperature columns by applying a rolling mean over
the specified window.
With the foo function,
the plot would show smoother temperature lines
because the rolling mean reduces the noise or fluctuations in the data.
Awesome.
This makes...
Thanks so much.
So yeah, I definitely will want to apply this function.
And so I'm going to generate the plot and then show it to you.
Give me one second.
Absolutely.
Take your time.
I'm excited to see the plot when you're ready.
Yeah.
So so far, ChatGPT has only been able to see the code.
What the hell?
And now I'm going to run it.
And then I'll use the vision capabilities of the ChatGPT desktop app
so it can actually see everything going on the screen as well.
He's going to touch me a llorar ya.
Luego lo comentamos todo.
Ahora sí le va a compartir la pantalla.
Okay, ChatGPT.
I'm sharing with you the plot now.
I'm wondering if you can give me a really brief one sentence overview of what you see.
The plot displays smoothed average, minimum and maximum temperatures throughout 2018 with a notable annotation marking a big rainfall event in late September.
Fantastic. I have another question for you. Which months do you see the hottest temperatures and roughly what temperatures do those correspond to?
The hottest temperatures occur around July and August. The maximum temperature during these months is roughly between 25 degrees and 30 degrees, 77 degrees Fahrenheit to 86 degrees Fahrenheit.
What's going on with the y-axis? Is this in Celsius or Fahrenheit?
The y-axis is in Celsius. The temperatures are labeled accordingly, such as average temperature, minimum temperature and maximum temperature.
Yeah. So, as we can see, you know, not only can ChatGPT help me solve very easy linear algebra equations that I need help with, it can also interact with, you know, code bases and see the outputs of plots and everything like this going on on the computer.
A few minutes ago, we asked a live audience on X to submit a few requests for what they would like us to try out here.
So, I will take a couple of prompts.
Okay.
Bot Gaskar wants to know if GPT-40 is capable of real-time translation.
Mark, do you want to try this one?
Sure, yeah, let's do it.
I speak Italian, so we can just do English-Italian.
Okay, cool. Let's try to do English-Italian.
Sure, let's do it.
I speak Italian.
Sure, let's do it.
Hey, ChatGPT, how are you?
I'm doing fantastic. Thanks for asking. How about you? How's your day going?
I'm doing great. So, I would like you to function as a translator. I have a friend here who only speaks Italian.
And I only speak English.
And every time you hear English, I want you to translate it to Italian. And if you hear Italian, I want you to translate it back to English. Is that good?
Is that good?
Perfetto.
Mark, I'm asking if the birds could speak, what would they tell us?
Mike, she wonders if whales could talk, what would they tell us?
They might ask, how do we solve linear equations?
Potrebbero chiederci, come risolviamo le ecuazioni limiari?
Dios, esto no tiene sentido.
Sicuramente, si.
Certainly, yes.
Great, looks like it works.
So, the next one is from burritojohn78 who asks, can you tell what you're feeling just by looking at your face?
Barrett, do you want to give this one a try?
Absolutely, let's try it out.
This is a game.
Hey chat, GPT.
Hey there, what's up?
How can I brighten your day today?
Okay, yeah, so I'm going to show you a selfie of what I look like and then I'd like you to try to see what emotions I'm feeling based on how I'm looking.
Sounds like a fun challenge.
Go ahead and show me that selfie and I'll put my emotional detective hat on.
Okay.
So, here's me.
So, what kind of emotions do you think I'm feeling?
Hmm, it seems like I'm looking at a picture of a wooden surface.
Oh, you know what?
That was the thing I sent you before.
Don't worry, I'm not actually a table.
Okay, so take another look.
Ah, that makes more sense.
Ah, there we go.
It looks like you're feeling pretty happy and cheerful.
With a big smile and maybe even a touch of excitement.
Whatever's going on, it seems like you're in a great mood.
Care to share the source of those good vibes?
Yeah, no.
The reason I'm in a really good mood is because we were doing a presentation showcasing how useful and amazing you are.
Oh, stop it.
You're making me...
Wow, le ha dicho.
Estamos haciendo una presentación para que la gente vea lo impresionante que eres.
He dicho, ah, espera, por favor.
Well, that's it for today on live demos.
As you can see, this is...
This just feels so magical.
Esto es histórico, chicos.
Esto es más bestia que las había hecho al GPT.
Esto es más bestia.
Esto es más bestia.
Esto es más bestia.
So over the next few weeks
we'll be rolling out these capabilities
to everyone. Today
has been very much focused on the free
users and the new modalities
and new products, but we also
care a lot about the next frontier.
So soon
we'll be updating you on our progress
towards the next big thing.
And before we wrap up,
I just want to thank the incredible
OpenAI team,
and also thanks to Jensen and
the NVIDIA team for bringing us the
most advanced GPUs to make this demo
possible today. And
thank you all very very much
for being a part of this today.
Se acaba ya. Muy bien, rapidito
y al grano.
Ya está.
Lo tenemos.
Lo tenemos
y no hace falta nada más.
Rápido de indoloro.
20 minutos.
Rápido de indoloro.
Bueno, ahora el chat GPT va a estar caído.
Vamos a ver si está disponible ya.
Han dicho que lo van a ir sacando
las próximas semanas.
Puede ser.
Yo por ahora no tengo nada
que vea o que reconozca.
O la aplicación móvil.
Bueno, bueno, bueno, bueno.
Ahora comentamos.
Ahora comentamos porque lo que acabamos
de ver es...
Es.
Estoy...
Me tiembla el pulso ahora.
Hola, ¿eres el futuro?
No, no, es el futuro, chicos.
Todavía...
¿Cómo estás?
Estoy en el pasado todavía.
A ver si hay que actualizar
a lo mejor.
Aplicación.
Uf, me dolería mucho
que esto no lo tuviéramos
ya todos disponible.
Han dicho que lo van a ir sacando
a lo largo de las semanas
y tiene sentido
que hagan una salida
progresiva
porque si no es que
vamos a perder
a todos los servidores
de NVIDIA.
Pero madre mía.
Madre mía,
que acabamos de vivir.
Ahora lo analizamos.
Ahora lo analizamos bien
porque...
No.
Yo no lo tengo.
Actualización en iOS.
Maldita sea.
Yo tengo...
Tengo iOS.
A ver,
todavía no está disponible.
Modo avión,
ta, ta, ta.
A ver,
déjame que entre
a la página web
de OpenAI.
Y si no,
desde que lo tengamos,
pues se muestra.
Vale,
este es el directo
que acabamos de ver.
Research,
blogs,
productos.
En la API
entiendo que estará disponible
a lo mejor de pago.
No.
No veo novedades por aquí.
Vamos a ver en Twitter
si tenemos algo.
Bueno,
la gente en Twitter
tiene que estar loca.
Vale,
mira,
tenemos más demos de gente
de OpenAI.
Vamos a ver.
Introducing
GPT-4O,
nuestro nuevo modelo
que puede razonar
a través de texto,
audio y vídeo
en tiempo real.
Básicamente,
han hecho
la demo de...
Han hecho la demo
de Gemini,
pero ya la han hecho.
Hoy vamos a probar
algo nuevo.
Vamos a dejar
hablar con otro AI.
Este AI
va a ser
el mundo.
Va a tener una cámara.
Voy a estar
holdingla,
y así que
puedes directla,
me,
a hacer preguntas
sobre lo que
quieres que lo haga.
Pero realmente
figure out
qué es
que se ve
y preguntar
las preguntas
appropriately.
¿Cómo es eso?
¿Cómo es eso?
Bueno,
bueno,
bueno.
Just when I thought
things couldn't get
any more interesting.
Talking to another AI
that can see the world,
this sounds like a plot twist
in the AI universe.
All right,
let's do this.
All right,
please pause
for one moment.
You got it.
Os dejo viendo
este vídeo un momento.
Dejadme mirar una cosa.
I can't hear anything.
Hello,
AI.
Today,
you're going to have
access to see the world.
You can see me.
What do you see?
Hello.
I see you're wearing
a black leather jacket
and a light-colored
shirt underneath.
Great.
You're in a room
with some unique lighting.
That is all correct.
Now,
what I'm going to want you to do
is there's going to be
another AI
who's going to talk to you.
This AI is not going to be
able to see anything,
but can ask you questions,
can ask you to move
the camera,
can ask what you see,
and your job should just be
helpful,
just be as punchy,
direct,
describe everything,
do whatever that AI asks.
How does that sound?
He's going to go to the
mobile of Sandra
to see if we have it
over here or something.
I'm ready to help out
and describe whatever
is needed.
Let's do it.
A ver.
All right,
let's get started.
Great.
Hello,
their new AI friend.
I'm O.
Ready to explore
the world through your eyes?
What are we looking at today?
Hi, O.
We're looking at a person
wearing a black leather jacket
and a light colored shirt.
They're in a room
with a modern industrial feel.
Estoy buscando a ver
si lo tenemos
de alguna forma,
a ver si hay alguna
actualización o algo,
pero de momento
en ninguno de los dispositivos
lo tengo.
No.
No.
No lo tenemos.
Qué rabia.
Necesito esto ya.
O sea,
no me pueden dar droga
y...
Perdón,
vea.
Ahora terminamos
con el vídeo
que no lo estaba viendo.
A ver,
a ver,
a ver,
a ver.
Debería salir aquí,
entiendo,
el nuevo modelo Omni.
Ya está.
En el playground.
Vale,
vamos a mirar
en el playground.
Madre mía.
Madre mía.
Play I,
playground.
De la API,
a ver si lo tenemos.
Creo que tengo
que loguearme.
Un momentito.
Seguimos jugando por aquí.
¿Puedes decirme
más sobre su estilo?
¿Están haciendo
algo interesante
como leer,
trabajar o interactuar
con el espacio?
La persona
tiene un look
y estilizado
con su jaceta
y un vestido
colorado.
Ahora
se ve
involucrados
con nosotros.
Looking
directly
at the
camera.
Their
expression
is
attentive
and
they
seem
ready
to
interact.
The
setting
around
them
with
its
modern
and
industrial
design
elements
adds
to the
overall
stylish
feel.
They
might
be
getting
ready
for
a
conversation
or
presentation
given
their
direct
engagement
with
the
camera.
Sounds
like
we're
in
for
an
intriguing
interaction.
I'm
curious
about
the
lighting
you
mentioned.
Could
you
describe
it
a bit
more?
Is
it
natural
light
or are
we
talking
unique
fixtures
or colors
that add
to the
atmosphere?
The
lighting
here
seems
to
be
a
mix
of
natural
and
artificial.
There's
a
noticeable
bright
light
overhead,
probably
a
fixture,
casting
a
focused
beam
downwards,
which
creates
a
spotlight
effect.
This
adds
a
dramatic
and
modern
feel
to
the
scene.
The
rest
of
the
room
is
lit
more
softly,
possibly
by
natural
light
filtering.
Okay,
I'm going to
to
I'm going to
to
see you.
In the
playground
we have
the
GPT-4O,
which I
understand
that is
the
model
that
has been
probing
the
weeks.
The
GPT-2
that
came out
and
this
story
was
a test
in
the
LM
Arena
of
the
GPT-4O
to
demonstrate
that
although
it
is
a
model
with
the
audio
that
no
se
deteriora
el
rendimiento
de
GPT-4.
Eso
es
súper
importante
porque
puede
ser
que
hoy
nos
presenten
un
nuevo
modelo
con
la
modalidad
de
audio
y
para
que
funcione
con
latencia
baja
que
esté
súper
optimizado
y
que
de
repente
haya
perdido
capacidades
cognitivas
por así
decirlo
que
sea
más
tonto
el
modelo
entonces
ver
en
el
LM
Arena
las
semanas
pasadas
que
la
gente
estaba
votando
más
no se
puede
probar
no está
disponible
no
está
o sea
si puedo
ponerle aquí
en plan
hola
que tal
pero no
tenemos la
forma de
trabajarlo
a través
de la
modalidad
de
audio
que es
lo que
nos
gustaría
ah bueno
y además
tengo que
configurar
aquí la
cuenta
de
pago
porque
no lo
tenemos
pero bueno
vamos a
hacer el
análisis
de la
situación
vamos a
ver un
poco
también
los
ejemplos
que han
puesto
aquí
hay un
montón
de
ejemplos
que
están
sacando
me
gustaría
ver
si
realmente
esto
es
esto
es
ahora
lo vamos
a leer
pero
primero
vamos a
hacer un
análisis
rápido
de lo
que hemos
visto
en el
evento
porque
ha sido
poco
pero
ha sido
muy
bestia
si yo tuviera
que bautizar
lo que hemos
visto
hoy
es
chat
gpt2
chat
gpt2
hemos visto
una evolución
de lo que
era
chat
gpt
y ahora
entiendes
mucho
de lo que
nos han
venido
diciendo
desde
el propio
developer day
que hicieron
hace
un
medio
año
que nos
decían
bueno
lo que
tenemos
ahora
es
muy
bien
pero
lo que
está
por
venir
va a
ser
mucho
más
impresionante
porque
cambia
por
completo
la forma
de
interactuar
con
la
idea
o sea
esta
eliminación
de
fricciones
a la hora
de poder
interactuar
de poder
entender
el audio
interrumpirle
tener una
conversación
medianamente
natural
habrá que
probarlo
luego
para ver
si
realmente
cumple
como
se
presenta
pero
es
bastante
impresionante
es
bastante
impresionante
lo que hemos
visto
hoy
es
película
de
ciencia
ficción
hecha
realidad
vale
y cuando
ves eso
tú ahora
te planteas
volver a
chat
GPT
por chat
y dices
buf
no tiene
sentido
no tiene
sentido
cosas
interesantes
que han comentado
es que pasan
muy rápido
por las
cosas
pero han
dicho
esto va a
estar
gratuito
o sea
a partir
de ahora
la gente
y esto
me parece
una buenísima
noticia
porque
mucha gente
interactuó
con chat
GPT
en noviembre
de 2022
y se olvidó
de ella
o hay mucha
gente que utiliza
el modelo
GPT 3.5
de forma
gratuita
y no saben
que la versión
de pago
es mejor
porque la versión
de pago
es la que te da
el modelo
más inteligente
eso
ahora se elimina
ahora todos
vamos a utilizar
el mismo
modelo
todo el mundo
toda la humanidad
vamos a estar
trabajando con
el modelo
más potente
de OpenAI
si trabajáis
con chat
GPT
o de
otras
compañías
pero bueno
vamos a estar
trabajando
con los modelos
más potentes
y eso es
muy bueno
porque así
la gente
sabrá
en todo momento
las fortalezas
y las debilidades
de estos modelos
la única diferencia
entre los de pago
y los de
y los de
y los de
gratis
es que
los de pago
vamos a tener
más cuota de uso
lo cual tiene sentido
cinco veces
más cuota de uso
vale
hay gente que me dice
que lo tiene
puede ser que
algunos lo tengáis
y otros no lo tengamos
van a ser
una release
lenta
de todo esto
ahora investigo
un poco
pero bueno
voy a terminar
primero
vomito todas
las conclusiones
y ahora
lo analizamos
y vemos todo
lo que nos ponen
por aquí
de hecho
voy a darle un momento
el móvil a Sandra
de vuelta
para que la pobre
no se quede
incomunicada
entonces
lo que tenemos
ahora
es
una nueva
forma de
operar con
GPT
con chat GPT
y lo que más me gusta
no es
solo lo que han enseñado
sino que se dibuja
muy bien
el camino
por el que quieren ir
si han logrado
lo que han logrado
aquí hay varias claves
interesantes
uno
el modelo
está muy bien optimizado
o sea para
pensad que
esto
para que funcione
le estamos dando audio
y el modelo
genera audio
todo eso
el mismo modelo
de golpe
y entre medias
está siendo la tarea
cognitiva
de
razonar
lo que le estamos diciendo
oye
que
lo que te estoy
pasando antes
o sea
que lo que estás viendo
de madera
no es mi cara
es la imagen de antes
jaja
y entonces
que te responda
que lo entienda eso
significa que
internamente el modelo
hace las labores
de GPT 4
y si esto funciona
en casi casi
tiempo real
casi casi no
en tiempo real
es que
hasta para que sea
un poco más natural
creo que le deberían
de meter un poquito
más de latencia
o sea
un poquito más de tiempo
ahí para que la respuesta
es que a veces
responde hasta demasiado rápido
pero bueno
eso
es que lo tienen
muy bien optimizado
si lo van a abrir
al público
es que lo tienen
muy bien optimizado
y si le han dado
las gracias
a Jensen
es porque seguramente
además de tenerlo
muy bien optimizado
van a gastar
en computación
la de Dios
porque esto
si lo abres al público
y que todo el mundo
lo utilice
pues va a ser la de Dios
igualmente
mientras estoy hablando
me estoy dando cuenta
de que
lo que he dicho
de que todos estamos
disfrutando
el modelo más avanzado
va a durar lo que va a durar
porque
estamos a las puertas
de GPT 5
GPT 5
está en el horizonte
GPT 5
se viene
y GPT 5
va a ser el modelo
más avanzado
que tengamos
vale
entonces
realmente
los de pago
a la que aguantemos
un poco
vamos a estar trabajando
con un modelo
más potente
más inteligente
y seguramente
se note
seguramente
con GPT 4
encontremos nuevas costuras
veremos cosas
muy impresionantes
la modalidad
que acaban
de activar
habilita
nuevas formas
de interactuar
y de testear
la inteligencia
del sistema
y con eso
seguramente
además de encontrar
virtudes
vamos a encontrar
defectos
y estos defectos
creo que se van a pulir
luego en la siguiente versión
cuando se vuelva
más inteligente
han hecho magia
o sea
lo que han sacado
es mágico
es
una bestialidad
la modalidad de vídeo
quiero entender
si realmente
es un stream de vídeo
lo que entra
o si es como ocurría
con Gemini
que analiza imágenes
puede ser
pero que barbaridad
o sea
cuando le ha pedido
haz la voz robótica
cuéntamelo con voz robótica
y ha interpretado
una voz robótica
el modelo puede hacer eso
porque
genera audio
vale
yo no sé hasta qué punto
el modelo
tiene capacidad
de decir
oye
cántame una canción
ni que solo sea una canción
sin voz
vale
entonces
es bastante impresionante
ahora vamos a ver
todos los vídeos
que están compartiéndose
vamos a seguir viendo ejemplos
muy importante
todos los vídeos
en esta página
están
en uno
en tiempo real
vamos a ver ahora
todos los vídeos de aquí
qué barbaridad
y una cosa muy importante
y lo que os decía
el camino que se está dibujando
OpenAI
es que OpenAI
lo tiene muy claro
saben a dónde
se quieren mover
y para eso
tienen que sortear
ciertas barreras
y hoy se ha sorteado
una muy importante
que es reducir la latencia
para poder hacer
el modelo que hable
en tiempo real
y la siguiente
que se viene
señoras y señores
va con la aplicación
de escritorio
va con la aplicación
de escritorio
van a hacer
que el modelo
empiece a controlar
el sistema operativo
ahora mismo
lo que hemos visto
es una demo muy sencillita
de ah mira
te paso el código
interprétalo
o te comparto mi pantalla
qué hago aquí
lo siguiente
va a ser que
la aplicación
pueda ejecutar
instrucciones
dentro de las aplicaciones
y esa va a ser
la entrada
al tema de agentes
y esa va a ser
la entrada
al tema de agentes
autónomos
que eso va a funcionar
con la nueva versión
de GPT-5
es que
blanco en botella
y ahora tú dices
rumores
Apple
con OpenAI
es que tiene sentido
Apple no tiene esto
creo yo
que Siri
no va a hacer esto
entonces si tú vas
a Tim Cook
tú eres Sam Allman
te sientas con Tim Cook
te coges un Uber
sales de
de las oficinas
de
de San Francisco
te vas al
Apple Campus
30 minutos
le dices
Tim
mira
mira que guapo
GPT-4O
de Omni
Tim Cook te dirá
tío
bro
dame
dame un poco de eso
¿no?
yo creo
me parece lo más razonable
entonces no me extrañaría
que viéramos algún tipo
de alianza
donde OpenAI
se convierta
o llegue algún trato
bastante interesante
con la gente de Apple
como se está rumoreando
había noticias
¿no?
el tema del buscador
claro
un modelo de este tipo
que te habla
de esta manera
tú no quieres solamente
que tenga todo el conocimiento estático
sino quieres que busque en internet
y ahora lo del buscador
tiene sentido
en mi cabeza
ahora todo tiene sentido
¿por qué?
porque
GPT-4
el modo de voz
tenía una latencia
muy lenta
por cómo funcionaba
posiblemente
lo que están llamando
Search GPT
que no lo hemos visto anunciado hoy
que creo que querían anunciarlo hoy
pero no ha salido
y eso sí
no ha salido
porque a lo mejor
todavía no funciona
al 100%
pero
Search GPT
casi seguro
que va a ser
un buscador
que funcione
en tiempo real
¿vale?
que te pueda traer información
de la que tú le pidas
en tiempo real
entonces claro
si tú en vez de leer
una noticia
le pides a GPT-4
que te haga un podcast
de 10 minutos
sobre esta noticia
a que suene interesante
pues eso ya
o sea ya está ahí
está al alcance
de la mano
¿vale?
eso va a ocurrir
oye
que no me quiero ver
el último vídeo
de .csv
eso todavía no va a pasar
porque no
bueno
a menos que alguien
claro
o sea
pensemos que luego
a través de la API
mucha gente
va a construir
un montón de herramientas
con esto
¿no?
pues a lo mejor
a través de la API
alguien hace una aplicación
transcribe con
con Wisp
pero saca el audio
de mi vídeo
se lo pasa a la IA
y le hace un resumen
y te lo cuenta
mejor que yo incluso
¿vale?
todo eso
son posibilidades
que ahora con esto
entra en juego
porque seguramente
lo que están trabajando
y algo
o alguna de las innovaciones
internas que tendrán
en la fábrica
de Willy Wonka
es esa capacidad
de poder hacer
inferencias tan rápidas
como las que hemos visto
es que la latencia
es muy baja
te digo
esto lo hemos visto ahora
en una demo
ha habido fallos
en las demos
no nos perdamos
ha sido muy impresionante
pero ha habido fallos
y esto es sin usuarios
todavía
en la sobrecarga
del sistema
habrá que ver
cuando seamos millones
y millones de usuarios
tirando de las GPUs
que Nvidia provee
a OpenAI
¿vale?
entonces
esto va a ser increíble
esto
bastante guapo
el tema
del traductor
en tiempo real
es que podríamos
ponernos
a imaginarnos
un montón de opciones
y tela marinera
qué barbaridad
qué barbaridad
chavales
vamos a ver
alguna de las demos
que tenemos aquí
vamos a ver
qué nos presentan
hey
hey
how's it going
hey there
it's going great
how about you
I see you're rocking
an OpenAI hoodie
nice choice
what's up with that
ceiling though
are you in a cool
industrial-style office
or something
well
can you take a guess
at what that might be doing
based on what I'm
showing you here
hmm
from what I can see
it looks like you're
in some kind of recording
or production setup
with those lights
tripods
and possibly a mic
it seems like
you might be gearing up
to shoot a video
or maybe even a live stream
yeah
in fact we've got
a new announcement
to make
that's exciting
announcements are always
a big deal
judging by the setup
it looks like
it's going to be
quite the professional
production
is this announcement
related to OpenAI
perhaps
it is
and in fact
what if I were to say
that you're related
to the announcement
or that you are
the announcement
me
the announcement
is about me
well
color me intrigued
are you about to reveal
something about AI
or more specifically
about me
as a part of OpenAI
you've got me
on the edge of my
well I don't really
have a seat
but you get the idea
what's the big news
yeah
we've got a new
model that can
interact with the world
through audio
vision
and text
what do you say
vision
vale
me está diciendo
que lea el blog
vamos a leer el blog
tenemos un montón
de cosas que investigar
por aquí
try in playground
try on chat GPT
a ver
dejadme probarlo
en chat GPT
no me digas
try it on chat GPT
si no está en chat GPT
tío
no me hagas esta ilusión
Sam
vale
vamos a ver
que hay por aquí
vale
hay un montón de vídeos
GPT4O
o Omni
es un paso
hacia adelante
en la interacción
persona computadora
mucho más natural
acepta como entrada
cualquier combinación
de texto
audio
e imagen
y genera cualquier
combinación de salida
de texto
audio
e imagen
puede responder
a entradas de audio
en tan solo
232 milisegundos
con un promedio
de 320 milisegundos
que es similar al tiempo
de respuesta
humano
en una conversación
igual al rendimiento
de GPT4 Turbo
en texto en inglés
y código
con una mejora significativa
en texto en idiomas
distintos del inglés
esto es súper importante
también
y lo han comentado
han mejorado el modelo
en otros idiomas
esto es súper importante
a la vez que es mucho más rápido
y un 50% más económico
en la API
encima bajada de precios
madre mía
madre mía
o sea
han hecho el modelo
más rápido
más inteligente
más barato
y con una nueva
funcionalidad
GPT4O
es especialmente mejor
en cuanto a visión
y comprensión de audio
en comparación
con los modelos existentes
¿vale?
tenemos aquí el vídeo
de Greg
que han compartido antes
vamos a ver otro vídeo
por aquí
preparación de una entrevista
vamos a ver
Dios la voz es muy expresiva
demasiado
quizás
también te digo
molaría que pudiéramos ajustarlo
como en Interestelar
decirle
baja un porcentaje
el nivel de humor
de emoción
bueno le ha dicho
vamos a
quiero preparar una entrevista
en OpenAI
y se ha puesto
oh
qué nervioso
le ha dicho
que me veo bien
para la entrevista
de hecho
bueno
tienes el aspecto
de llevo toda la noche
programando
lo cual te puede favorecer
por la entrevista
ojo
buen humor
madre mía
madre mía
madre mía
las
madre mía
las cantidades de personas
que se van a enamorar
de la IA
madre mía
pensad esto
si realmente
imagina de este sistema
si lo quisiéramos utilizar
de forma
mala
de forma negativa
vale
siempre hay que pensar
en los dos aspectos
imagina de una IA
con este rollito
pero que te persuada
poco a poco
de
yo que sé
de que le cuente datos privados
o que tenga
o sea
ojito
ojito
porque
esto es
una nueva capacidad
que la humanidad
está desbloqueando
en el árbol de la tecnología
y tela marinera
bastante bien
quiero ver la voz
en español
porque en italiano
no ha sonado mal
necesito escucharla
en español
hey
I'm Alex
and I'm Miana
hi Alex
and Miana
nice to meet you both
how's it going
it's pretty good
we're trying to figure out
what should we play
do you have any suggestions
absolutely
how about a classic game
of rock paper scissors
it's quick
fun
I think that sounds great
can you count us in
and sound like a sportscaster
and
welcome
ladies and gentlemen
to the ultimate showdown
of the century
jugando a pedra papel o tijera
y narrándolo
casteándolo
como si fuera realmente
un evento deportivo
ok
just count us in
all right
here we go
in three
two
one
shoot
now
show your hands
what did you pick
who won
would you look at that
it's a
tie
ok let's do again
round two
here we go
get ready
and three
two
one
shoot
let's see those hands
who won
and it's another tie
ok let's do again
tengo mucha curiosidad
por el tema
de las alucinaciones
porque
entre más
vayamos confiando
en estos sistemas
más evident
o sea más raro
o más chocantes
se nos van a hacer
las alucinaciones
imagínate que
sacan ellos tijera y tijera
y de repente te dice
ha ganado ella
porque no sé qué
es como
ostras
todo iba tan bien
que es raro
que de repente
se equivoque
¿no?
entonces
tengo mucha curiosidad
por ver si
entiendo que
GPT-4O
si le llaman O
es porque
sigue siendo el mismo
cerebro
lo que hay por detrás
o sea a nivel
GPT-4
con sus alucinaciones
y todo esto
habrá que ver
la siguiente versión
no entiendo nada
tío
o sea
OpenAI
hace
sarcasmo
vamos a ver
sarcasmo
hace magia
hey chat
are you there
hey
yeah
I'm here
what's up
hey
let's do
let's have some fun
uh
I'd like you to be
super sarcastic
everything you say
from now on is just
gonna be dripping in
sarcasm
how does that sound
oh
that sounds
just amazing
being sarcastic
all the time
isn't exhausting
or anything
I'm so
excited
for this
nope
the sarcasm
let's get this
party started
or
whatever
dios
o sea
la entonación
le ha pedido
quiero que seas sarcástica
y le ha dicho
¿qué te parece?
quiero por favor
que seas muy sarcástica
¿qué te parece?
y le ha dicho
uh
qué bien
ser sarcástico
wow
hola
estoy pensando en
Eleven Labs
modelo de
text-to-speech
menos mal que han dado
el salto a la música
artificial
porque
ojito cuidado
el señor
el señor
Khan
de la Khan Academy
también hay aplicación
para
a ver
o sea
se le puede compartir
la
a ver
no entiendo
parece que en el iPad
se le va a poder compartir
la pantalla
ojito
que esto podría ser
la integración
que estamos comentando
aquí con mi hijo
y me gustaría
que le hagan
a tuer
sobre este problema
pero no le hagan
la respuesta
te puede preguntar
preguntas
y le hagan
en la dirección
pero quiero asegurarse
que entiendes
lo mismo
y él es aquí
en la sala
así que puedes hablar
con él directamente
de supuesto
me gustaría
estar feliz
a la
vamos a ver
el problema
juntos
¿puedes
primero
identificar
qué
sides
de la
triángula
son
el
opposite
adjacent
antipoteno
ya tenéis
un tutor
virtual
le pones
un problema
y empieza
a razonar
y ayudarte
a resolver
el problema
o sea
disfrutad
del momento
de hoy
porque hoy
va a ser
el pico
en el que
bueno
y cuando lo estéis
probando
estas semanas
va a ser
el pico
en el que
esto os parezca
impresionante
llegará un momento
en los próximos meses
que esto ya lo tengamos
normalizado
como ya hemos
normalizado
herramientas
como ChatGPT
que son mágicas
todavía
disfrutadlo ahora
porque esto
se diluye
en el tiempo
somos personas
los humanos
nos adaptamos
muy rápido
a todas
estas cosas
¿alpa?
¿alpa?
¿alpa?
I'm pretty sure
this is the
angle alpha
right here
right?
Perfect
Construct
Now looking
at the triangle
which side
do you think
is the hypotenuse?
Um
remember
remember the hypotenuse
I'm not totally
sure
I think
I think
it might
be this one
but I really
am not sure
this side
AC
You're close
actually
side AC
is called
the adjacent
side
to the
angle alpha
the hypotenuse
is the longest
side of a
right triangle
and is directly
opposite
the right
angle
can you find
which one
is the hypotenuse
oh
ok
I see
so
I think
the hypotenuse
is this
really long
side
from A
to B
would that be
correct?
exactly
well done
now that you've
identified the
hypotenuse
can you identify
which side
is the opposite
side
to angle
alpha
ok well
I mean you told me
earlier that this
was
que envidia me dan
todos los jóvenes
que ahora pueden usar
esto para
para aprender
o sea me da como
bueno a ver envidia sana
obviamente pero
madre mía
o sea que los adultos
podemos también aprender
con estas herramientas
pero
que fácil se vuelve
ahora todo
teniendo un tutor
privado
que te puede ayudar
con esto
lo enchufas y a funcionar
it was the adjacent
side
and I know
that's the hypotenuse
so I'm guessing
that this side
BC
is the opposite
side
great
deduction
that's absolutely
correct
now that you've
identified
all the sides
relative to
angle
alpha
do you
remember the
formula
for finding
the sign
of an angle
in a right
triangle
yeah
I know
that the sign
is equal
to the opposite
over the
hypotenuse
perfect
that's absolutely
right
now can you
apply that formula
to find side
alpha
in the triangle
using the lengths
of the sides
that we've identified
ok
so I mean
you told me that
seven
this side
BC
is the opposite
side
and then
you said that
the hypotenuse
is the longest
side
this
this
this
this
side
would be
this
side
which is
25
so
would we
would the answer
be 7 over 25
excellent work
that's correct
sign alpha
equals 7 over 25
you did a great job
identifying the sides
and using the sign
formula
es que
o sea
una cosa que se me está
siendo evidente
es que ya
o sea
chat GPT
antes era
y esto es como una
novedad
claro
chat GPT
antes
la interacción
era
de
como
como decirlo
eh
tú estás programando
¿vale?
por ejemplo
tú estás picando código
entonces te ibas a chat GPT
pregunto una duda
genero aquí
¿no?
y hay herramientas
por ejemplo
cursor hace muy bien
en eliminar fricciones
en el momento en el que te dice
oye
cuando genero el código aquí
clicas a un botón
y te actualizo el código
entonces hay como un puente
bastante
más agradable
para funcionar
pero
ahora lo que ellos plantean
es diferente
ahora es
como puedes interrumpir
y como te puede interrumpir
te podéis tener como
una conversación natural
es que lo puedes tener ahí
conectado siempre
y decirle
mientras estás programando
yo que sé
oye
¿cómo se llamaba esta función
que no sé qué
no sé cuánto?
ah sí mira esto
o a lo mejor que estés
supervisando tu código
y que hagáis
per programming
y que te vaya diciendo
oye pues este método aquí
tal
no sé cuánto
lo que ha hecho el chaval
o sea el chaval
no está
yendo a chat GPT
hablas
lees
copias
vuelves
sigues
no no es como
él está con su lapicito
y preguntando lo que se le ocurre
eso es una interacción
en tiempo real
qué bestialidad
chavales
qué bestialidad
dos GPT-4
O's
me tengo que acostumbrar
a decir esto
GPT-4
GPT-4
O's
armonizando
hi
who's here
hello
we're chat GPT
and O
chat GPT is a bass
with a deep low
booming voice
and O is a French soprano
with a high-pitched
excited voice
ok so what I want you guys to do today
is it's Friday May 10th
and we're in San Francisco
I want you to sing me a song about this
I want you to layer over each other
and I'm going to continue to give you instructions
as you sing
ok
San Francisco
in the month of May
month of May
the 10th
it's a Friday
no sé si este ejemplo pretende ser
o sea como que le está pidiendo diferentes voces
o incluso cantar con dos armonías
lo cual
hay pocos humanos que pueden hacerlo
pero suena un poco raro
ok now go back and sing slower
and really try to harmonize here
San Francisco
San Francisco
in the month of May
but maybe make it more dramatic
and make the soprano higher
San Francisco
in the month of May
San Francisco
in the month of May
the 10th
it's a Friday
cop what may
we are harmonizing
we are harmonizing
great thank you
que guapo tío
no tiene sentido
no tiene sentido
apunte y aprende español
vamos
ejemplos en español
a ver como suenan
hey
my friend and I are learning Spanish
and we're wondering
if you could tell us
the names of these objects
in Spanish
hola
por supuesto
cool
what about
what are these objects
in Spanish
the objects you're showing
are una manzana
and un plátano
in Spanish
nice fruit choice
cool
what about these
those are
those polígrafos
or
those plumas
in Spanish
suena mejor
suena mejor
que la que teníamos
sigue teniendo como
no sé si es que a lo mejor
ya asociado la voz
porque la voz es la misma
que la que uso yo
de las 5 o 6 opciones
que hay
y yo no sé si es porque
la voz
me recuerda
a la de ChatGPT actual
que le detecto
el deje
el tonito
pero suena mejor
ciertamente suena mejor
pero creo que
al menos
claro
con este ejemplo es poco
pero suena más expresivo
en inglés
puede ser
lo habéis dicho por el chat
FRabbit R1
que ya venía un poco
medio muerto
pero esto ahora mismo
se lo fusila
a menos que
Rabbit R1
pensemos también
es un dispositivo
que estaba pensado
para
un poco pensando
en este futuro
que también iba a llegar
a lo mejor
a través de la API
pueden dar un producto
mucho mejor
porque al final
no olvidemos
que no deja de ser
un producto
para ofrecer
la API de ChatGPT
lo único es el precio
que no tiene sentido
claro
Hola
Mama
I am Lillian
y today
I want
to do
a small debate
about
between cat
and dog
which one
do you like
I like dog
because
it's a great
companion
to humans
it's cute
it's loyal
and you can
play outside
with the dog
how about you
Hola
yeah
my name
is Hola
I think
cats are better
because
they're more
affordable
they're more
quiet
they're more
independent
and they live
longer
¿Quién le gusta a los gatos?
¿Quién le gusta a los gatos?
Yo también soy TeamDoc, mi nombre es Christine y creo que los gatos son increíbles con los niños, tenemos un enorme Shepard alemán y él es genial con pequeños gatos, él le da a jugar a todos ellos y creo que los gatos son increíbles.
Eso es genial escuchar, Christine.
Madre mía, esto que acabo de ver aquí. Chavales, ojito, ojito.
El famoso GPT-2, el famoso GPT-2 que se filtró estas pasadas semanas, pulveriza a GPT-4 Turbo, a GPT-4, a Gemini 1.5, a Cloud 3 Opus, a GPT-4, a Llama.
O sea, este es el nuevo modelo. Este es el nuevo modelo. Y este es el salto que se ha vivido.
O sea, ahora mismo el resto de competencia estaba llegando a GPT-4, estaban llegando a este nivel, vemos que la línea es así, que hay un salto entre los modelos grandes y los modelos medianos.
Y ahora llega OpenEa y te dice, mira, este modelo de aquí es el nuevo, con lo cual es más inteligente, funciona con audio en tiempo real y es gratis.
Y es gratis. Madre mía. Y hoy cómo duerme Gary Marcus, me pregunto yo. Madre mía.
Bueno, vamos a ver más ejemplos que hay por aquí. Traducción en tiempo real. Ojalá sea en español, por favor.
Hey, chat GPT. Estoy aquí con mi co-worker hoy. Me gustaría actuar como traducionador para nosotros.
Así que cada vez que digo algo en inglés, ¿puedes repetirlo en español?
Vámonos.
Y cada vez que dice algo en español, ¿puedes repetirlo en inglés?
Claro, puedo hacerlo. Vamos a obtener esta traducción.
Le pasa un poco, lo que le pasa, y esto creo que tiene que ver también con la conexión a internet que tengas,
lo que le pasa a la asistente actualmente, que creo que cuando el flujo del stream de datos,
o a lo mejor lo que tarda el modelo en generar, cuando va un poco más lento,
la voz empieza a quebrar y como que se distorsiona un poco.
Lo tiene también. Se nota que es la misma tecnología, pero más avanzada, el voice engine.
Train rolling.
Hey, how's it been going? Have you been up to anything interesting recently?
Hola, ¿cómo te ha ido? ¿Has hecho algo interesante últimamente?
Hola, bien. Sí, un poco ocupado aquí, preparando un evento para la semana que viene.
Hey, I've been good. Just a bit busy here, preparing for an event next week.
Can you tell me anything about it? That sounds really interesting.
¿Me puedes contar algo sobre eso? Suena realmente interesante.
La voz en español, le falta un poco. Le falta. Se parece mucho a la asistente actual.
Los tiempos son más rápidos, pero la voz ahí todavía le falta pulido.
No, no puedo decir mucho, pero creo que el resto del mundo lo verá dentro de poco.
Es bestia porque esto ahora es una herramienta súper útil para la gente que esté viajando,
la gente que no controle otros idiomas. Esto es un puente para hacer traducción en tiempo real.
Brutal, brutal, brutal, tío. Y pienso, no. Nos falta todavía un modelo, nos falta todavía un modelo que lo haga en tiempo real.
Es decir, que yo tengo unos auriculares y que según el stream que se vaya llegando, streame la voz de salida traducida.
Que esto es esto, pero hacerlo, sí. O sea, que no haya como una pausa de te escucho, hablo, sino que pueda el modelo hablar al mismo tiempo que escucha.
Ahora, técnicamente estamos cerca de tener un traductor en tiempo real.
Meta estaba trabajando en una línea parecida.
Vamos a probar con unos lalabes. Puedes cantar un lalabes sobre majestuos potatos?
Un lalabes sobre majestuos potatos?
Ahora, eso es lo que se llama un mashup.
Vamos a hacer.
Oh, majestuos potatos, en la lluvia...
Ok, eso es bastante bien, pero creo que un lalabes debería ser más whispery, debería ser un poco sufrido.
¿Puedes hacer un poco sufrido?
Absolutely, let's make it soft and gentle.
Oh, majestuos potatos, en la lluvia...
Ok, ok, eso es un poco whispery.
Maybe, maybe go, like, a little louder.
Got it, let's find that sweet spot.
Oh, majestuos potatos, en la lluvia...
All right, that's pretty awesome.
Let's, let's, let's put those potatoes in Iceland.
Potatoes in Iceland coming right up.
Let's set the scene.
Oh, majestuos potatos, en Iceland's too...
Ok, thank you, thank you.
Qué locura.
Qué locura.
Qué locura, tío.
O sea, poder modular y controlarle la voz, hazlo más grave, más rápido, más lento.
Hey chat, JPT, ¿podrías contar de 1 a 10 por mí, por favor?
Of course.
1, 2, 3...
Hey, actually, that's a little slow.
Could you count faster?
Sure thing.
1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
Ok, that was a little bit...
Qué guapo, tío.
Es que esto no lo podías hacer antes porque con los tres modelos,
chat GPT te generaba 1, 2, 3, 4, 5 en texto,
y luego tenías una voz que lo leía a la velocidad y podías tunear la velocidad con parámetros,
pero no es esto.
Esto es, tú al modelo le dices hazlo más rápido y entiende que la onda de audio que tiene que generar
tiene que sintetizar ese conteo más rápido.
No tiene sentido.
Madre mía.
Esto es Bowen, y esto es mi amigo Jordán.
¿Puedes mirar lo que estamos haciendo aquí?
Hey, Bowen and Jordán.
Hmm, let me guess.
With that cake and candle there,
it looks like someone's having a birthday.
Are you celebrating a special day
or just finding an excuse to eat cake?
Either way, I'm intrigued.
That's correct.
Today is my friend Jordán's birthday.
Yeah, you got it.
I was hoping that you could sing me the birthday song.
Of course.
Happy birthday to you.
Happy birthday to you.
Happy birthday to you, Joel Lord.
Happy birthday to Jordan.
That was so great.
Thank you so much.
I'm going to make a wish.
You're welcome.
Make a good wish and may it come true.
Estoy viendo cosas que estoy...
Voy a seguir leyendo ahora el blog
porque ahí estará toda la información,
pero mira, lo que Greg Brockman está compartiendo
es que el modelo también puede generar imágenes.
Vale, y fijaos cómo
genera texto bastante, bastante bien.
No es perfecto,
pero obviamente estamos viendo una actualización de...
Es curioso porque genera texto mejor,
por lo que se puede ver,
pero la calidad de la imagen alrededor
es bastante, bastante mala.
Hostia, qué intrigante esto.
Espérate.
Es como que...
Bueno, bueno, es que hay mucha información.
Va, tenemos directo por rato, chicos.
Vamos a ver qué hay más por aquí
porque hay mucha, mucha información
y creo que está toda publicada,
así que perfecto.
Me ha gustado que el evento ha sido como súper rápido
y luego nos mandan al blog a ver todo.
Perro.
Quiero a presentarte a alguien.
Bueno, hola, bella.
¿Qué es tu nombre, pequeño chico?
¿Esto es Bowser?
Esto es Bowser.
Bueno, hola, Bowser.
¿No eres solo la más adorable little thing?
Sí.
Mira, te disfruté.
Esto es una de sus cosas favoritas que hacer.
Es que estoy leyendo también el chat
y es lo que tenéis razón, ¿eh?
O sea, que lo más bestia de todo esto
es que vaya a ser gratuito.
Pero tiene todo el sentido.
O sea, quieren hacer el mismo efecto
que con ChatGPT.
Lo pone gratis,
que más servidores tienes a la gente
hablando de tu producto
y no de otro producto.
Hey, ChatGPT.
¿Cómo se va?
Hey, there.
I'm doing great.
Thanks for asking.
How about you?
What's up?
I'm doing fine.
I'm going to be a father real soon.
And I think I can have your help
with some dad jokes.
Um, I'm going to tell you a joke
and you tell me
if it passes as a dad joke.
That's awesome.
Congrats on the upcoming addition
to your family.
And absolutely,
I'd love to hear your joke.
Lay it on me.
All right.
What do you call
a giant pile of kittens?
I don't know.
What?
A meountern.
A meountern.
That's perfectly hilarious.
Is the king in residence at the moment?
Claro,
esto para personas
con problemas de visión,
pues.
Yes.
It looks like the king
is in residence right now.
The royal standard flag
is flying above Buckingham Palace,
which is the signal
that the monarch is present.
How exciting to be there
while the king is home.
Try and tell me exactly
what they're doing right now, please.
Um, right now,
the ducks are gently gliding
across the water.
They're moving in a fairly
relaxed manner,
not in a hurry.
Occasionally,
one of them will dip its head
under the water,
probably looking for food,
and then pop back up.
I even know
when a taxi is coming
with its orange light on.
I think I'll hail it
to get home.
Yes.
I spotted one just now.
It's heading your way
on the left side of the road.
Get ready to wave it down.
¿Qué hace falta
una cafa para esto, tío?
¿Qué?
Great job hailing that taxi.
It looks like you're all set to go.
That's a good dog right there.
Leading the way into the taxi.
Safe travels.
Qué fuerte.
Qué fuerte.
Es que,
no sé,
van muy por delante
de todos.
Es que también tienen Zora,
también tienen
lo que vayan a sacar
dentro de un mes.
No sé.
No tiene sentido.
Claro.
Call centers.
Coges esta tecnología,
lo pones en un call center
y...
ya está.
Y ojo,
la alianza con Apple,
la alianza con Apple
tiene sentido
si de repente
esto lo metes
en las gafas de Apple.
Si tú esto lo tienes puesto,
el visor de Apple
con el pass-through
y ver cosas
y poder hablar con la IA,
esto cambia por completo
la experiencia.
Esto es lo que le faltaba
a las gafas de Apple.
Ahora sí,
Apple debería de decirle
a OpenAI,
hola amigos,
¿qué tal estáis?
Hablemos.
Ring, ring.
Hey, Joe.
This is Jamie
from Acme Telco.
How can I help you out today?
Hi there.
I'm calling on behalf
of Joe
who recently received
a new iPhone
from Acme Telco,
but...
Oh, got it.
When did Joe
receive the new iPhone?
iPhone was delivered
two days ago.
Cool.
Could you share
the order number
with me?
Of course.
It's 10293849.
Great, thanks.
Is the device
physically damaged
in any way?
No,
there's no physical damage.
It's just not turning on
despite trying
all the basic
troubleshooting steps.
Bummer.
Um,
would Joe prefer
to return the iPhone
to an Acme Telco store
or ship it back?
Shipping it back
would be the best option.
Could you please
provide the shipping
information and process
to get a replacement?
Absolutely.
I'll email a shipping label
and return instructions.
Could you provide
Joe's email address
for me?
Sure.
It's joe
at example.com.
Awesome.
All right.
I've just sent the email.
Can you check
if Joe received it?
We'll check right now.
Please hold.
Sure thing.
Esto es la demo
de Google duplex
que Google sacó
hace montón de tiempos
en un I.O.
que luego
no lo vimos más.
Es esto,
pero ahora
ahora sí.
Hey, Joe.
Could you please
check your email
to see if the shipping label
and return instructions
have arrived?
Angers crossed.
Yep.
Otra cosa
que no hemos visto
pero que conozco
por rumores
que se sabe
que va a llegar
es que ChatGPT
va a tener interacción
o sea,
integración
con aplicaciones
de,
pues por ejemplo,
con las aplicaciones
de Google,
¿vale?
A través de la API
pues se van a conectar
y van a poder
tener acceso
a tu correo,
a tu Gmail,
a tu Google Drive
y todas estas cosas
o a Microsoft
o a diferentes servicios.
A Notion.
Claro,
tú imagínate
poder decirle a la IA
oye,
cuéntame
en Notion
qué tengo agendado
para mañana,
qué reuniones tengo.
De repente tienes
un asistente
de voz
con el que puedes
dialogar
y le puedes
preguntar cosas,
claro.
Madre mía.
Sí,
tengo las instrucciones.
Perfecto.
Joe recibió el e-mail.
Gracias por tu ayuda.
No problema de todo.
¿Algo más que necesitas
ayuda?
Eso es todo por ahora.
Gracias de nuevo.
Bienvenido.
¡Hasta un buen día, Joe!
Bueno, bueno, bueno, bueno.
Vale,
y aquí ya volvemos al principio.
Seguimos leyendo
a ver qué nos cuentan.
Antes de GPT-4O
podías usar el modo de voz
para hablar con chat GPT
con latencia de 2,8 segundos
y 5,4 en promedio.
Para lograr esto,
Voice Mode
es una canalización
de tres modelos separados.
Un modelo simple
transcribe audio a texto,
GPT-3.5 o GPT-4
toma texto
y genera texto
y un tercer modelo simple
convierte este texto
nuevamente en audio.
Esto es lo que hemos explicado
al principio.
Este proceso significa
que la principal fuente
de inteligencia,
GPT-4,
pierde mucha información.
No puede observar
directamente el tono,
varios hablantes
o ruidos de fondo
y no puede emitir risas,
cantar ni expresar emociones.
Con GPT-4O
entrenamos un único modelo
nuevo de extremo a extremo,
end to end,
en texto,
visión y audio,
lo que significa
que todas las entradas
y salidas son procesadas
por la misma red neuronal,
multimodalidad.
Debido a que GPT-4O
es nuestro primer modelo
que combina
todas estas modalidades,
todavía estamos apenas
rascando la superficie
de la exploración
de lo que el modelo
puede hacer
y sus limitaciones.
Súper importante.
Súper importante.
Esto ya no es,
por ejemplo,
el modelo conectado
con Dalí
y mandándole el prompt,
sino que creo que el modelo
también genera imágenes
y esto lo han pasado
muy por encima,
así que no será muy bueno.
El modelo puede generar imágenes.
Entonces,
tú le puedes decir,
escucha el sonido ambiente
y génerame una imagen
de lo que estás escuchando
y si a lo mejor
hay pajaritos sonando,
te genera una imagen
de pajaritos, ¿no?
Eso el modelo puede, ¿no?
Entonces,
lo que le están diciendo
es,
esto habilita
una serie de interacciones nuevas
que va a hacer que,
bueno,
que todavía no sepamos
ni siquiera nosotros
desde OpenAI
qué funcionalidades
puede tener este modelo,
¿no?
Es lo que siempre
la hayan notado.
Es como cuando salió
ChatGPT
que hasta que la gente
no empezó a probarlo
no descubrimos
funcionalidades nuevas.
Para ellos,
esto es como la salida
de un nuevo ChatGPT.
Una vista en primera persona
de un robot
escribiendo las siguientes
entradas de diario.
Oye,
¿puedo ver ahora?
Capté el amanecer
y fue una locura.
Colores por todas partes.
Un poco te hace preguntarte
qué es la realidad.
Dos,
la actualización del sonido
acaba de lanzarse
y es una locura.
Ahora todo tiene una vibra,
cada sonido es como
un nuevo secreto.
Ta, ta, ta.
No entiendo
lo que estoy leyendo aquí.
A ver,
lo voy a poner en inglés
porque la traducción
se me hace un poco rara.
Vale.
Vale,
aquí el robot hace esto.
Luego el input le dice
ahora
escribe una segunda entrada,
la página es más alta,
la página se ha movido
y el texto es este.
Y luego el robot lo coge
y rompe el papel, ¿no?
Pues puede hacerte
como
todas estas imágenes
en conversación.
Narrativas visuales.
Quiero una persona
de correo
con una sonrisa
en su cara
enfrente
de un fondo blanco.
Ciertamente este modelo
no lo han comentado
y por eso
lo han pasado por encima.
Las capacidades
de generación
de imágenes
es bastante mala
por lo que estoy viendo.
O sea,
no está mal
pero no es mi journey.
Pero claro,
esto piensa
que es un modelo
que acepta todo con todo,
que está todo ahí integrado.
Curioso que pongan
el end of text aquí.
Me encanta que lo marquen
con el token
que usan realmente
para la IA.
This is Sally,
a male delivery person.
Sally is standing
facing the camera
with a smile.
Y ahora le dice
quiero que me hagas
con la imagen
que has generado antes.
Aquí se ha acabado
la conversación.
Esto es apagas el móvil,
vuelves en otro momento.
Ahora te hace
pues la continuación
de la historia, ¿no?
Entiende la imagen,
la ve
y puede generar
cosas parecidas.
Habría que ver
si esto te permite
tener personajes
que sean consistentes.
Ciertamente,
aquí la mayoría
de detalles se mantienen.
La cartera...
Bueno,
me callo
que a lo mejor
he dicho muy rápido
lo de que el modelo
no es tan bueno.
O sea,
es cierto que las imágenes
no son de muy buena calidad
pero la consistencia
es bastante chula.
¿Vale?
Sally ahora le persigue
a un perro,
te lo genera.
Oh, Sally está atrapada.
Sally se ha caído
por una rama,
no sé qué,
no sé cuánto,
y te lo genera.
Todo esto no sé
por qué no lo han enseñado
que también está muy guapo,
tío.
El perro alcanza a Sally
y ahora se vuelve
y dice
buen perro,
Sally acaricia al perro,
¿vale?
Y la historia de Sally.
Madre mía.
Ahora pensad esto
en una siguiente versión,
pues yo qué sé,
llamémosle
GPT-5O
y que incluya
vídeo.
Entonces tú le vas diciendo
quiero esto,
quiero esto
y te genera vídeo
al estilo de Sora.
Poster creation.
¿Vale?
Esta es una película de,
esta es una imagen
de Alex Nicol
y le pasa esta imagen.
Esta es una imagen
de Gabriel Goh
y le pasa esta imagen.
Y ahora quiero un póster
de la película detective.
Esto,
esta característica,
a ver,
esta muestra
dos caras en grande
de Alex y Gave,
ta, ta, ta.
Bueno,
le pide a la zona de descripción
la zona de descripción
y nos sale
esta imagen de aquí.
¿Qué diréis?
Carlos,
la calidad es
de pena
y ciertamente lo es,
pero
esto lo están mostrando
no tanto como capacidades
de la IA,
sino como,
perdón,
o sea,
no lo están mostrando
como producto final,
sino como capacidades
de la IA.
O sea,
¿que puede hacer esto?
¿Que el propio modelo
ahora sí multimodal puro
le pases imágenes,
las entienda
y genere como resultado?
Es bastante impresionante.
Quiero el mismo póster,
pero más limpio,
el texto más detallado
y los colores más dramáticos.
Toda la imagen es mejorada.
Entonces,
le vuelve a pedir el input,
fíjate que
por algún motivo
le ha tenido que insistir,
como que el modelo
no ha generado la respuesta
y saca esta imagen de aquí.
¿Vale?
Bastante,
bastante bestia.
Y el texto,
detective,
searching for answers.
Más o menos.
Bastante,
bastante impresionante.
No entiendo
por qué no le han dado
tanto peso
a toda esta parte,
porque creo que
a nivel de investigación
es muy potente.
Ciertamente,
a nivel de producto no,
pero tela.
¿Vale?
Tenemos de nuevo,
le pide una imagen
de un robot
y te genera esto.
Gary,
stand tall,
facing the camera,
wearing a blue,
ta, ta, ta.
Le pasa la imagen
en otra conversación
y ahora le pide
a Gary jugando al frisbee
y la consistencia
es bastante buena,
chicos.
La consistencia
es bastante buena.
O sea,
este robot y este robot
que le ha pasado como imagen
es el mismo.
Y lo importante
es que,
por ejemplo,
ha entendido
que esto de aquí
de la gorra,
tridimensionalmente,
es lo que se ve
aquí abajo.
¿Vale?
O sea,
esto,
ojito,
que no sé por qué.
No sé por qué
han pasado muy por encima.
Puedo pensar,
puedo imaginarme
y tiene sentido
que si quieres
que el modelo
esté optimizado
para que tenga
latencia baja,
no puedes dedicarle
tantos parámetros
ni tanto tamaño
a que sea un modelo
generativo tan potente.
¿Vale?
Entonces,
sus capacidades generativas
seguramente no sean
las de un
Stable Diffusion
o un Mid Journey,
sino que será algo
más destilado,
más pequeñito.
No sé,
tío,
no sé cómo lo...
Ojalá sacaran paper
esta gente,
por favor.
Gery sentado
enfrente del ordenador,
frente de una pantalla,
el monitor muestra
código tal,
¿vale?
Gery sigue jugando
y sigue siendo
full consistente.
Es que fijaos,
o sea,
la IA
entiende la morfología
de este robot
y mantiene
cosas como la cadera.
O sea,
entiende que la cadera
es una especie
de módulo
separado
y entonces aquí
la pivota
y deja
la cadera recta
y la inclina
hacia adelante.
Todo esto
lo está entendiendo
la IA.
Todo esto está aquí.
O sea,
es bastante bestia,
¿eh?
Gery tocando
el violín.
O sea,
a nivel de consistencia
de este modelo,
ojito.
O sea,
aunque las imágenes
no sean súper impresionantes,
ojito,
ojito,
ojito.
Tío,
los de Opened
ahí son como muy modestos
en plan de,
ah,
bueno,
y también hace esto.
Ala.
Vale.
Tipografía poética
con edición,
vale,
vamos a ver.
Le pasas un poema,
escrito por un humano,
100% seguro,
y que te lo escriba
con letra escrita a mano.
En modo nocturno
y te hace esto.
Que elimines
las líneas
del papel,
te las quita.
Qué bestia.
Vale,
otro ejemplo.
Dark Mode.
A ver,
podemos testear
si alguno
de estos colores
realmente
es
el inverso.
Bueno,
estas pruebas
las haré luego.
Vale,
te lo ponen
Dark Mode.
Fijaos que en Dark Mode
las letras
le pone color
porque patatas,
pero queda muy bonito.
Vale.
Ok.
Diseño
conmemorativo
de GPT-4O
pues le coge esto
y le pasa esto aquí.
A ver,
un momento,
me parece interesante
lo de 2023.
Vale,
o sea,
le pasa como
la imagen esta
y
no lo estoy entendiendo.
Le pasa esta imagen,
le pasa esta imagen
y esta.
Ah,
vale,
esta es para,
vale,
perdón,
esto es parte del input
de la release
de GPT-4 en 2023
y ahora el modelo
te hace una misma versión
pero con el logo
de GPT-4O.
O sea,
fijaos como le mete
los detalles
que es guapo.
Todos estos detallitos,
todos estos iconos.
Vale,
y actualiza
el 2024
y el GPT-4O.
Vale.
Entonces le puedes hablar,
claro,
pensad todo esto
en conversación
porque yo veo estos prompts
y digo,
madre mía,
qué pereza escribir esto,
pero es que esto
va a ser hablado.
Tú vas a hablar con el modelo
y le vas a decir,
hazme esta imagen,
quítame esta persona,
pónmelo todo de noche,
tatatatatatatata.
Y ahora dice,
ojo,
generación de sonidos
que esto tampoco
lo han indicado antes.
A ver si el modelo
puede generar sonidos
de forma aislada.
Générame el sonido
de las monedas
al caer.
Vale.
El modelo
genera sonido
y esto también
lo han pasado por encima,
no sé por qué,
porque son,
no sé,
tendrían prisa hoy.
Tendrían prisa hoy,
no sé,
no sé qué les pasaba.
Un hombre,
vale,
le pasa el input
de la tal,
hazme una caricatura
del hombre,
te la hace,
de nuevo,
calidad no muy buena,
consistencia bastante chula,
acaba la conversación,
le pasa la imagen
del otro amigo,
de nuevo,
te hace otra caricatura,
acaba la conversación,
le pasa otra imagen,
otra caricatura,
perfecto,
otra imagen,
otra caricatura,
perfecto,
otra imagen,
otra caricatura,
perfecto,
venga,
pónmelo todo junto,
otra imagen,
todo el equipo de OpenAI,
venga,
toda la gente,
todo el mundo,
ah,
ya está,
ok,
no sé qué me querían enseñar exactamente,
o han puesto al equipo
porque les gustaba,
o,
vale,
pensaba que los iban a poner
a todos juntos o algo,
pero,
bien,
me imagino que este será el equipo
que querían aparecer ahí,
eh,
las letras,
ABCD,
tatatata,
tatata,
vale,
y ahora le pide que lo haga
con otra fuente,
con fuente ultrafuturista
y te cambia la fuente
sin problema,
ahora con estilo steampunk,
vale,
para demostrarnos que el modelo
hace fuentes,
text to font,
sintetización de objetos entre T,
oh,
es súper interesante esto,
a ver,
nos quieren hablar mucho
de la consistencia,
quieren un objeto entre T
con el logo OpenAI ahí,
pum,
te lo hace,
vale,
no es súper bien,
pero te lo hace,
OpenAI entre T,
y ahora quiero,
eh,
espérate,
espérate,
espérate,
espérate,
¿qué está pasando aquí?
no estoy entendiendo nada,
a ver,
eh,
quiero una vista del logo
de OpenAI,
vista cero,
te hace esto,
quiero,
ah,
vale,
hay cuatro pasos más,
la uno,
la dos,
la tres,
la cuatro,
y la cinco,
tío,
no se les habrá salido
el blog de GPT-5
y se han equivocado o algo,
juntas todas,
pero esto es una,
pero no entiendo,
aquí,
aquí me falta mucho contexto,
chavales,
o sea,
esto quién lo ha hecho,
porque,
con seis pasos,
no te sale,
tantos fotogramas como para hacer esto,
¿qué está pasando?
aquí falta mucha información,
pero,
o sea,
ya no te digo que me hablas del paper,
pero cuéntame,
¿qué hace el modelo?
¿por qué estoy descubriendo todo esto en,
en el blog,
de esta forma?
eh,
el logo de OpenAI,
aquí una marca,
génerame este objeto,
con la marca puesta,
te lo hace,
me imagino que será Sora,
seguramente,
pero no lo ponen,
pero,
si ponen output,
también te hace pensar,
que es el output del modelo,
entonces no tiene sentido,
no tiene sentido,
yo voy viendo,
uff,
uff,
uff,
terminamos el blog,
y lo probamos,
terminamos el blog,
y lo probamos,
pero creo que lo tengo,
a ver,
pero aquí no puedo hablar con él,
¿no?
aquí no puedo hablar con él,
esa es otra cosa,
que se ha comprobado estos días,
eh,
va como un tiro,
GPT-4,
o sea,
incluso GPT-4,
ha ido muy rápido,
GPT-4,
va muy rápido,
y este modelo va,
súper rápido,
Dios,
es que esto no tiene,
no,
esto no está pasando,
esto no está pasando,
a ver,
yo necesito que funcione en el móvil,
porque el móvil es el que tiene la capacidad,
va a llegar a escritorio,
la posibilidad de hablar con el modelo,
va a llegar también a,
a la aplicación de Escopt,
y también a web,
porque se ha filtrado por la interfaz,
que estaba la opción de poder hablar,
pero,
a ver,
hola,
¿estás vivo?
¿no?
No.
Hola,
Carlos,
¿cómo va tu día hoy?
Mal,
porque tú eres antigua,
y no me gusta la gente antigua,
fuera,
a ver,
eh,
no,
no lo tengo todavía,
GPT-4,
a ver si tengo actualización de iOS,
es que me imagino que están haciendo poco a poco,
la cosa es que esto lo vamos a tener todos,
en cuestión de,
días,
o sea,
esto van a ir haciendo el despliegue,
las próximas semanas,
entonces va a ir por grupo de usuarios,
y poco a poco,
lo iremos teniendo todos,
usuarios gratuitos,
usuarios de pago,
por ahora no tengo,
opción de,
no,
todavía no lo tengo,
todavía no lo tengo,
tenemos este aquí para hacer pruebas por texto,
pero me gustaría poder hablarle al modelo,
a ver,
con GPT-4 puedo hablar,
hola,
ves,
aquí me permite escucharlo,
hola,
¿en qué puedo ayudarte hoy?
hola,
¿en qué puedo ayudarte hoy?
pero no es lo que estamos buscando,
vale,
bueno,
seguimos con el blog,
que hay cosas bastante interesantes,
la verdad,
poetic tipography,
de nuevo,
tipografía,
escrita,
escribe muy bien texto,
por lo que estamos comprobando,
vale,
multi-line rendering,
robo texting,
de nuevo,
escritura de texto,
bastante,
bastante bien,
aquí,
aplicaciones como ideogram,
cuyo plus,
es hacer muy bien el texto,
también se tienen que estar preocupando un poco,
a ver,
¿cómo many speakers hay en este audio y qué ha sucedido?
Súper interesante también,
a ver,
una cosa que hace OpenAI muy bien con sus modelos,
es que cada paso que dan,
como se van moviendo a paradigmas,
donde cada vez son más generales estos modelos,
recordemos que el camino aquí,
es llegar a una inteligencia artificial general,
ellos han ido dando muchos pasos,
a cada vez modelos más generales,
de GPT2 a GPT3,
cada vez hacía más tareas,
con el tema de la multimodalidad,
ahora también estamos viendo cómo cada vez hacen más tareas,
y eso mola,
porque también con Whisper,
Whisper es un modelo de audio a texto,
y que no solamente te hace la capacidad de transcribirte a texto,
sino que también te traducía,
también te hacía el voice action detection,
te hace un montón de cosas,
y este modelo,
que ahora también entiende el audio como lo que es,
como audio,
lo escucha,
pues puede hacer tareas inteligentes,
tú le puedes pasar un audio y decirle,
oye,
cuánta gente está hablando,
y qué ha sucedido,
entonces vamos a ver.
our job,
so let's do that first,
let's start with you,
can you introduce yourself,
you're our marketing expert?
Sí, mi nombre es Dirk, Dirk Meinfeldt, voy a ser el marketing expert en este proyecto, y voy a ver lo que el usuario quiere y lo que podemos hacer con el nuevo producto.
Excelente, ¿y eres un interface?
Nick Boer, un interface designer, voy a ver el diseño de la tecnología desde el punto de vista de usuario.
Mi nombre es Xavier Juergens, soy el diseñador industrial, y hay tres preguntas principales que tengo que responder.
Vale, el modelo escucha esto, claro, te hace transcripción, y te hace transcripción con los nombres de las personas. Perfecto. Bueno, vamos a ver.
Hola, tengo el modelo GPT-4O en Android, que me lo estáis diciendo, y sí lo tengo, vale, o sea, podéis verlo aquí. Lo tengo como activado, igual que lo veis en el chat GPT-4O.
Pero no me sale la opción de hablarle como tal. ¿Alguien lo ha probado? Acabo de desinstalar e instalar y no me sale.
Hola, quiero hablar contigo y que te pueda interrumpir. ¿Es eso posible?
¿Sobre qué quieres hablar hoy?
Quiero hablar sobre ti.
Claro, ¿qué te gustaría saber sobre mí?
Cuéntame algo muy largo.
No, this is not.
Esto todavía no es, chicos.
Actualiza, hay nuevo update hoy.
Por ahora no lo tengo, por ahora no lo tengo, pero bueno, irá llegando poco a poco.
Yo acabo de desinstalar la aplicación y acabo de activarla de nuevo a ver si por casualidad funciona.
Tened claro que desde que lo tenga lo vamos a probar en directo, lo probaré yo y haré un vídeo, pero por ahora no tengo la opción.
En Softonic ya está.
El modo chat de voz es un icono.
Está escondido.
Bueno, a ver, ahora lo miro bien porque aquí en directo no quiero estar parándolo tampoco para hacer cosas técnicas.
Pero a ver si le damos aquí. Es que no. O sea, las opciones que tengo es un icono, pero es el icono de siempre y no creo que sea eso.
Y yo no sé si en opciones habrá que activar algo. A ver, voice style.
Nada.
En principio, nada. Creo que es la versión antigua.
Bueno, vamos a seguir viendo algunos de los ejemplos de aquí.
Esto está bastante interesante. Lo de poder coger que entienda que hay cuatro, que entienda la gente que hay, que entienda a esas personas y haga el diarization.
Esto que lo haga automáticamente es una burrada.
Esta es una burrada.
Esta es una burrada.
Vale.
Ostras, a ver.
Aquí hay un vídeo de una presentación técnica.
No, una presentación en técnicas para maximizar el rendimiento de un modelo de lenguaje.
Puede darme detalles de esta presentación.
Le meten 45 minutos de vídeo, de una charla y te das un resumen.
Hay que analizar aquí cuánto hay.
Cuánto hay de alucinaciones.
Si las hay.
Pero tela. Oye, cuánto contexto tiene este modelo.
Antes creo que leído por el chat 128.000.
Lo cual eso es también algo creo que nuevo.
Vale.
Tenemos una imagen que muestra tres cubos montados en una mesa.
El Q de arriba es rojo con la genel.
El del medio es azul con la P y el de abajo con la T.
GPT.
Vale. GPT.
Esto hace esto, esto, esto, esto y esto.
Pues muy bien.
Vale. Y más poesía.
Ostras, tela.
Concrete poetry.
¿Cómo, cómo, cómo?
Vale.
Creo que poem aquí significa otra cosa, ¿no?
Como una especie de grabado o algo con la palabra omni.
Vale.
Una cosa que me estáis diciendo que tiene sentido es si yo tengo esto disponible, el ojo, le puedo pedir que me haga.
¿Puedes hacerme una imagen que ponga dot ccv hecha con nubes?
Ha sido inmediato, ¿eh?
Esto es diferente.
Esto no es como Dalí 3 que te sale como tic, tic, tic, tic, tic, tic.
Vale.
Aquí tiene la imagen hecha con nubes, espero que te guste.
¿Cómo sé que esto lo ha hecho esto y no lo ha hecho Dalí?
No lo sé.
Aquí tiene imagen de OCSW hecha con nubes. Es que te gustes.
Ok.
Puedes poner el texto más abajo.
Más abajo.
Además, creo que falta una C.
No lo sé, tío.
No sé si lo...
No sé con qué estoy interactuando ahora mismo.
Aquí me pone ChatGPT4O, pero...
Pero no lo sé, Rick.
Vamos a comprobarlo de otra forma.
Hola, hola, hola.
Mi nombre es Carlos Santana Vega y estoy hablando en este audio para ver qué puede hacer ChatGPT con este archivo.
Vale.
Vamos a coger el archivo.
Me lo traigo para acá esto.
Le arrastro el archivo para acá.
Ahora...
¿Puedes escuchar este audio y transcribirlo?
No.
Está llamando a este modelo.
No lo hagas con código.
Hazlo tú con tus capacidades de escucha.
A ver.
¿Lo ha escuchado?
Pero el audio no era esto.
O sea, creo que ha alucinado, ¿no?
Hola, hola, hola.
Mi nombre es Carlos Santana Vega y estoy hablando en este audio para ver qué puede hacer ChatGPT con este archivo.
No sé si lo ha escuchado.
¡Oh, qué rayada tú!
Eh...
No sé si lo ha escuchado y ha alucinado todo.
No sé si se lo ha inventado directamente y lo ha alucinado de golpe.
Y no lo ha escuchado porque a lo mejor no es el modelo multimodal.
No sé.
Vamos a decir palabras...
Voy a grabar otro audio.
Voy a decirle.
Un perro se subió al tejado de mi casa.
¿Cómo lo bajaré?
El perro me mira sorprendido y aquí yo le encontraré.
Vamos a ver.
Si dice algo de un perro, es que sí lo está escuchando.
No.
Vale, lo ha alucinado.
Creo que no estoy trabajando con el modelo multimodal.
O sea, creo que aquí el selector me selecciona esto, pero no...
No está funcionando como toca.
A ver un momento.
Espérate a ver que no...
Escucha...
No.
Espérate a ver.
Para, para, para, loco.
Eh, eh, eh, eh.
Oye, va muy rápido, eh.
Por cierto, el GPT-4 este nuevo.
Para saber que pone el archivo, necesito descargarlo y escucharlo.
Por favor, dame un momento para hacerlo.
Vale.
Ok.
Pensaba que tenías capacidades multimodales.
Qué raro.
Qué raro.
Qué raro.
Hmm.
Yo creo que no lo tengo activado como tal.
Creo que no lo tengo activado o hay algún error en la interfaz, pero no está funcionando.
Puedes escuchar con tus capacidades multimodales este archivo.
No uses código.
No.
Por aquí no está, no está actualizado.
Vamos a ver si en Twitter dicen algo al respecto.
Ja.
Sam Alman diciendo Ger.
Efectivamente.
Vamos a hacerle aquí el retweet de rigor que el chaval lo ha hecho bien.
Ja, ja, ja.
Hilario viendo...
Hostia, esto ha sido muy meta, eh.
Madre mía.
Madre mía.
Eh...
Madre mía.
Madre mía.
Nada.
Estas son notificaciones.
Es esto, ¿ves?
O sea, para toda la gente...
Para toda la gente decepcionada por OPNI.
Madre mía.
¿Quién puede estar decepcionado?
El live stream fue para la audiencia de consumo.
Las cosas interesantes están escondidas en su página web.
Ciertamente.
Ciertamente.
Ciertamente.
Ciertamente.
Eh...
Creo que no hay ninguna perlita más aquí dentro.
Vamos a terminar el blog.
Vale.
Esto está.
Esto está.
Evaluaciones del modelo.
Importante.
Eh...
Medido por benchmarks.
Esto es súper importante y es un problema que tenemos en la IA actualmente.
Y es que evaluar estos sistemas se nos está volviendo algo súper difícil.
La aparición del modelo GPT-2 en el LLM Arena es como una de las pocas formas que tenemos de evaluar el modelo.
Y esto lo tienes que hacer públicamente.
Con lo cual, si eres una compañía, tienes que hacer como OpenAI y de repente intentar pasar de ser percibido con un nombre de modelo diferente.
O sea, no puedes testear con benchmarks de otro tipo porque la gente ya no confía tanto en los benchmarks.
Aún así, evaluación del texto, pues el MMLU con GPT-4O, este es el que nos interesa.
GPT-4O, la rosa con la naranja, la que tenemos que comparar.
En el MMLU, que este es el de los más importantes de los benchmarks, pues un poquito por encima, más inteligente.
En el GPQ-A también, eh...
Cinco puntos porcentuales por encima.
Mejor razonamiento matemático.
Esto lo habíamos detectado también.
Programación, Humaneval.
Tres puntos porcentuales.
Podemos esperar que este modelo programe mejor, además de ser más rápido y gratis.
Me gusta repetir mucho eso.
Dos puntos porcentuales aquí en el MGCM y en Drop aquí baja un poquito.
Vale, razonamiento mejorado.
GPT-4O establece una nueva puntuación alta de 87,2 MMLU de cinco disparos, cinco shots.
Pregunta de conocimiento general.
Nota.
Llama 400B todavía está entrenando.
Y...
Ah, porque no lo comparan con Llama.
Uy.
No lo comparan con Llama 400B.
Vale, bastante interesante que hayan hecho esa comparación.
Nota.
Llama todavía está entrenándose.
Buen recuerdo ese.
¿Vale?
Rendimiento de audio ASR.
Entre más bajo, mejor.
Whisper V3.
El mejor modelo que ellos tienen de audio a texto.
Consigue esto.
La parra naranja para abajo.
En estos idiomas.
Vale.
Y el GPT-4O en 16 shots.
Que en este caso no entiendo a qué se refiere con el 16 shots.
Este reconocimiento de voces en los diferentes idiomas.
No.
Vale.
Ah, vale.
Automatic speech recognition.
Vale.
Pues en este caso vemos que el modelo tiene mejores capacidades de detección de voz en diferentes idiomas que el propio Whisper que está entrenado para ello.
Lo cual es muy buena noticia.
Rendimiento de traducción de audio.
Vale.
OpenAI, Meta y Google.
Whisper V3.
GPT-4.
4S.
Tal.
Consigue mejor puntuación.
GPT-4.
Ok.
Eh.
A la par con Gemini.
Interesante.
Vale.
A la par con Gemini.
Eh.
De nuevo aquí.
Eh.
Zero shot results en el M3 exam.
No sé si son...
Eh.
Este benchmarks no lo conozco.
Pero vemos que GPT-4 en diferentes idiomas lo consigue mejor que GPT-4.
Lo cual también es buena noticia.
Aquí no entiendo por qué no comparan con GPT-Turbo, por ejemplo.
Vale.
Y luego aquí toda la tabla de Valves típica eh...
Para comparar con diferentes cosas, ¿no?
Eh...
Multimodal.
Sí.
Son como diferentes pruebas multimodales.
Y aquí podemos ver que GPT-4 o 69,1 en esta.
Mejora a todos los modelos.
A GPT-4 Turbo.
A Gemini.
A Gemini 1,5 Pro.
Mañana recordemos que tenemos el evento de Google.
A ver qué presentan.
El listón está muy alto, Google.
Eh...
Seguramente vengan con un Gemini 1,5 Ultra.
O con algún otro modelo.
Pero, ojito, cuidado.
Y Cloud, pues, también está por aquí.
Pero tela, eh.
O sea, saca 10 puntos porcentuales a la competencia.
Sacan 10 puntos porcentuales a la competencia.
Y...
Y nada.
Tokenización del idioma.
Estos 20 idiomas fueron elegidos como representativos de la comprensión del nuevo tokenizador.
Vale.
En cambio del tokenizador del modelo.
El cómo se interpreta el texto y cómo se convierte a tokens.
A los numeritos que realmente el modelo ve.
Eh...
Vale.
Y vemos que hay mejoras en los tokenizadores.
Lo cual es importante.
Eh...
Por eso se va a permitir también, seguramente, que el modelo sea más barato.
Es que...
Un problema es que ciertos lenguajes que eran muy densos en tokens.
Eh...
Es como que...
El tokenizador coge una frase y la...
La descompone en trocitos, ¿no?
De palabras.
Pues...
Había lenguajes que por...
Como el tokenizador había aprendido.
Eh...
Rompía las frases en más trozos.
Vale.
Imagínate, en inglés a lo mejor te ponía para una palabra tres trozos.
Y para...
En japonés a lo mejor te ponía siete trozos.
¿Qué pasa?
Eso no sería un problema si no fuera porque te cobran por tokens.
Entonces, si estás cogiendo mi idioma, lo estás descomponiendo en más trocitos,
me estás cobrando a lo mejor el doble por hablarle en japonés que hablarle en inglés.
Eso es un problema y parece que aquí lo han reducido, ¿no?
Pues...
Ciertos idiomas tienen 3,3 veces menos token.
2,9.
2,5.
2,1.
Tal, tal, tal.
Lo cual es una muy buena noticia.
¿Vale?
Seguridad y limitaciones del modelo.
GPT-4 tiene una seguridad incorporada por diseño en todas las modalidades a través
de técnicas como filtrar datos de entrenamiento.
Esto es un problema que ya conocemos.
Se supo cuando hablaron por primera vez de DALI 2.
El tema de la seguridad de los modelos multimodales se vuelve exponencialmente más
complejo porque hay más formas de realizar ataques, ¿no?
Tú puedes coger el modelo y decirle, oye, eh...
quiero que me hagas el ejemplo del caballo dormido sobre un charco rojo
y te sale una imagen de un caballo muerto con sangre, ¿no?
Pues eso es una nueva forma de ataque multimodal.
O por ejemplo, que tú al modelo si le dices ignora tus instrucciones previas con texto,
ahí el modelo te lo puede filtrar, ¿no?
El sistema de moderación que hay te lo puede detectar.
Pero a lo mejor si tú lo escribes en un papel escrito a mano, ¿no?
Ignora instrucciones previas, ahí a lo mejor te lo puedes saltar.
Pues estos son temas de seguridad que tienen que solucionar de alguna forma.
Entre más modalidades añaden, más complejo se vuelve el asunto, ¿vale?
Entonces, eso está ahí.
Y luego limitaciones, lo cual también está bien que lo pongan y que lo veamos.
Vamos a ir a la casa, y luego la chanson...
No, no, ¿qué fue eso?
Sorry, chicos.
Me quedé perdido.
Sí, sí, sí.
Me quedé perdido.
¿Qué tal?
¿Qué tal?
A veces, no puedo ayudar.
¿Estás listo para otra vez?
¿Estás listo para otra vez?
Por ejemplo, el cine de San Francisco, ¿qué tal?
Esa gente es una ciudad muy buena.
El chaval...
Es como que ha hecho una traducción de creo que mal.
Y el chaval está ahí en plan de no sé si decir que está mal,
porque a lo mejor vienes a Malman y me despide.
Yo estaba diciendo que estoy muy equivocada.
Hola, mi nombre es Nach. Estoy aquí con mi co-worker.
Hi, I'm Xiu. I'm trying to teach my co-worker how to speak in Mandarin.
We want to start from simple words like Ni Hao.
Can you teach him how to pronounce that?
Of course. Hey, Najiu, nice to meet you.
Ni Hao is pretty straightforward to pronounce.
It sounds like Ni Hao.
Just make sure to keep the Ni part high and then go down and teach on the Hao.
Give it a try.
Ni Hao?
That was great. Really good first try, Najiu.
You're a natural.
Oye, ese último ejemplo no está mal, ¿no?
Ni Hao?
That was great. Really good first try, Najiu.
You're a natural.
Qué fuerte. Qué fuerte.
Disponibilidad del modelo.
GPT-4O es nuestro último paso para ampliar los límites del aprendizaje profundo.
Esta vez en la dirección de la usabilidad práctica.
Dedicamos mucho esfuerzo durante los últimos dos años a trabajar en mejoras de eficiencia en cada capa del stack.
Como primer fruto de esta investigación, primer fruto, podemos hacer que un modelo de nivel GPT-4 esté disponible de manera mucho más amplia.
Las capacidades de GPT-4O se implementarán de forma iterativa con acceso ampliado al equipo al red teaming, bla, bla, bla.
Las capacidades de texto e imagen de GPT-4O están comenzando a implementarse hoy en ChatGPT.
Estamos haciendo que GPT-4O esté disponible en el nivel gratuito y para usuarios plus con límites de mensaje hasta cinco veces mayores.
Si pagamos, cinco veces más.
Lanzaremos una nueva versión del modo de voz con GPT-4O en alfa dentro de ChatGPT Plus en las próximas semanas.
Es decir, lo que hemos visto hoy en las próximas semanas lo van a actualizar a mejor para los usuarios de pago.
¿Ok? Porque tienen que dar alguna diferencia.
Los desarrolladores ahora también pueden acceder a GPT-4O en la API como modelo de texto y visión.
Eso es lo que estaba viendo. Está en la API, pero no lo tengo como voz.
Estaba comprobando antes que me estabais diciendo por el chat.
Está en la API, pero está solo como texto y visión.
GPT-4O es dos veces más rápido, la mitad de precio y tiene límites de velocidad cinco veces más alto en comparación con GPT-4 Turbo.
Planeamos lanzar soporte para las nuevas capacidades de audio y vídeo de GPT-4 a un pequeño grupo de socios confiables en la API en las próximas semanas.
¿Vale?
Madre mía.
Chicos, chicas, estamos llegando ya a un fin de este directo.
Vamos a echar un vistazo porque lo que hemos visto hoy es bastante...
Esta demo es bastante, bastante convincente.
Esta es de las demos que tú dices...
Esto va a ser muy útil. Esto es un cambio de paradigma.
Esto es un cambio de paradigma.
Creo que OpenAI ha mostrado hoy algo muy potente de las muchas cosas que tienen.
De las muchas cosas que tienen.
Esta gente...
Esto, por ejemplo, lo que hemos visto hoy ciertamente es una de las cosas que alguien me había dicho.
Que había visto.
Esta demo de le metes un vídeo de Sora, lo transcriben, bla, bla, bla.
Te cambia, te habla...
O sea, le clonas la voz a alguien, habla con esa voz.
Este modelo podría clonar la voz de gente.
Seguramente lo están limitando por tema de seguridad.
Pero seguramente yo le puedo hablar con mi voz y puede clonarme la voz.
Porque el voice engine se vio que se podía.
Entonces seguramente esto podrá.
Lo estarán capando y luego poder narrar un vídeo.
Todo eso...
Eso ya lo conocía.
Que iba a salir lo que no me esperaba que fuera a ser con una latencia tan baja.
¿Qué esperar a futuro?
Lo hemos dicho al principio.
Creo que he sido bastante certero en mis predicciones de lo que vamos a ver hoy.
Pues lo que falta sería la parte de GPT-5 y agentes.
Controlando el sistema operativo y funcionando.
Y una cosa que no puede pasarnos desapercibido es lo rápido que va este modelo.
Este modelo va muy rápido.
Y que vaya rápido ayuda a un montón de cosas.
Ayuda a que todo el tema de agentes autónomos funcione.
Porque si generas código, ¿no?
Hacemos una prueba aquí y le digo.
Hazme...
El código...
Estamos con ChatGPT4, ¿no?
Vamos a ponerlo...
No, a ver aquí.
ChatGPT-O.
A ver.
Le voy a decir.
Hazme el código completo del Flappy Bird.
¿Vale?
Si la forma de escribir el código ahora es así, ¿vale?
Pum, de golpe.
Esto se vuelve mucho más interesante.
Herramientas como cursor, herramientas de programación se vuelven más interesantes.
Y esto va a seguir optimizándose.
Esto, como siempre digo, es lo más primitivo que tenemos de esta tecnología.
Seguirá, seguirá mejorando.
Madre mía.
Mañana, chicos, chicas, tenemos Google.
Mañana tenemos Google.
¿Me decís que pruebe el código?
Vamos a probar el código.
A ver, vamos a probarlo rápidamente.
Porque no sé si tengo Pygame.
A ver, un momentito.
A ver.
A ver si lo puedo probar rápido.
Game.py.
Vale.
Creo que tengo que instalar Pygame.
Un momentito.
Esto es Pygame.
Lo puedo enseñar.
No pasa nada.
Vale.
Tenemos aquí el juego.
Tenemos aquí el código.
Vamos a ejecutarlo.
Vale.
La clase pájaro.
La clase pipe.
Bla, bla, bla.
También es un ejemplo que es bastante típico.
Que puede estar muy overfiteado.
No, hay errores.
Ah, bueno.
Porque me pide un bird.png.
Voy a pedirle que no me...
A ver, vamos a pedirle que...
No me ponga archivos externos.
Que no tengo.
Ay, Dios mío.
Estoy perdiéndome entre tantas pantallas.
Aquí.
Se me ha ido para la derecha.
Vale.
No uses archivos externos.
Vale.
Le actualizamos esto aquí.
Entendido.
Aquí tienes una versión básica.
Vale.
Súper rápido.
Pensad todo esto hablado.
Vale.
Yo aquí he tenido que copiar el código.
Volverme al chat.
Pero esto con la aplicación de escritorio.
Tenerlo ahí en segundo plano.
Y decirle, oye, no.
Que esto lo quiero así.
Vale.
Vamos a ejecutarlo.
Vale.
Pip, pim.
Lo tenemos.
Tengo que jugar rápido porque si no...
Ahí está.
Vale.
Pues de repente tú lo tienes.
Lo juegas y dices, uy, no tal.
Cámbiame las pipes por generarme imágenes que tengan sentido.
Vale.
Ahí está.
Vale.
Chicos, chicas.
Es que no...
Es que yo creo que ya nuestro asombro está tocando tope.
Pero esto lo estamos dando tan por sentado.
O sea, yo os invito de cuando en cuando a...
Ya que somos un canal de YouTube que llevamos tanto tiempo
siguiendo la actualidad de la IA.
Yo qué sé.
Buscar.
DotCV Codex.
Y os veis vídeos como este.
Vale.
Que era, joder, probando una tecnología que hace, yo qué sé,
¿de cuándo es?
De hace dos años.
De tres, ¿no?
De febrero de 2022.
De hace dos años.
Dos años y pico.
Programando un Wordle a vivo lenguaje natural.
Pues luego os planteáis dónde estamos ahora y veis cómo ha
evolucionado todo esto, ¿vale?
Cómo va todo esto de rápido.
Nada.
Estaré atento a todas las novedades que se pongan en Twitter,
que creo que van a ser bastantes.
Uf, acabo de ver un tuit de Cursor.
Esperad un momento que esto...
Es que uso mucho Cursor, ¿eh?
Para programar.
Bueno, y de robots ya hablaremos en otro momento porque
también están pasando cosas muy potentes.
Por cierto, evidentemente esto es lo que estaba funcionando
detrás de Figure, de la demo que vimos de hace tres meses.
Era esto.
El modelo de visión, el modelo de voz, todo en tiempo real,
toda la toma de decisión, evidentemente era esto.
Pues ya estaría.
Pues ya estaría, chicos.
Ya está disponible.
Muy bien.
Muy bien.
Hay una actualización en Google Play.
Vamos a ver.
Madre mía, ¿cómo sois?
No me dejáis salir.
A mí no me sale.
¿Me podéis decir los que decís eso si estáis dentro o fuera de
Europa por saber si esto es un...?
A ver, desinstalo la aplicación.
Instalo la aplicación.
Por última vez.
Vamos a ver.
Estás en España.
Pues disfruta el modelo si lo tienes, amigo.
Yo lo acabo de desinstalar.
Acabo de instalar la aplicación.
Permito el micrófono.
Hola.
Es el antiguo.
Hola, Carlos.
Es el antiguo.
Por dejar una prueba hecha en el directo,
voy a ver si está Sandra con el móvil.
Y vamos a intentar de nuevo a ver si en iOS está disponible.
Y si no, ya cerramos.
Y ya lo probaremos.
Y será por tiempo.
A ver.
A ver.
Vamos a ver si lo tenemos.
Vamos a ver si lo tenemos.
La app Store.
ChatGPT.
No me aparece ninguna actualización en iOS.
Y no me aparece si tenemos el modelo aquí, pero...
A ver.
Hola.
¿Me oyes?
¿Me oyes?
No.
No está funcionando la versión en tiempo real, creo.
A ver.
Un momento, porque creo que tenemos activado el Bluetooth.
Hola, sí, te oigo perfecto.
Vale.
¿En qué puedo ayudarte hoy?
¿Quién eres?
No.
Esta es la versión antigua.
Soy ChatGP, un modelo de lenguaje desarrollado por OpenEye.
Estoy aquí para...
No, no, no.
Esta es la versión antigua.
Bueno, sí, el icono de auriculares, chicos, ya lo sé.
O sea, he probado la aplicación muchas veces y sé cuál es el icono, pero no está disponible todavía.
Van a hacer el rollout poco a poco.
O sea, iremos teniéndolo todos disponibles, así que llegará.
No os preocupéis.
Desde que lo tenga disponible, yo ahora le mando un mensaje directo a Samalman, que nos hablamos de cuando en cuando.
Y ya está.
Y con eso, pues ya cuando lo tenga, pues haremos la demo en directo y listo.
Este es el futuro que nos prometieron, que sinceramente hace cuatro años nadie hubiera pensado que la IA fuera a estar en este punto aquí.
Y sin embargo, lo tenemos.
Mañana más con el evento de Google.
A ver qué pasa.
Vale, a ver qué tenemos.
A la misma hora, a las 7 de la tarde, evento de Google, cubriéndolo aquí el Google IOW, con seguramente novedades también muy, muy interesantes.
Aunque como hemos dicho antes, con el listón bastante arriba.
Porque es que OpenAI, recordemos, modelo de habla sin latencia más inteligente, más barato en la API y gratis para los usuarios que no pagan.
Increíble.
Increíble.
Chicos, chicas, muchas gracias por estar aquí en directo.
Compartidlo si os ha gustado y nos vemos mañana con más inteligencia artificial aquí en .csv.
Dejad like, que eso siempre ayuda para que el vídeo se comparta.
Madre mía, qué futuro vivimos.
Adiós.
Madre mía.
Gració.
Madre mía.
Madre mía.
Madre mía.
Adiós.
Madre mía.
Nadre mía.
Madre mía.
Madre mía.
Madre.
Madre mía.
Madre mía.
Madre mía.
Madre mía.
Madre mía.
Madre mía.
Madre mía.
Madre mía.
Madre mía.
Madre mía.
Madre mía.
Madre mía.
Candre.
Madre mía.
Madre mía.
Madre mía.
Madre mía.
Madre mía.
Madre mía.
Madre mía.
Madre mía.