logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

¡Hola chicos y chicas! ¿Qué tal estáis?
¿Estáis escuchando música de fondo?
Tenemos ya la previa preparada del evento de Google.
Con este señor que ha salido me ha hecho bastante gracia
porque lo primero que ha dicho es, cuando ha abierto el ordenador,
Siri, ábreme google.com.
Evidentemente era una broma, pero me ha hecho bastante gracia.
Y ahora está haciendo lo de siempre, la previa con música improvisada,
con tecnología de Google.
Un espectáculo en vivo a este tipo creo que le he visto alguna vez por YouTube.
Se dedica a ello y la verdad que es bastante guay el show,
pero el show nuestro va por otro lado.
Voy a bajar el volumen para que no nos esté molestando de fondo.
Vamos a dejar esto aquí atendiendo.
Vamos a dejar a nuestro amigo fluyendo con la música.
Mientras nosotros nos preparamos un poco para lo de hoy, el Google I.O.
Confirmadme, se escucha, se ve bien, está todo correcto,
estáis con ganas, preparados.
Estamos de resaca, estamos de resaca, madre mía,
porque no sé si os enterasteis de que ayer OpenAI sacó una cosa,
GPT-4O.
No sé si os habéis enterado, un rollo así como una especie de asistente de voz,
pero no, no.
Bueno, ya tenéis el vídeo de ayer, el director reaccionando a todo,
analizándolo todo.
Hoy es el día de Google, ¿vale?
Vamos a contextualizar un poco lo que vamos a ver,
lo que ha pasado y lo que podríamos ver.
Y luego veremos todo lo que nos quieran presentar y luego analizaremos a posteriori.
¿Qué ha pasado?
Bueno, sabemos que Google lleva un par de años que se le está haciendo un poco duro.
Para mí se le está haciendo un poco duro.
¿Por qué?
Porque Google era una empresa grande, consolidada, con su misión,
metido en el mundo de la IA hasta un punto, bueno, funcional,
le servía para hacer mucho marketing,
le servía para tener a DeepMind ahí haciendo proyectos interesantes,
pero nada que comprometiera a su modelo de negocio.
Pensemos Google, su modelo de negocio,
buscador principalmente, publicidad,
YouTube,
bueno, un montón de ecosistemas que tiene ahí Google.
Google, esas son sus fuentes de negocio.
De repente llega OpenAI, estalla la IA generativa,
estalla ChatGPT, bueno, también Google Cloud,
también está ahí dentro de toda esta fuente de ingresos.
Todo esto, de repente llega OpenAI y estalla, ¿no?
Estalla ChatGPT, la revolución de GPT-4,
toda la IA generativa empieza a cobrar mucho sentido
y esto empieza a comprometer en cierta forma la posición de Google, ¿no?
Vemos a Sam Altman con Satya Nadella de la manita
diciendo que con Microsoft quieren sacar a bailar a Google,
quieren moverlo un poco de la silla
y entonces Google tiene que reaccionar.
Entre las reacciones que hemos visto,
hemos visto, pues, Google sacando BART,
¿recordáis BART?
El sistema de inteligencia artificial que originalmente venía a competir
contra ChatGPT, ya no existe, ha muerto,
RESTING PEACE.
Hemos visto, por ejemplo, situaciones donde, pues,
te sacan un generador de imágenes,
si hay un tema ahí de diversidad con imágenes que son,
bueno, te salen imágenes históricas de raza negra o, bueno,
ya todos nos hemos enterado de todas estas polémicas.
Hemos visto, pues, modelos que no terminan de funcionar
como uno esperaría.
Hemos visto demos de modelos que parece que funcionan
exageradamente bien y que luego nos enteramos que a lo mejor
no era para tanto.
Todo eso, todo eso ha pasado.
Pero creo que podemos decir, también en honor a la verdad,
con Google, que están llegando, ¿vale?
Están llegando.
De hecho, yo creo que estamos en un punto muy interesante
a falta de que OpenAI nos muestre en qué han estado trabajando
más allá de lo que vimos ayer, del nuevo modelo,
que no deja de ser un modelo más dentro de la familia GPT-4,
por muy espectacular que sea, es un modelo que mejora,
pero no es un GPT-5, pues, a falta de que OpenAI muestre lo nuevo,
sí podríamos decir que Google, al igual que ha pasado con Antropic
y está pasando con otras empresas, está llegando, ¿no?
Ya tenemos un modelo que ni siquiera tenemos que decir que sea peor
que GPT-4.
En términos generales lo es.
Si nos vamos al LLM Arena o vemos ciertos benchmarks, sí lo es.
Pero en otros aspectos ya empieza a traer cosas nuevas y esto me parece
bastante interesante.
Por ejemplo, Gemini, sabemos que salió la versión 1.0,
esta fue la que salió en diciembre y vimos que sacaron las tres versiones,
¿no?
La Nano, la Pro y la Ultra.
Esa fue el famoso modelo que luego nos trajo esa demo que parecía que sí,
pero luego no, que se le criticó mucho a Google por esa demo.
Yo hice un vídeo criticando a Google por esa demo,
pero es importante porque aquí como que nos gusta irnos a los extremos en ambos casos.
Que esa demo no fuera tan buena como lo que presentaban no significa que el modelo sea tan malo, ¿vale?
Esto es importante entenderlo porque mucha gente se piensa que Gemini pues es un modelo que no funciona
o que es un fail y el problema no era ese.
El problema es que lo estaban vendiendo como un supermodelo cuando era un modelo competente y bueno, ¿vale?
Entonces, eso fue Gemini 1.0.
Sacaron la versión, creo, la Pro o la Ultra a principios de enero
y a la semana siguiente ya estaban anunciando la siguiente versión, Gemini 1.5,
de la cual seguramente hoy escuchemos nuevas cosas.
¿Qué pueden presentar hoy en el evento de Google?
Seguramente lo que vamos a ver es sea un modelo más competente que Gemini Pro 1.5, ¿vale?
Lo tengo por aquí abierto.
Si recordáis, a ver, a ver, aquí.
Tenemos tres versiones de Gemini, está la Ultra, la Pro y la Nano
y aquí viene bastante bien explicado porque tanto de la Ultra como de la Nano tenemos la versión 1.0
y de la única que hemos visto algo competente es de la Pro, ¿no?
El Gemini 1.5.
¿Hasta qué punto es competente este modelo?
Pues este modelo es un modelo nivel GPT-4.
De hecho, si lo habéis probado, lo tenéis disponible en el Advance,
lo tenéis disponible a través de Vertex.
Lo estaba viendo antes con la nueva gráfica de ELO calculada en el LLM Arena.
Vemos que, dejando de lado el modelo de ayer, el GPT-4-O,
que sí salta bastante y se desliga del grupo de los modelos grandes,
el resto de modelos, GPT-4 Turbo, GPT-4 la versión de noviembre,
Gemini 1.5 sería el primer modelo comercial que viene después de GPT-4, ¿no?
Muy a la par de GPT-4.
Fijaos que la puntuación de ELO es casi casi la misma.
Luego viene Cloud 3 Opus, luego tenemos GPT-4 de nuevo
y luego ya sí bajamos al siguiente escalón donde está Yama 3.70B.
Impresionante también que está ahí y todo lo demás.
Esto puede ser también, y esto se le criticó al LLM Arena,
en la parte en la que, por ejemplo, Gemini pues tiene conexión a Internet.
Si tienes conexión a Internet y puedes hacer ciertas búsquedas,
eso hace que tu puntuación en el LLM Arena se pueda mejorar
porque si tú le preguntas datos factuales, a lo mejor los puedes buscar, ¿no?
Pero ahí hay un debate de qué queremos exactamente evaluar con el LLM Arena,
qué queremos evaluar, si es la inteligencia de un modelo,
la capacidad de retener facts en sus parámetros,
o si puede hacer uso de herramientas e ir y buscar información externa.
Anyway, lo que quiero decir con esto es que Gemini 1.5 Pro,
el modelo intermedio, es bastante competente.
Es un modelo al nivel de GPT-4 y además tiene cositas,
que esto sí es lo que me mola y es lo que quizás le pediría
al evento de Google de hoy, y es que de alguna forma
se desliguen de lo que OpenAI está haciendo.
Por ejemplo, Gemini 1.5, tenéis el vídeo en el canal de cuando salió,
que eso lo presenté.
¿Me estoy perdiendo la presentación? No, no me asustéis.
Está este hombre aquí, está todavía el loco, el DJ.
No pasa nada.
Bueno, lo podemos dejar de fondo, solo si me prestáis atención.
Gemini 1.5 Pro, ¿qué tiene de interesante?
Por ejemplo, el millón de tokens de ventana de contexto.
Millón de tokens de ventana de contexto.
A día de hoy creo que GPT-4O, el modelo de ayer, tiene 128.000 de tokens.
Cloud de Antropic, no sé si estaba en los 200.000 o 300.000.
Google llega hasta el millón.
Eso es súper interesante.
Eso es algo que los otros competidores todavía no tienen.
Eso es lo que me gusta.
Quiero ver a Google saliéndose por la tangente con ciertas cosas
para al menos generar un poco una diferenciación, ¿no?
Dentro de un mercado que cada vez está más saturado de competidores y de modelos,
está guay que haya competencia en estas líneas.
Entonces, ¿qué creo que vamos a ver hoy?
Seguramente veamos el anuncio de un Gemini 1.5 Ultra,
que va a ser un modelo más inteligente.
¿Cuánto más inteligente?
¿Cuán más inteligente?
No lo sé.
No lo sé.
Pero ojalá sorprendan.
Ojalá sorprendan.
Podríamos ver algo en esta línea.
Seguramente también nos hablen de Gemini 1.5 Nano,
la versión pequeñita.
Y como versión pequeñita que es,
seguramente sea la que vaya a dispositivos móviles,
como el Google Pixel y seguramente esté relacionado con el anuncio.
Ay, Dios mío, que va a lanzar el cañón de confeti.
Vamos a ver.
Quiero escuchar esto un momento.
Madre mía.
Así falleció la mujer de Ned Flanders.
Así que que tengan cuidado.
Madre mía.
Ojalá estuvieran lanzando píxeles a la cara de la gente.
Madre mía.
Bueno, este se acaba de matar solo por ir a coger esta chica.
Y al final no ha cogido nada.
Bueno, seguramente salga el modelo Nano.
Seguramente este sea el modelo que venga a traernos un poco el tema de los asistentes.
Que si lo pensamos un poco es lo que ayer OpenAI vino a eclipsar.
O sea, aquí pensemos que al final OpenAI,
el evento de ayer evidentemente venía a contraprogramar lo de Google de hoy.
¿Qué pasa?
Esto es una cosa que a mí me ha pasado.
Cuando yo hablo con gente que me cuenta cosas de lo que estas empresas podrían sacar y tal,
que a veces en conversaciones me cuentan,
sucede que con OpenAI a lo mejor me entero de lo que pueden sacar,
yo qué sé, horas antes o días antes,
porque van a organizar un evento y ya está.
Con Google me entero semanas antes, varias.
¿Por qué?
Porque Google no deja de ser una empresa muy grande
y tiene todo muy, pues, procesos muy restringidos
y se sabe que las cosas van a ser de una forma
y se sabe que se va a anunciar qué día.
Entonces eso permite que OpenAI pueda contraprogramar ciertas cosas.
Seguramente OpenAI sabía que esta gente iba a sacar algo del asistente de voz
y han querido adelantarse para presentar ellos el suyo.
De hecho ayer ya Google nos enseñó esta demo de aquí,
que hoy seguramente veremos más.
Vamos a verla.
Que es un ejemplo justamente de esto, ¿no?
Del asistente de ellos.
Hey, what do you think is happening here?
It looks like people are setting up for a large event.
Perhaps a conference or presentation.
Is there something in particular that caught your eye?
Yeah, those big pretty letters on screen.
What do those mean?
Those letters represent Google I.O.
A developer conference held by Google.
Have you ever attended Google I.O.?
No, this is my first one.
What's something that you would be really excited to hear?
I am always excited to learn about new advancements in artificial intelligence
and how they can help people in their daily lives.
What about you?
Yeah, same here.
Thanks, Gemini.
¿No se escucha?
¿Se escucha?
¿No se escucha?
¿Está bajito?
Os lo subo un poco más.
Bueno, básicamente es una demo parecida en parte a lo de ayer.
Y digo parecida porque no es lo de ayer.
¿Vale?
No es lo de ayer.
Nada, os pongo la demo de nuevo.
Me estáis diciendo que no se ha escuchado.
Os lo subo un poco.
Es que tenemos el volumen bajo para evitar al señor este.
Vamos a ver de nuevo.
Hey, ¿qué crees que está pasando aquí?
¿Mejor?
Parece que la gente se establece para un gran evento.
Quizás una conferencia o una presentación.
¿Hay algo en particular que ha caído a tu ojo?
Sí, esas grandes letras en la pantalla.
¿Qué significan?
Esas letras representan a Google I.O., una conferencia de desarrolladores
que se ha hecho por Google.
¿Has ever attended a Google I.O.?
No, esta es mi primera.
¿Qué es algo que estarías muy emocionado de escuchar?
Estoy siempre emocionada de aprender
sobre nuevos avances en la inteligencia artificial
y cómo pueden ayudar a la gente en sus vidas diarias.
¿Qué es lo que te?
Sí, estoy aquí.
Vale, y de hecho aquí abajo,
acabo de fijarme que ha aparecido, no lo estáis viendo,
está por aquí abajo.
A ver si os lo puedo enseñar un poquito.
Prototype shown, ¿vale?
Como prototipo.
De esta historia.
Entonces, bueno.
¿Qué pasa?
Esto está muy bien.
Si nos lo hubiera enseñado hoy, hubiera sido como,
tío, qué guay.
Pero es que ayer OpenAI vino a robarle el show a Google, ¿no?
Entonces, vamos a ver si tienen algo más avanzado.
Si es esto o si esto es quizás más impresionante de lo que parece.
Pero bueno, ¿qué vemos como diferencia?
Pues primero, la latencia tarda un poco más.
Que no es tan tan molesto, pero ya cuando pruebas lo otro,
seguramente cuando nos acostumbremos a probar lo otro,
esto no va a parecer lento.
Vamos a tener esa sensación de que falta una respuesta más rápida, por una parte.
Y luego no sé si la voz viene sintetizada aparte.
No tiene pinta de ser un modelo audio to audio,
sino que tiene pinta de ser una lectura de texto
donde no hay tanta expresividad como el modelo de ayer.
Entonces, yo no creo que pueda hacer cosas como lo de
háblame de esta forma o cambia la voz a una voz robótica.
Creo que eso no va a ir por ahí.
¿Por qué puede venir esta diferencia?
Puede que la diferencia venga porque a lo mejor esto sea un modelo
que venga embebido dentro del dispositivo móvil.
Y eso lo vuelve muy interesante.
Pensad que si esto es un modelo que se ejecuta en el móvil Edge AI,
no vas a tener que tener una conexión a lo mejor a internet
para poder ejecutarlo.
Y eso ya es más interesante.
Eso ya hace el asistente algo mucho más útil que lo de OpenAI
en ciertos contextos.
De nuevo, es lo que digo.
Diferenciación puede ser una forma muy chula para Google
de poder desmarcarse de OpenAI intentando eclipsarle.
Entonces, esto podría ser algo interesante.
¿Qué más podríamos ver?
Hemos hablado Gemini 1.5 Ultra.
Podría ser una opción.
Y tengo mucha curiosidad de si lo presentan,
qué tan mejor puede ser.
Esto es igual que el Yama 400B.
No sabemos qué tan mejor va a ser que GPT-4.
Seguramente les han fastidiado todos los benchmarks
porque tendrían preparadas las tablas con la comparación de GPT-4 Turbo
y ayer les sacan un nuevo modelo que mejora.
Con lo cual, si de repente el Ultra está entre el GPT-4O y el GPT-4,
pues desmerece bastante.
Entonces, eso va a ser interesante.
Seguramente veamos, y me hace mucha ilusión,
si pasa a Demis Hasabis en el escenario,
al CEO de DeepMind.
La persona que sinceramente creo que puede capitanear un poco la crisis que ha pasado Google
y que de hecho lo está haciendo y espero que tenga más protagonismo
porque me parece una persona que sabe muy bien llevar a la IA donde toca.
Seguramente nos hablen de avances súper interesantes que ha tenido Google DeepMind
en el área de la ciencia, sobre todo en el área de la salud.
AlphaFold 3 harán mención, evidentemente.
Salió también un trabajo reciente de Google multimodal aplicado a medicina.
Seguramente también lo mencionen.
Hablarán del proyecto Genome, que es el de generación de nuevos materiales.
Todo esto pasarán por encima como un ejemplo de uso de valor de la IA.
Y espero que hablen de la siguiente versión del modelo.
Aunque sea algo que venga luego en noviembre o en diciembre,
pero como pasó el año pasado que anunciaron Gemini,
me encantaría ver algo de lo que para ellos sería un modelo Next Gen.
Quiero que ya se empiece a hablar de los modelos Next Gen
pensando que este modelo debería ser un modelo que no compita con GPT-4
sino que compita con un futuro GPT-5.
Ojo, cuidado, porque Google tiene músculo.
O sea, aquí no nos olvidemos que el problema de Google no es un problema de músculo
sino es un problema de viraje, de que es una empresa muy pesada
y eso hace que no tenga la agilidad suficiente para adaptarse al ritmo de esta competición.
Pero si ellos tienen que entrenar un modelo grande,
si tienen que gastar computación, tienen computación de sobra.
Entonces, en ese sentido, Google está.
Entonces, un modelo de siguiente generación, un Gemini 2.0,
podría ser interesante si traen lo que ya intenté predecir en el vídeo de septiembre
sobre el futuro de la IA aquí en el canal,
que yo dije que para mí, Gemini,
y esto se lo hemos escuchado de mis hasabis en un montón de entrevistas,
lo que tiene que empezar a incluir son no solo el modelo de lenguaje
que adquiera todo este conocimiento, sino que también agregue una capa de razonamiento.
No sé por qué he marcado esta Z como si fuera peninsular.
De razonamiento, tipo el Q estrella que se vaticina,
que puede tener GPT-5, o típico algoritmo de Monte Carlo Tree Search,
que es lo que sistemas como AlphaGo tienen y vienen utilizando desde hace un montón de tiempo.
Es decir, un sistema que controle al modelo del lenguaje o al modelo multimodal
a la hora de razonar y planificar a largo plazo.
Yo he ido colocando varios vídeos en el canal que apuntan a esta dirección.
Sé que Demi Hasabis ha hablado de esto.
Todavía no hemos visto un ejemplo de una IA haciendo esto.
Sabemos que OpenAI lo va a sacar en algún tiempo.
Y hoy puede ser una buena oportunidad para que adelanten algo
y nos hablen también del tema de agentes autónomos.
Todo esto podría pasar hoy.
Entonces, puede que sea bastante interesante lo que nos vengan a presentar.
Puede que OpenAI haya eclipsado parte del show.
Pero I want to believe.
Yo, Google, tenemos esta relación en la que siempre al final acabo llegando
con la emoción del momento y luego pasa lo que pasa.
Vamos a tomarnos todo con un poquito de sal, como se dice,
en el sentido de ya nos ha pasado con demos anteriores que nos emocionan,
nos emocionan y luego llega y las capacidades no son las que son.
Vamos a creernos todo hasta cierto punto.
Y poco más.
Queda un minuto para que empiece.
Queda un minuto para que empiece.
Muchas gracias por esta donación, Agustín Cantilón.
Muchas gracias a todos por el apoyo que estamos teniendo en estos directos.
Decidme si se escucha bien.
Si se escucha mi voz, pero se escucha bien el directo.
Os pongo esto en pantalla completa.
Vale.
Así.
Uy.
Lo tenemos.
Yo creo que esto debería estar cómodo.
Me encanta ponerme a hacer esto ahora.
Vale, lo tenemos, lo tenemos.
Vamos a ponerlo así.
All right.
Google's ambitions and artificial intelligence.
Google launches Gemini.
AI is rolling out to work.
And it's completely changing the way we work.
You know, a lot has happened in a year.
Okay.
There have been new beginnings.
We found new ways to find new ideas.
And new solutions to age old problems.
Sorry about your shirt.
We dreamt of things.
Never too old for a treehouse.
We trained for things.
All right, let's go, go, go.
And learned about this thing.
We found new cats.
¿Se oye bien?
Vale.
And made the big leap.
Cannonball.
We feel days like they were weeks.
And more happened in months.
Then it's happened in years.
Three eggs.
Alpha code.
Gemini.
Like, way bigger.
And it wasn't all just for him or for her.
It was for everyone.
And you know what?
We're just getting started.
Okay.
Okay.
Desde Silicon Valley.
Desde California.
San Francisco.
Ahí estuve yo hace un mes.
Y ahí volveré en septiembre.
Tenemos a Sundar.
Sundar Pichai.
Subido al escenario para un nuevo Google.
Hi, everyone.
Good morning.
Welcome to Google I.O.
It's great to have all of you with us.
We have a few thousand developers with us here today at Shoreline.
Millions more are joining virtually around the world.
Thanks to everyone for being here.
For those of you who haven't seen I.O. before,
it's basically Google's version of the era store.
But with fewer costume changes.
At Google, though, we are fully in our Gemini era.
You'll hear a lot about that today.
Before we get into it, I want to reflect on this moment we are in.
We've been investing in AI for more than a decade.
And innovating at every layer of the stack.
Research, product, infrastructure.
We're going to talk about it all today.
Still, we are in the very early days of the AI platform shift.
We see so much opportunity ahead.
For creators, for developers, for startups, for everyone.
Helping to drive those opportunities is what our Gemini era is all about.
So let's get started.
La era Gemini.
A year ago on this stage, we first shared our plans for Gemini.
A frontier model built to be natively multimodal from the very beginning.
That could reason across text, images, video, code, and more.
It's a big step in turning any input into any output.
An I.O. for a new generation.
Since then, we introduced the first Gemini models, our most capable AI.
They demonstrated state-of-the-art performance on every multimodal benchmark.
And that was just the beginning.
Two months later, we introduced Gemini 1.5 Pro, delivering a big breakthrough in long context.
It can run 1 million tokens in production consistently, more than any other large-scale foundation model yet.
Lo que hemos hablado hasta ahora, ¿no?
We want everyone to benefit from what Gemini can do.
So we have worked quickly to share these advances with all of you.
Today, more than 1.5 million developers use Gemini models across our tools.
You're using it to debug code, get new insights, and build the next generation of AI applications.
We've also been bringing Gemini's breakthrough capabilities across our products in powerful ways.
We'll show examples today across Search, Photos, Workspace, Android, and more.
Today, all of our 2 billion user products use Gemini.
And we've introduced new experiences, too, including on mobile, where people can interact with Gemini directly through the app.
Now available on Android and iOS, and through Gemini Advanced, which provides access to our most capable models.
Over 1 million people have signed up to try it in just three months, and it continues to show strong momentum.
One of the most exciting transformations with Gemini has been in Google Search.
In the past year, we've answered billions of queries as part of our search generative experience.
People are using it to search in entirely new ways and asking new types of questions, longer and more complex queries,
even searching with photos, and getting back the best the web has to offer.
We've been testing this experience outside of labs, and we are encouraged to see not only an increase in search usage,
but also an increase in user satisfaction.
I'm excited to announce that we will begin launching this fully revamped experience, AI Overviews,
to everyone in the U.S. this week, and we'll bring it to more countries soon.
No me saquéis cosas solo para Estados Unidos, tío.
Nada, el buscador con la IA generativa.
Este es el gran problema de Google.
There's so much innovation happening in search.
Thanks to Gemini, we can create much more powerful search experiences, including within our products.
Let me show you an example in Google Photos.
We launched Google Photos almost nine years ago.
Since then, people have used it to organize their most important memories.
Today, that amounts to more than 6 billion photos and videos uploaded every single day.
And people love using Photos to search across their life.
With Gemini, you're making that a whole lot easier.
Say you're at a parking station ready to pay, but you can't recall your license plate number.
Before, you could search Photos for keywords, and then scroll through years' worth of Photos, looking for the right one.
Now, you can simply ask Photos.
It knows the cars that appear often.
It triangulates which one is yours, and just tells you the license plate number.
Busque da multimodal también.
Hacerle preguntas y que te busque a vivo en el público que no le ha gustado.
No le ha gustado.
For example, you might be reminiscing about your daughter Lucia's early milestones.
You can ask Photos, when did Lucia learn to swim?
You can even follow up with something more complex.
Show me how Lucia's swimming has progressed.
Here, Gemini goes beyond a simple search, recognizing different contexts, from doing laps in the pool, to snorkeling in the ocean,
to the text and dates on her swimming certificates, and Photos packages it up all together in a summary.
You can really take it all in and relive amazing memories all over again.
We are rolling out as Photos this summer, with more capabilities to come.
De nuevo, servicios, integración de Gemini en servicios, aprovechando de que pueden tener fotos.
Unlocking knowledge across formats is why we build Gemini to be multimodal from the ground up.
It's one model with all the modalities built in.
So not only does it understand each type of input, it finds connections between them.
Multimodality radically expands the questions we can ask and the answers we will get back.
Long context takes this a step further, enabling us to bring in even more information, hundreds of pages of text, hours of audio, a full hour of video, or entire code repos, or if you want, roughly 96 Cheesecake Factory menus.
For that many menus, you need a 1 million token context window, now possible with Gemini 1.5 Pro.
Developers have been using it in super interesting ways. Let's take a look.
La ventana de contexto, ¿no? Que permite meter videos, imágenes, todo tokenizado, y permitir que la IA lo analice.
Esto es una ventaja competitiva que tiene Gemini frente a GPT-4 y la multimodalidad de video también.
The announcement, the 1 million token context window, and my first reaction was, there's no way they were able to achieve this.
I wanted to test its technical skills. So I uploaded a line chart. It was temperatures between like Tokyo and Berlin and how they vary across the 12 months of the year.
So I got in there and I threw in the Python library that I was really struggling with. And I just asked it a simple question.
And it nailed it. It could find specific references to comments in the code and specific requests that people had made and other issues that people had had,
but then suggest a fix for it that related to what I was working on.
I immediately tried to kind of crash it. So I took, you know, four or five research papers I had on my desktop.
And it's a mind-blowing experience when you add so much text and then you see the kind of amount of tokens you add is not even at half the capacity.
It felt a little bit like Christmas because you saw things kind of peppered up to the top of your feed about like,
Oh, wow, I built this thing. Or, oh, it's doing this and I would have never expected.
Can I shoot a video of my possessions and turn that into a searchable database?
So I ran to my bookshelf and I shot a video just panning my camera along the bookshelf and I fed the video into the model.
It's like putting it in a video.
It gave me the titles and authors of the books, even though the authors weren't visible on those bookspines.
And on the bookshelf there was a squirrel nutcracker sat in front of the book, truncating the title.
You could just see the word sightsee and it still guessed the correct book.
The range of things you can do with that is almost unlimited.
And so at that point for me it was just like a click, like this is it.
I thought like I had like a super part in my hands.
It was poetry. It was beautiful. I was so happy.
It just this this is going to be amazing. This is this is going to help people.
This is kind of where the future of language models are going personalized to you not because you trained it to be personal to you,
but personal to you because you can give it such a fast understanding of who you are.
Está guay.
Lo del video en la estantería mola, lo que hay que revisar ahí que no alucine detalles,
porque todavía estas ideas alucinan muchas cosas.
We've been rolling out Gemini 1.5 Pro with long context in preview over the last few months.
We've made a series of quality improvements across translation, coding and reasoning.
You'll see these updates reflected in the model starting today.
I'm excited to announce that we are bringing this improved version of Gemini 1.5 Pro to all developers globally.
Muy bien.
Vale. Disponible para todos. Yo en principio ya lo tenía ahí. No sé exactamente quién faltaba.
In addition today, Gemini 1.5 Pro with 1 million context is now directly available for consumers in Gemini Advanced and can be used across 35 languages.
Esto mola.
1 million tokens is opening up entirely new possibilities.
Si pagáis el advance, un millón de tokens.
It's exciting, but I think we can push ourselves even further.
So today, we are expanding the context window to 2 million tokens.
Let's go. Let's go. Let's go. Let's go. Tokens for all.
Hostia, esto tela, ¿eh?
We are making it available for developers in private preview.
It's amazing to look back and see just how much progress we have made in a few months.
Madre mía.
This represents the next step on our journey towards the ultimate goal of infinite context.
Se ha curvado para atrás.
Okay. So far, we have talked about two technical advances, multimodality and long context.
Each is powerful on its own, but together, they unlock deeper capabilities and more intelligence.
Muy bien. Están tocando el punto fuerte de Gemini.
People are always searching their emails in Gmail.
We are working to make it much more powerful with Gemini.
Let's look at how.
As a parent, you want to know everything that's going on with your child's school.
Okay. Maybe not everything.
But you want to stay informed.
Gemini can help you keep up.
Now we can ask Gemini to summarize all recent emails from the school.
Esas risas tienen que ser enlatadas, tío.
It's identifying relevant emails, even analyzing attachments like PDFs.
And you get a summary of the key points and action items.
So helpful.
Maybe you were traveling this week and you couldn't make the PTA meeting.
The recording of the meeting is an hour long.
If it's from Google Meet, you can ask Gemini to give you the highlights.
Esto en principio yo no sé si estaba habilitado o no, porque cada vez que entro a Google Meet, aparece el botón.
Pero no ha encontrado la opción. A lo mejor en Europa no está.
Y no se puede enviar la opción.
Y no se puede enviar la respuesta.
There are countless other examples of how this can make life easier.
Gemini 1.5 Pro is available today in Workspace Labs.
y Aparna will share more later on.
Vale.
Otro punto fuerte de Google es la integración con todos los servicios que tienen.
Ahí OpenAI también va a entrar.
Pero con un multimodal modelo podemos hacer mucho más.
Para mostrarles una demora rápida de una output audio en Notebook LM,
aquí es Josh.
Hey, everyone.
Last year at I.O., we introduced Notebook LM,
a research and writing tool grounded in the information you give it.
Since then, we've seen a lot of momentum
with students and teachers using it.
And today, Gemini 1.5 Pro is coming to Notebook LM, and it's great.
Let me show you.
So here we are in Notebook LM.
And for them, you can load it up with all the materials here on the left.
In this Notebook, I've been using it with my younger son,
and I've added some of his science worksheets,
a few slide decks from his teacher,
and even an open source textbook full of charts and diagrams.
With 1.5 Pro, it instantly creates this Notebook Guide
with a helpful summary and can generate a study guide,
an FAQ, or even quizzes.
But for my son, Jimmy,
he really learns best when he can listen to something.
So we've prototyped a new feature with Gemini,
and it's called Audio Overviews.
Notebook LM is going to take all the materials on the left as input
and output them into a lively science discussion personalized for him.
Let's take a listen.
So let's dive into physics.
What's on deck for today?
Okay.
Well, we're starting with the basics.
Force and motion.
Okay.
And that, of course, means we have to talk about Sir Isaac Newton
and his three laws of motion.
Ah, yes.
It's the foundation for understanding how objects move and interact.
Ah, yes.
This is where multimodal really shines.
Leida, aquí abajo, eh?
Now, I generated this audio discussion based on that text material.
And what's amazing is that my son and I can join him in the conversation
and steer it whichever direction we want.
When I tap, join.
Hold on, we have a question.
What's up, Josh?
Yeah.
Can you give my son, Jimmy, a basketball example?
Hey, Jimmy.
That's a fantastic idea.
Basketball is actually a great way to visualize force and motion.
Let's break it down.
Okay.
So first, imagine a basketball just sitting there on the court.
It's not moving, right?
That's because all the forces acting on it are balanced.
The downward pull of gravity...
Pretty cool, right?
I got to say, the first time my son heard this, he should have seen how big his eyes got.
Because he was gripped.
They were talking to him.
He was learning science through the example of basketball, his favorite sport.
Now, what's interesting is under the hood, you saw that Jim and I had used some of the
concepts of gravity, Sir Isaac Newton, but nothing in there was about basketball.
It connected the dots and created that age-appropriate example for him.
And this is what's becoming possible with the power of Gemini.
You can give it lots of information in any format, and it can be transformed in a way that's
personalized and interactive for you.
Back to you, Sundar.
Vale.
Es como una aplicación de notas, donde puedes tener un montón de archivos, y la IA puede
ver todo eso y responder dudas.
Thanks, George.
Mola como herramienta.
La demo muestra la verdadera oportunidad con multimodalidad.
Hay que probarla.
Hay que probarla.
Esto es lo que significa cuando decimos que es un I.O.
para una nueva generación.
Y puedo ver todos ahí pensando en las posibilidades.
Pero ¿qué si pudiera ir aún más adelante?
Esa es una de las oportunidades que vemos con los agentes de la I.O.
Déjame un paso atrás y explicarme lo que quiero decir por eso.
Creo de ellos como sistemas inteligentes que muestran la razón, la planificación y la memoria,
y pueden pensar en varias pasos adelante, y trabajar a través de la software y sistemas,
todo para conseguir algo hecho en su behalf, y, más importante, bajo su supervisión.
Esto es una preview de lo que quieren hacer.
De nuevo, es una idea, es una prueba de concepto.
Pero mola que lo visualicemos, porque hay gente que no entiende a que nos referimos con esto de agentes autónomos.
Pero no está hecho.
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
¡Gracias!
T jumping our ears out, so you are always always in control.
This part is really important as we prototype these experiences.
We are thinking hard about how to do it in a way that's private, secure, and works for
everyone.
These are simple use cases, but they give you a good sense of the types of problems you
want to solve by building intelligent systems that think ahead, reason, and plan all
on your behalf.
El poder de Gemini, con multimodalidad, long contextos, y agentes,
nos lleva a nuestro objetivo de la última,
hacer AI útil para todos.
Nos vemos que esto es como hacer el mayor progreso contra nuestra mission.
Organizando el mundo de información a través de cada input,
hacerla accesible a través de cualquier output,
y combinar el mundo de información con la información en tu mundo
en una manera que es realmente útil para ti.
Para que se realicen los beneficios de la AI,
continuará a romper el nuevo grano.
Google DeepMind es difícil de trabajar.
Para compartir más,
por favor, bienvenida por la primera vez en el IOS Day,
Sir Dems.
Mi padre.
Tenemos el mismo peinado.
Uf, qué guay.
¡Qué ilusión!
Ah, llevo pidiendo esto desde hace un montón de IOS.
Demis Hassabis.
DeepMind.
Qué ilusión.
Madre mía, que le gusta decir que juega al ajedrez.
It's awesome.
un sistema de inteligencia, un sistema que tiene un sistema de cognitivo cognitivo.
Yo siempre creí que si pudimos construir esta tecnología responsable,
su impacto sería profundamente y puede beneficiar la humanidad en increíble ways.
Lamentablemente, hemos llegado a un camino en ese camino cuando formamos Google DeepMind,
combinando AI talento de la empresa a través de una superunidad.
Desde entonces, hemos construido AI sistemas que pueden hacer un montón de cosas,
de convertir la lengua y la visión en la acción para los robots,
navegando en los environments 3D complejos,
solucionando problemas de la matemática de Olympiad y incluso descubriendo miles de nuevos materiales.
Justo la semana pasada, anunciamos nuestro modelo de la próxima generación de AlphaFold.
Puede predicar la estructura y las interacciones de casi todas las moléculas de vida,
incluyendo cómo los proteínos interactúan con los strandes de DNA y RNA.
Esto va a acelerar la investigación biológica y médica vitalmente importante,
desde el entendimiento de la enfermedad a la descubrimiento de la medicina.
Superimportante, tío. AlphaFold 3.
Y todo esto fue hecho posible con la mejor infraestructura para la era de AI,
incluyendo nuestras unidades de procesamiento de tensión muy optimizadas.
At the center of our efforts is our Gemini model.
It's built up from the ground up to be natively multimodal
because that's how we interact with and understand the world around us.
We've built a variety of models for different use cases.
You've seen how powerful Gemini 1.5 Pro is,
but we also know from user feedback
that some applications need lower latency
and a lower cost to serve.
So today we're introducing Gemini 1.5 Flash.
Oh, vale.
Flash.
Estaba esperando el aplauso, ha hecho la pausita.
Vale, vale, vale.
El modelo rápido, turbo.
Flash is a lighter weight model compared to Pro.
It's designed to be fast and cost efficient to serve at scale
while still featuring multimodal reasoning capabilities
and breakthrough-long context.
Flash is optimized for tasks
where low latency and efficiency matter most.
Starting today, you can use 1.5 Flash and 1.5 Pro
with up to 1 million tokens in Google AI Studio and Vertex AI.
Super.
And developers can sign up to try 2 million tokens.
We're so excited to see what all of you will create with it.
And you'll hear a little more about Flash later on from Josh.
We're very excited by the progress we've made so far
with our family of Gemini models.
Módulo más rápido y comparable con el Pro.
Entonces, ¿para qué queremos el Pro?
At any one time, we have many different models in training
and we use our very large and powerful ones
to help teach and train our production ready models.
Together with user feedback,
this cutting edge research will help us to build amazing new products
for billions of people.
For example, in December,
we shared a glimpse into the future
of how people would interact with multimodal AI
and how this would end up powering
a new set of transformative experiences.
Today, we have some exciting new progress to share
about the future of AI assistants
that we're calling Project Astra.
For a long time, we've wanted to build a universal AI agent
that can be truly helpful in everyday life.
Our work making this vision a reality goes back many years.
It's why we made Gemini multimodal from the very beginning.
An agent like this has to understand
and respond to our complex and dynamic world
just like we do.
It would need to take in and remember what it sees
so it can understand context and take action.
And it would have to be proactive, teachable, and personal
so you can talk to it naturally without lag or delay.
While we've made some great strides in developing AI systems
that can understand multimodal information,
getting response time down to something conversational
is a difficult engineering challenge.
Building on our Gemini model,
we've developed agents that can process information faster
by continuously encoding video frames,
combining the video and speech input
into a timeline of events
and caching this for efficient recall.
We've also enhanced how they sound
with a wider range of intonations.
These agents better understand the context you're in
and can respond quickly in conversation.
making the pace and quality of interaction
feel much more natural.
Here's a video of our prototype,
which you'll see has two parts.
Each part was captured in a single take in real time.
Vale.
En tiempo real y de una toma.
Nos lo tenemos que creer, ¿vale?
Tell me when you see something that makes sound.
Es el GPT-4O de ellos.
I see a speaker which makes sound.
What is that part of the speaker called?
That is the tweeter.
It produces high frequency sounds.
Give me a creative alliteration about these.
Creative crayons color cheerfully.
They certainly craft colorful creations.
No está mal la latencia, ¿eh?
What does that part of the code do?
Qué guapo, tío.
This code defines encryption and decryption functions.
It seems to use AESCBC encryption to encode and decode data
based on a key and an initialization vector, IV.
Pero bueno.
That's right.
What neighborhood do you think I'm in?
This appears to be the King's Cross area of London.
King's Cross.
It is known for its railway station and transportation connections.
Do you remember where you saw my glasses?
Uh, esto está guapo.
Yes, I do.
Your glasses were on the desk near a red apple.
Esto es nuevo, chicos.
Vale, vale, vale, vale.
Esto mola.
Ha recordado.
Ojo.
Ay, no lo he dicho.
Las gafas.
Lo tengo apuntado.
Gafas.
Gafas.
Lo tengo apuntado.
Sí, sí.
Sí.
Vámonos.
Joder.
Bien, bien.
Son dos vídeos.
Los dos vídeos grabados en tiempo real.
Diferentes tomas, pero lo han dicho.
Muy bien.
Hay una cosa muy interesante.
La memoria, ¿eh?
Ha cacheado fotogramas anteriores para recordar que las gafas estaban ahí.
Ojo.
Muy bien.
Esto es prototipo.
Todavía no lo tenemos.
Muy bien.
Bien.
podemos probar una versión de demo live de esta experiencia en el área de la área de la A.I.Sandbox.
Ok, mola. Muy bien. Bien, sí.
Luego, vamos a ver cómo nuestras innovaciones están ayudando a la gente a traer nuevas ideas creativas a la vida.
Hoy, introducimos una serie de updates a través de nuestras herramientas generativas de medios,
con nuevos modelos que cubren imagen, música y video.
Durante el pasado año, hemos estado mejorando la calidad, mejorando la seguridad y aumentando el acceso.
Para ayudar a contar esta historia, aquí está.
Muy bien. Lo de la CAFAS me ha gustado, evidentemente. Es obvio que va a pasar.
Va a pasar con la Ray-Ban de Meta, va a pasar con muchos dispositivos. Eso va a ser obvio.
Pero me ha gustado más todavía lo de la memoria. Súper útil.
Nuevo modelo de generación. Imagen 3.
Hoy, estoy muy emocionado de introducir Imagen 3.
Ok, ahí está.
Es nuestro modelo más capaz de generar imagen.
Imagen 3 es más fotorealistic.
Puedes decirles a los huesos en su snout.
Con detalles ríos ríos, como esta increíble luz en la cámara,
y menos artefactos visuales o imágenes distorsionadas.
Oools donde están elaborados, Raúlgrados no se abrán de una marca,
los sítiosas, dentro ha optado de la imagen fry Y MS3 lo que escribirlos.
Y Comerción 4, te lo aberran.
Bien.
Quitos cassette, completando.
winsан 3, a partir de los equipamientos his Gary.
Muy bien.
Yopepe o menos, inventos diferentes이죠來了 y el imperativo todo.
Un ser famoso羅ano, más alto.
Ojo que hay vídeo al final, ¿eh?
Estamos explorando formas de trabajar con artistas para expandir su creatividad con A.I.
Together con YouTube, hemos estado construyendo Music AI Sandbox,
una suite de profesional Music AI tools que pueden crear nuevas secciones de instrumento de sección,
transferir styles entre tracks, y más.
Para ayudarnos a diseñar y testarlos, hemos estado trabajando con increíbles músicos,
músicos, y producciones.
Algunos de ellos han hecho incluso nuevas canciones, en maneras que no hubieran sido posible sin estas herramientas.
Eso luego lo comentamos.
Vamos a escuchar a algunos de los artistas que hemos estado trabajando con.
I'm going to put this right back into the Music AI tool, the same.
Boom, boom, boom, boom, boom.
What happens if Haiti meets Brazil?
Dude, I have no clue what's about to be spread out.
This is what excites me.
As a hip-hop producer, we dug in the crates.
We play in these vinyls, and the part where there's no vocal, we pull it, we sample it,
and we create an entire song around that.
So right now, we dig in an infinite crate.
It's endless.
Where I found the AI really useful for me is a way to, like, fill in the sparser sort of elements of my loops.
Okay, let's try bongos.
We're going to put viola.
We're going to put rhythmic clapping, and we're going to see what happens there.
Woo!
And it makes it sound, ironically, at the end of the day, a little more human.
So then this is entirely Google's loops right here.
These are gloops.
It's like having, like, this weird friend that's just like, try this, try that.
And then you're like, oh, okay, yeah, no, that's pretty dope.
Yeah, I'm grooving up, I said I'm grooving, I'm grooving up, I said go out.
The tools are capable of speeding up the process of what's in my head getting it out.
You're able to move light speed with your creativity.
This is amazing.
That right there?
Fijaos como no es generación musical sin artistas, sino es como, no, no, industria musical.
I think this really shows what's possible when we work with the artist community on the future of music.
You can find some brand new songs from these acclaimed artists and songwriters on their YouTube channels now.
Pero no está evolucionando por ahí la idea generativa de música.
A ver, video.
Vamos.
Vamos.
Today, I'm excited to announce our newest, most capable genitive video model, called VEO.
Veo, me gusta.
Vale, vale, vale.
VEO creates high quality 1080p videos from text, image, and video prompts.
1080.
It can capture the details of your instructions in different visual and cinematic styles.
You can prompt for things like aerial shots of a landscape or a time lapse.
And further edit your videos using additional prompts.
Muy bien.
You can use VEO in our new experimental tool called VideoFX.
We're exploring features like storyboarding and generating longer scenes.
VEO gives you unprecedented creative control.
Se ve bastante bien, ¿eh?
Bastante parecido a Sora, ¿eh?
Ojo.
VEO builds upon years of our pioneering genitive video model work.
Ojoito, ¿eh?
GQN, Benaki, Walt, Videopoet, Lumiere, and much more.
Bien, Google, bien.
We combine the best of these architectures and techniques to improve consistency, quality,
and output resolution.
Si dan acceso ahora.
To see what VEO can do.
Adelantan a OpenAI.
We put it in the hands of an amazing filmmaker.
Let's take a look.
Bien, bien.
Well, I've been interested in AI for a couple of years now.
We got in contact with some of the people at Google,
and they had been working on something of their own.
So we're all meeting here at Gilgal Farms to make a short film.
The core technology is Google DeepMind's generative video model
that has been trained to convert input text into output video.
It looks good.
We are able to bring ideas to life that were otherwise not possible.
We can visualize things on a timescale that's 10 or 100 times faster than before.
When you're shooting, you can't reiterate as much as you wish.
And so we've been hearing that feedback that it allows for like more optionality,
more iteration, more improvisation.
But that's what's cool about it.
It's like you can make a mistake faster.
That's all you really want at the end of the day.
At least in art, it's just to make mistakes fast.
So using Gemini's multimodal capabilities to optimize the model training process,
Vio is able to better capture the nuance from proms.
So this includes cinematic techniques and visual effects,
giving you total creative control.
Uf, como estará hecho.
Everyone's going to become a director and everybody should be a director.
Because at the heart of all of this, it's just storytelling.
The closer we are to being able to tell each other our stories,
the more we'll understand each other.
These models are really enabling us to be more creative
and to share that creativity with each other.
The next few weeks, some of these features will be available to select creators
through video effects at labs.google.
And the waitlist is open now.
Of course, this is a part of the genitive videos that go beyond the beautiful visuals you've seen today.
By teaching future AI models how to solve problems creatively
or in effect simulate the physics of our world,
we can build more useful systems that can help people communicate in new ways
and thereby advance the frontiers of AI.
When we first began this journey to build AI more than 15 years ago,
we knew that one day it would change everything.
Now that time is here.
And we continue to be amazed by the progress we see
and inspired by the advances still to come on the path to AGI.
Thanks, and back to you, Sundar.
Vale, cositas interesantes.
Un Sora de Google, que también lo tenía apuntado por aquí.
Thanks, Dennis.
Y lo de la CAFA y la gente.
Huge amount of innovation is happening at Google DeepMind.
Pero me ha faltado un poquito más.
Tepe us, benga.
Google was built for this.
For 25 years, we have invested in world-class technical infrastructure.
From the cutting-edge hardware that power search
to our custom tensor processing units that power our AI advances.
Este es el músculo que hablaba yo antes.
It was trained and served entirely on our fourth and fifth generation TPUs.
And other leading AI companies like Anthropic
have trained their models on TPUs as well.
Today we are excited to announce the sixth generation of TPUs
called Trillion.
La sexta generación de TPUs.
Estos son los procesadores dedicados a entrenamiento de AI de Google.
Trillion delivers a 4.7x improvement in compute performance per chip
over the previous generation.
It's our most efficient and performant TPU today.
We'll make Trillion available to our cloud customers in late 2024.
Alongside our TPUs, we are proud to offer CPUs and GPUs
to support any workload.
That includes the new Axion processes we announced last month,
our first custom ARM-based CPU with industry-leading performance
and energy efficiency.
We are also proud to be one of the first cloud providers
to offer NVIDIA's cutting-edge Blackwell GPUs
available in early 2025.
Vale.
También las Blackwells.
Al final, son proveedores de cloud.
Recordemos.
We are in partnership with NVIDIA, excited to bring Blackwell's capabilities
to our customers.
Chips are a foundational part of our integrated end-to-end system.
From performance-optimized hardware and open software
to flexible consumption models,
this all comes together in our AI hypercomputer,
a groundbreaking supercomputer architecture.
Businesses and developers are using it to tackle more complex challenges
with more than twice the efficiency relative to just buying the raw hardware and chips.
Our AI hypercomputer advancements are made possible in part because of our approach
to liquid cooling in our data centers.
We've been doing this for nearly a decade,
long before it became state-of-the-art for the industry.
And today, our total deployed fleet capacity for liquid cooling systems
is nearly one gigawatt and growing.
That's close to 70 times the capacity of any other fleet.
Well, very good.
Underlying this is the sheer scale of our network,
which connects our infrastructure global.
Our network spans more than 2 million miles of terrestrial and subsea fiber,
over 10 times the reach of the next leading cloud provider.
We'll keep making the investments necessary to advance AI innovation
and deliver state-of-the-art capabilities.
And one of our greatest areas of investment and innovation
is in our founding product, Search.
25 years ago, we created Search to help people make sense
of the waves of information moving online.
With each platform shift, we have delivered breakthroughs
to help answer your questions better.
On mobile, we unlock new types of questions and answers
using better context, location awareness, and real-time information.
With advances in natural language understanding and computer vision,
we enable new ways to Search with your voice
or a hum to find your new favorite song
or an image of that flower you saw on your walk.
Now you can even circle to Search
those cool new shoes you might want to buy.
Go for it.
You can always return them later.
Of course, Search in the Gemini era will take this to a whole new level.
Combining our infrastructure strengths,
the latest AI capabilities,
our high bar for information quality,
our decades of experience connecting you to the richness of the web,
the result is a product that does the work for you.
Google Search is generative AI
at the scale of human curiosity.
And it's our most exciting chapter of Search yet.
To tell you more, here's Liz.
Venga, van a dar el paso ya de meter la idea generativa en el buscador
bien metida.
Que viene OpenAI.
Nos faltó ver el buscador de OpenAI,
que lo van a sacar pronto.
A lo mejor esta semana.
Each of these platform shifts,
we haven't just adapted.
We've expanded what's possible with Google Search.
And now, with generative AI,
Search will do more for you than you ever imagined.
So whatever is on your mind,
whatever you need to get done,
just ask.
And Google will do the Googling for you.
All the advancements you'll see today
are made possible by a new Gemini model
customized for Google Search.
What really sets this apart
is our three unique strengths.
¿Vale otro modelo nuevo?
First, our real-time information
with over a trillion facts
about people, places, and things.
Second, our unparalleled ranking and quality systems
trusted for decades
to get you the very best of the web.
And third, the power of Gemini,
which unlocks new agent of capabilities,
write and search.
By bringing these three things all together,
we're able to dramatically expand
what's possible with Google Search.
Yet again.
This is search in the Gemini era.
So let's dig in.
You've heard today about AI overviews
and how helpful people are finding them.
With AI overviews,
Google does the work for you.
Instead of piecing together
all the information yourself,
you can ask your question.
And as you see here,
you can get an answer instantly,
complete with a range of perspectives
and links to dive deeper.
As Sundar shared,
AI overviews will begin rolling out
to everyone in the U.S.,
starting today,
with more countries soon.
And by the end of the year,
AI overviews will come
to over a billion people
in Google Search.
But this is just the first step.
We're making AI overviews
even more helpful
for your most complex questions.
The types that are really more like
10 questions in one.
You can ask your entire question
with all its sub-questions
and get an AI overview in seconds.
To make this possible,
we're introducing multi-step reasoning
in Google Search.
So Google can do the researching for you.
For example,
let's say you've been trying
to get into yoga and Pilates.
Finding the right studio
can take a lot of research.
There's so many factors
you need to consider.
Soon you'll be able
to ask search
to find the best yoga
or Pilates studios in Boston
and show you details
on their intro offers
and the walking time
from Beacon Hill.
Gracias, Daniel.
As you can see here,
Google gets to work for you,
finding the most relevant information
and bringing it together
into your AI overview.
You get some studios
with great ratings
and their introductory offers.
And you can see
the distance for each.
Like this one,
it's just a 10-minute walk away.
Right below,
you see where they're located.
laid out visually.
And you've got all this
from just a single search.
Under the hood,
our custom Gemini model
acts as your AI agent
using what we call
multi-step reasoning.
It breaks your bigger question
down into all its parts.
And it figures out
which problems
it needs to solve
and in what order.
And thanks to our
real-time info
and ranking expertise,
it reasons
using the highest quality
information out there.
So since you're asking
about places,
it taps into Google's
index of information
about the real world
with over 250 million places
and updated in real time,
including their ratings,
reviews,
business hours,
and more.
Research that might have
taken you minutes
or even hours,
Google can now do
on your behalf
in just seconds.
Next,
let me show you another way
multi-step reasoning
in Google Search
can make your life
that much easier.
Take planning,
for example.
Dreaming of trips
and meal plans
can be fun,
but doing the work
of actually figuring
it all out?
No thank you.
With Gemini in Search,
Google does the planning
with you.
Planning is really hard
for AI to get right.
It's the type of problem
that takes advanced
reasoning and logic.
After all,
if you're meal planning,
you probably don't want
mac and cheese
for breakfast,
lunch,
and dinner.
Okay,
my kids might,
but say you're looking
for a bit more variety.
Now you can ask Search
to create a three-day meal plan
for a group
that's easy to prepare.
And here you get a plan
with a wide range of recipes
from across the web.
This one for overnight oats
looks particularly interesting.
And you can easily head over
to the website
to learn how to prepare them.
If you want to get more veggies in,
you can simply ask Search
to swap in a vegetarian dish.
And just like that,
Search customizes your meal plan.
And you can export your meal plan
or get the ingredients
as a list
just by tapping here.
Looking ahead,
you can imagine asking Google
to add everything
to your preferred shopping cart.
Then we're really cooking.
These planning capabilities
mean Search will be able
to help plan everything
from meals and trips
to parties, dates,
workout routines,
and more.
So you can get all the fun
of planning
without any of the hassle.
You've seen how Google Search
can help with increasingly
complex questions
and planning.
But what about all those times
when you don't know
exactly what to ask
and you need some help
brainstorming?
When you come to Search for Ideas,
you'll get more than
an AI-generated answer.
You'll get an entire
AI-organized page
custom built for you
and your question.
La interfaz generada
automáticamente?
Say, you're heading to Dallas
to celebrate your anniversary
and you're looking
for the perfect restaurant.
What you get here
breaks AI out of the box
and it brings it
to the whole page.
Our Gemini model
encroves the most interesting
angles for you to explore
and organizes these results
into these helpful clusters.
Like you might never have
considered restaurants
with live music
or ones with historic charm.
Our model even uses
contextual factors
like the time of the year.
So since it's warm in Dallas,
you can get roof top
patios as an idea.
And it pulls everything
together into a dynamic
whole page experience.
No sé.
You'll start to see
this new AI-organized
search results page.
No sé transmitir
exactamente
la sensación
de lo
de lo que veo,
pero es como
no lo usaría,
no me sirve
esta interfaz
con tanta información
ahí mostrada.
No es eso
lo que busco
de un buscador
hecho con AI.
No sé.
Luego lo analizamos mejor.
Google takes the work
out of searching.
But your questions
aren't limited
to words in a text box.
And sometimes
even that picture
can't tell the whole story.
Earlier,
demos showed you
our latest advancements
in video understanding.
And I'm really excited
to share
that soon you'll be able
to ask questions
with video
right in Google search.
Let me introduce
Rose to show you
this in a live demo.
Venga, una demo.
Buscada en video.
Tiene mucho sentido.
Ojalá lo pongan
en YouTube.
Thank you, Liz.
I have always
known a record player.
And I got this one
and some vinyls
at Yarsel recently.
But when I go
to play it,
this thing keeps
sliding off.
I have no idea
how to fix it
or where to even start.
Before,
I would have pieced
together a bunch
of searches
to try to figure this out.
Like, what make
is this record player?
What's the model?
And what is this thing
actually called?
But now,
I can just ask
of a video.
So let's try it.
Let's do a live demo.
I'm going to take
a video
and ask Google,
why will this
not stay in place?
And in a near instant,
Google gives me
an AI overview.
I guess some reasons
this might be happening
and steps I can take
to troubleshoot.
So looks like,
first,
this is called
a tongue-er.
Very helpful.
And it looks like
it may be unbalanced
and there's some
really helpful steps here.
And I love that
because I'm new
to all this,
I can check out
this helpful link
from Audio-Technica
to learn even more.
So,
that was pretty quick.
Yay!
Yay!
Pero si me has enseñado
antes lo de las gafas
y lo otro,
lo otro me va a ayudar
más que buscar en internet.
Thanks to our combination
of our steady art speech models,
our deep visual understanding
and our custom Gemini model,
Search was able to
understand the question
I asked out loud,
break down the video
frame by frame.
Each frame was fed
into Gemini's long context window
you heard about earlier today.
So Search could then pinpoint
the exact make and model
of my record player
and make sense of the motion
across frames
to identify the tonearm
was drifting.
Search fanned out
and combed the web
to find relevant insights
from articles,
forums,
videos and more
and stitch all of this together
into my AI overview.
The result
was music to my ears.
Back to you, Liz.
Un buscador
no tiene que servir
para darte información
de cómo funciona
un tocadisco
porque eso es información
que ya está aprendida
por el modelo.
Los buscadores
van a evolucionar
para información
en tiempo real.
Punto.
Para la actualidad.
Para lo que no está
pre-entrenado
en el modelo.
Y eso hay que entenderlo así.
Hemos empezado por Dogel
y por marginalized
y en el trabajo
de Germenna
e Arduino
de Aserno
cabilidades.
Google learemos
a laarchización,
a laarchización,
a lareferaal,
a lastabiню,
a la t bancaria,
a la cidad máquina,
y mucho mas.
All you necesitan
es www.d副ing.com
is to just ask.
You'll start
to see estos
tactiquen
y en el siguiente
yON
sekeln
se innerhalb
eرة
se Clair
easan
eollo
los
los
que
luchas
y
se
algorithm
en Google Search this year.
¿Qué te apuestas a que esta canción
tiene copyright y me la van a liar?
Me la van a liar.
Bueno, si se va el directo abajo
por la música,
pierden ellos visibilidad con esto.
Y ahí se fue la monetización
de este video.
No sé, ya con cuatro segundos que haya
ya se va la monetización.
No, no, no, no, no, no, no, no, no, no.
Ya lo de mutear.
Since last May,
we've been hard at work
making Gemini for Workspace
even more helpful
para los negocios y los consumidores de todo el mundo.
Tens de miles de clientes han estado usando Help Me Write,
Help Me Visualize, Help Me Organize,
desde que lanzamos.
Y ahora estamos muy emocionados
que el nuevo panel de Gemini-ponente
será disponible en el próximo mes.
Vale, Gemini, la barra lateral.
Un de nuestros clientes es un favorito local.
Disponible dentro de un mes.
En California, en el baño de Sports Basement.
Han lanzado Gemini for Workspace a la organización
y esto ha ayudado a mejorar la productividad
de su equipo de apoyo de clientes
por más de 30%.
Los clientes adoran cómo Gemini
crece la participación en reuniones
con detectión de lenguaje automática
y captiones de real-time,
ahora expandiendo a 68 línguas.
Estamos muy emocionados
de lo que Gemini 1.5 Pro
unloca para los clientes de trabajo
y los clientes de AI.
Déjame empezar
por mostrarles tres nuevas capacidades
que vienen a Gmail.
En relación con todas las aplicaciones
del Workspace.
Que es bastante útil.
Esto mola bastante.
There's an email up top
from my husband.
Help me sort out
the roof repair thing, please.
Now, we've been trying
to find a contractor
to fix our roof
and with work travel,
I have clearly dropped the ball.
It looks like
there's an email thread on this
with lots of emails
that I haven't read
and luckily for me,
I can simply tap
the summarize option
up top
and skip reading
this long back and forth.
Now, Gemini pulls up
this helpful mobile card
as an overlay
and this is where
I can read
a nice summary
of all the salient information
that I need to know.
So, I see here
that we have a quote
from Jeff at Green Roofing
and he's ready to start.
Now, I know
we had other bids
and I don't remember
the details.
Previously,
I would have had to do
a number of searches
in Gmail
and then remember
and compare information
across different emails.
Now, I can simply
type out my question
right here in the mobile card
and say something like,
compare my roof repair bids
by price and availability.
This new Q&A feature
makes it so easy
to get quick answers
on anything in my inbox.
For example,
when are my shoes arriving
or what time do doors open
for the Knicks game
without having to first
search Gmail
then open the email
and then look
for the specific information
and attachments
and so on.
Anyway,
back to my roof.
It looks like Gemini
has found details
that I got
from two other contractors
in completely different
email threads
and I have this really
nicely organized summary
and I can do
a quick comparison.
So, it seems like
Jeff's quote
was right in the middle
and he can start immediately
so Green Roofing it is.
I'll open that last email
from Jeff
and confirm
the project
and look at that.
I see some suggested
replies from Gemini.
Now,
what is really,
really neat
about this evolution
of smart reply
is that it's contextual.
Gemini understood
the back and forth
in that thread
and that Jeff
was ready to start
so offers me
a few customized options
based on that contact.
So, you know,
here I see
I have a client
service
and just a new time
I'll choose
to proceed
and confirm time.
I can even see
a preview
of the full reply
just by long pressing.
This looks reasonable
so I'll hit send.
These new capabilities
in Gemini
and Gmail
will start rolling out
this month
to Labs users.
Curioso que todo lo enseñan
con la interfaz móvil
y no con el...
con pantalla de escritorio.
La chavala
bostezando.
Okay, so one of the
really neat things
about Workspace apps
like Gmail, Drive, Doc, Calendar
is how well they work together.
And in our daily lives
we often have information
that flows from one app
to another.
Like, say,
adding a calendar entry
from Gmail
or creating reminders
from a spreadsheet tracker.
But what if
Gemini could make
these journeys
totally seamless?
Perhaps
even automate them
for you entirely.
Ay, me ha hecho
mucha gracia.
So, let me show you
what I mean
with a real life example.
My sister
is a self-employed
photographer
and her inbox
is full of appointment
bookings,
receipts,
client feedback
on photos
and so much more.
Esto se puede contar
más rápido.
a freelancer
or a small business.
You really want
to focus on your craft
and not on bookkeeping
and logistics.
So, let's go to her inbox
and take a look.
Vale, mira.
Una escritoria.
Lots of unread emails.
Let's click on the first one.
It's got a PDF
that's an attachment
from a hotel
as a receipt
and I see a suggestion
in the side panel.
Vale.
Help me organize
and track my receipts.
Let's click on this prompt.
Who is tamola eh?
The side panel
now will show me
more details
about what that really means
and as you can see
there's two steps here.
Step one,
create a drive folder
and put this receipt
and 37 others
it's found
into that folder.
Makes sense.
Step two,
extract the relevant information
from those receipts
in that folder
into a new spreadsheet.
Now, this sounds useful.
Why not?
I also have the option
to edit these actions
or just hit OK.
Let's click on that.
So, let's hit OK.
Gemini will now complete
the two steps
described above
and this is where
it gets even better.
Gemini offers you
the option
to automate this
so that this particular
workflow is run
on all future emails
keeping your drive folder
and expense sheet
up to date
with no effort from you.
Esto es, a ver,
yo que sé,
yo que trabajo
con muchas facturas,
con muchos tickets,
correos y tal,
poder organizar
automáticamente esto.
Mola.
Y es una preview
hacia donde nos movemos.
O sea,
todo esto va a funcionar
así en el futuro.
Está mola.
está guapo.
Está guapo.
Y puedes imaginar
cómo esto se extiende
a todas las tipos
de usos en tu inbox
como los gastos de viajes,
la compra,
los proyectos de remodelación,
lo que sea.
Toda esa información
en Gmail
puede ser colocada
a buen uso
y ayudarte a trabajar,
planear
y jugar mejor.
Ahora,
esta particular...
Pone alguien,
pero ya existen
las reglas
para el correo,
ya,
pero es que yo no quiero
configurar las reglas,
yo quiero que
se haga solo.
O sea,
yo todo esto
lo tengo hecho
también en Google Sheet,
pero lo he tenido
que hacer.
Yo quiero que la IA
lo haga
y organice mejor
mi correo
de lo que haría yo.
Para que funcione esto,
tienen que funcionar
muy bien los modelos,
no puede haber alucinaciones.
Ahora,
si miras a 2025
y más,
estamos explorando
entirely new
formas de trabajar
con AI.
En Gemini,
hay un asistente
de la IA
siempre a suerte.
Pero si pudimos
expandir
cómo interact
con AI.
Por ejemplo,
cuando trabajamos
con otros,
nos mencionamos
en comentarios
o enviamos
e-mails,
tenemos
chat con ellos,
etc.
Y no es
solo como
colaboramos
con los otros,
pero cada uno
tiene un papel
que juega
en el equipo.
Y como la team
trabajamos juntos,
tenemos un conjunto
de experiencias
y contextos
para aprender
de los otros.
Tenemos
un conjunto
de habilidades
para que
nos necesite
ayuda.
Entonces,
¿cómo podemos
introducir
AI
en este
mix
y
build
en esta
experiencia?
Bueno,
aquí es
una manera.
Vamos a
prototipar
a
virtual
Gemini
co-pilot.
Tien mate
co-pilot.
Co-pilot.
Co-pilot.
Along with
a specific role
and objective.
Let me bring
Tony up
to show you
what I mean.
Vale.
Hey, Tony.
Creo que
volvemos
a los agentes.
Esto es como
tener un co-pilot,
un agente
personalizado
dentro de tu
work space.
Ok.
So let me start
by showing you
how we
pero está
prototipándose
todavía,
As
you can
see,
the
teammate
has
his
very
own
account
and
we
can
go
ahead
and
give
it
a
name.
We'll
do
something
fun
like
Chip.
Chip's
been given
a specific
job role
with a set
of descriptions
on how
to be
helpful
for the
team.
You can
see that
here.
And some
of the
jobs
are to
monitor
and track
projects.
We've
listed a few
out.
To
organize
information
and provide
context
and a few
more
things.
Now
that we've
configured
our virtual
teammate,
let's
go ahead
and see
Chip
in
action.
To
do
that,
I'll
switch
us
over
here
to
Google
Chat.
First,
when planning
for an
event like
IO,
we have
a ton
of
chat
rooms
for
various
purposes.
Luckily
for me,
Chip
is in
all
of
them.
To
quickly
catch
up,
I
might
ask
a
question
like,
anyone
know
if
our
IO
storyboards
are
approved?
Because
we've
instructed
Chip
to
track
this
project,
Chip
searches
across
all
the
conversations
and
knows
to
respond
with
an
answer.
There
it is.
Simple,
but
very
helpful.
Now,
as the
team
adds
Chip
to
more
group
chats,
more
files,
more
email
threads,
Chip
builds
a
collective
memory
of
our
work
together.
Let's
look
at
an
example.
To
show
you,
I'll
switch
over
to
a
different
room.
How
about
Project
Sapphire
over
here?
And
here
we
are
discussing
are
we
on
track
for
launch?
Chip
gets to
work not
only
searching
through
everything
it has
access to,
but also
synthesizing
what's
found and
coming
back
with an
up to
date.
It's
cool
how
it's
going to
add
to
talkers
to
add
more
information.
It's
cool.
Chip
flags
a
potential
issue
the
team
should
be
aware
of.
Because
we're
in
a
group
space,
everyone
can
follow
along,
anyone
can
jump
in
at
any
time,
as
you
see
someone
just
did,
asking
Chip
to help
create
a doc
to help
address
the
issue.
A
task
like
this
could
take
me
hours,
dozens
of
hours,
Chip
can
get
it
all
done
in
just
a
few
minutes,
sending
the
doc
over
right
when
it's
ready.
So
much
of
this
practical
helpfulness
comes
from
how
we've
customized
chip
to
our
I've
understood
much
it's
like
an
assistant
that
is
put
in
the
work
space
and
have
all the
info
and
there
but
I
can
imagine
a number
of
virtual
teammates
configured
by businesses
to help
them do
what
they need.
Now
we have
a lot
of work
to do
to figure
out how
to bring
these
agents
of
experiences
like
virtual
teammates
into
workspace
including
enabling
third
parties
to make
their
very
own
versions
of
chip.
We're
excited
about
where
this
is
headed
so
stay
tuned
and
as
Gemini
and
its
capabilities
continue
to
evolve
we're
diligently
bringing
that
power
directly
into
workspace
to
make
all
our
users
more
productive
and
creative
both
at
home
and
at
work
and
now
over
to
Sissy
to
tell
you
more
about
Gemini
app
our
vision
for the
Gemini
app
is to
be
the
most
helpful
personal
AI
assistant
by giving
you
direct
access
to
Google's
latest
AI
models
Gemini
can help
you learn
create
code
and
anything
else
you
can
imagine
and
over
the
past
year
Gemini
has
put
Google's
AI
in
the
hands
of
millions
of
people
with
experiences
designed
for
your
phone
and
the
web
we
also
launched
Gemini
Advanced
our
premium
subscription
for
access
to
the
latest
AI
innovations
from
Google
today
we'll
show
you
how
Gemini
is
delivering
our
most
intelligent
AI
experience
let's
start
with
the
Gemini
app
which
is
redefining
how
we
interact
with
AI
it's
natively
multimodal
so you
can use
text
voice
or your
phone's
camera
to express
yourself
naturally
and
this
summer
you can
have
an
in-depth
conversation
with
Gemini
using
your
voice
we're
calling
this
new
experience
live
using
Google's
latest
speech
models
Gemini
can better
understand
you
and answer
naturally
but
it's
what we
have
seen
before
Gemini
is
responding
or
it's
other
and
it's
just
the
beginning
we're
excited
to bring
the speed
games
and video
understanding
capabilities
from
project
Astra
to the
Gemini
app
when you
go live
you'll be
able to
open your
camera
so Gemini
can see
what you
see
and respond
to your
surroundings
in real
time
now
the way
I use
Gemini
isn't
the way
you
use
Gemini
so we're
rolling out
a new
feature
that lets
you
customize
it
for your
own
needs
and create
personal
experts
on any
topic
you
want
we're
calling
these
gems
don't
don't
stop
don't
stop
continue
don't
wait
the applause
they're
really
simple
to
set up
just
tap
to
create
a gem
write
your
instructions
once
and come
back
whenever
you
need
it
for
example
here's a gem
that I
created
that acts
as a personal
writing
coach
it
specializes
in short
stories
gestor
de
prompts
and
it
even
builds
on the
story
draft
in my
google
drive
I
call it
the
cliffhanger
curator
now
gems
are
a great
time
saver
when you
have
specific
ways
that you
want
to
interact
with
Gemini
again
and
again
gems
will roll
out
in the
coming
months
and our
testing
testers
are
ready
to find
so many
creative ways
to use
they can
act
as your
yoga
bestie
your
personal
sous
chef
a
brainy
calculus
a peer
reviewer
for your
code
laundry
body
so much
more
next
I'll show
you how
Gemini
is taking
a step
closer
to being
a true
AI
assistant
by planning
and taking
actions
for you
now we
all know
that chat
bots
can give
you ideas
for your
next
vacation
but there's
a lot
more
that goes
into
planning
a great
trip
it requires
reasoning
that considers
space
time
logistics
and the
intelligence
to prioritize
and make
decisions
that reasoning
and intelligence
all come
together
in the new
trip planning
experience
in Gemini
advanced
now it all
starts with a
prompt
okay so here
we go
we're going
to Miami
my son loves
art
my husband
loves seafood
and our flight
and hotel
details are already
in my gmail
inbox
now there's a lot
going on
in that prompt
everyone has
their own things
that they want
to do
to make sense
of these
variables
Gemini
starts by
gathering
all kinds
of information
from search
and helpful
extensions
like maps
and gmail
it uses
that data
to create
a dynamic
graph
of possible
travel
options
un gestor
de viajes
the end result
is a personalized
vacation plan
presented in
Gemini's new
dynamic UI
now based on my
flight information
Gemini knows
that I need a
two and a half
day
itinerary
and you can see
how Gemini
uses spatial data
to make decisions
this way
itinerary
ibles
but most...
not going
to change
the start time
and
just like that
Gemini
adjusted
my
intimidate
for the rest
of the trip
it
moved
our walking
toward to the
next day
y añadir lunches en el museo de la Street Art Museum
para hacer el mostro de nuestro día de la tarde.
Esto se ve genial.
Me hacía horas de trabajo,
checking multiple sources,
figuring out schedules,
y Gemini ha hecho esto en un fracción de la hora.
Esta nueva experiencia de trip plana
se va a la semana a Gemini Advanced
este año,
en el momento de que te ayudara a plan
tu propio Labor Day weekend.
A ver.
Bien, Google, bien.
O sea, sacad músculo donde hay.
Ahí.
Hay mucho potencial en AI,
así que puedes tackle complejos problemas
que fueron antes de haber imaginado.
Puedes upload un PDF
a 1500 pages long
o multiple files
para obtener insights
a través de un proyecto.
Y luego puedes upload
como 30,000 lines de código
o incluso un día de un video.
Gemini Advanced
es el único chatbot
que te permite procesar
esta cantidad de información.
Ahora, just imagine
cómo útil esto va a ser
para los estudiantes.
Vamos a decir,
que has spent meses
en tu thesis
y puedes usar
una perspectiva de fresca.
Puedes upload
tu entire thesis,
tu sources,
tu notes,
tu researches,
y luego,
interview audio recordings
y videos,
también.
Gemini tiene todo
este contexto
para darles
actionable advice.
Puede
dissectas
tus principales,
identificar
improvements,
y incluso
roleplay
como profesor.
Así que puedes
sentirse confiante
en tu trabajo.
Y veas
lo que Gemini Advanced
puede hacer
con tus spreadsheets,
con la nueva
feature de datos
que lanzan
en las próximas semanas.
Pero ha sido
meter archivos, ¿no?
O sea...
es como el...
Es como el...
¿Cómo el...?
Gemini va a trabajar calculando tus retornos
y sacando su análisis juntos
en un único cartón
para que puedas fácilmente entender
cuáles productos realmente paguen.
Ahora, detrás de las escenas,
Gemini escriba un código de Python custom
para acelerar estos números.
Y, por supuesto,
tus files no son usados para entrenar nuestros modelos.
¿Qué ha cambiado de nombre?
¿Qué ha cambiado de nombre?
¿Qué ha cambiado de nombre?
Oh, y, solo una otra cosa.
Luego de este año,
vamos a duplicar la ventana de contexto
window to 2 million tokens.
Pero ya lo han dicho antes.
¿Por qué se repiten?
We absolutely can't wait
for you to try all of this for yourself.
Gemini is continuing to evolve
and improve at a breakthrough pace.
We're making Gemini more multimodal,
more agente,
and more intelligent
with the capacity to process
the most information
of any chatbot in the world.
And, as you heard earlier,
we're also expanding Gemini Advance
to over 35 supported languages
available today.
But, of course,
what makes Gemini so compelling
is how easy it is
to do just about anything you want
with a simple prompt.
Let's take a look.
Enter a prompt here.
Okay, can't be that hard.
How about generating image of a cat
going guitar?
Voy a bajar la música para...
Is that how it will...
No, lo siento,
pero voy a bajar la música.
Vale, bueno.
Mejoras en Gemini,
que pronto llegará a tener
2 millones de contexto,
que tiene el Code Interpreter,
puedes generar código
para sacarte datos
de las estadísticas que le mandes,
analizar archivos,
todo eso
ya lo tenemos.
¿Vale?
En GPT4.
Está guay
que se vayan poniendo al día
con todo esto,
pero creo que tienen que
enfocarlo diferente todo.
Tienen que enfocarlo
a presentar más
de lo que realmente
les hace brillar,
que es,
tienen multimodalidad
de vídeo,
tienen el millón de tokens.
Enseñad más de eso.
Enseñad demos útiles.
No me planifiquéis
un viaje por quinta vez,
porque eso ya lo hemos visto
desde que en el Microsoft
del año pasado
se hizo esta demo.
Entonces,
falta un poco de
quitar paja,
ir más directo.
Han sacado cosas muy guapas,
pero ya, por ejemplo,
lo de generación de vídeos
que ya se me está olvidando,
porque está diluido
entre tanto al medio
que, bueno,
¿esto qué es?
¿Esto sigue siendo...?
Vale, sí.
Pensaba que era como
otro evento.
Hola, a todos.
Es genial estar de vuelta
en Google.io.
Hoy,
you've seen
how AI
is transforming
our products
across Gemini,
Search,
Workspace,
and more.
We're bringing
all these innovations
right onto
your Android phone,
and we're going
even further
to make Android
the best place
to experience
Google AI.
This new era
of AI
is a profound
opportunity
to make smartphones
truly smart.
Our phones
have come a long way
in a short time,
but if you think
about it,
it's been years
since the user
experience
has fundamentally
transformed.
This is a once-in-a-generation
moment
to reinvent
what phones can do.
So we've embarked
on a multi-year
journey
to reimagine Android
with AI
at the core.
And it starts
with three breakthroughs
you'll see
this year.
First,
we're putting
AI-powered search
right at your fingertips,
creating entirely new ways
to get the answers
you need.
Second,
Gemini
is becoming
your new AI assistant
on Android,
there to help you
anytime.
And third,
we're harnessing
on-device AI
to unlock new experiences
that work as fast
as you do
while keeping
your sensitive data
private.
Pero todo eso
ya creo que lo tengo,
¿no?
Let's start with
AI-powered search.
Earlier this year,
we took an important
first step
at Samsung Unpacked
by introducing
Circle to Search.
It brings the best
of search
directly into
the user experience.
So you can go deeper
on anything you see
on your phone
without switching apps.
Fashionistas
are finding
the perfect shoes,
home chefs
are discovering
new ingredients,
and with our latest update,
it's never been easier
to translate
whatever's on your screen,
like a social post
in another language.
And there are even more ways
Circle to Search
can help.
One thing we've heard
from students
is that they're doing
more of their schoolwork
directly on their phones
and tablets.
So we thought
ha salido
abajo un producto
de aquí,
de Pixel,
un anuncio.
¿Qué?
¿Nos estará haciendo spam?
It's been a while
since I've thought
about kinematics.
If he's stumped
on this question,
instead of putting
me on the spot,
he can circle
the exact part
he's stuck on
and get step-by-step
instructions
right where he's
already doing the work.
Ah, of course,
final velocity
equals initial velocity
plus acceleration
times elapsed time.
Right.
I was just about
to say that.
Seriously, though,
I love how
it shows
how to solve
the problem,
not just the answer.
This new capability
is available
today.
And later this year,
Circle to Search
will be able
to tackle
more complex problems
involving
symbolic formulas,
diagrams,
graphs,
and more.
Circle to Search
is only on Android.
It's available
on more than
100 million devices
today,
and we're on track
to double that
by the end
of the year.
Coming soon,
later this year,
at the end of the year.
You've already heard from Sissy
about the incredible updates
coming to the Gemini app.
On Android,
Gemini is so much more.
It's becoming
a foundational part
of the Android experience.
Here's Dave
to share more.
Hey, everyone.
A couple of months ago,
we launched Gemini
on Android.
And like Circle to Search,
Gemini works
at the system level.
So instead of going
to a separate app,
I can bring Gemini
right to what I'm doing.
Now,
we're making Gemini
context-aware
so it can anticipate
what you're trying
to do
and provide more
helpful suggestions
in the moment.
In other words,
to be a more
helpful assistant.
So let me show you
how this works,
and I have my shiny new
Pixel 8a here
to help me.
La broma abajo, de nuevo.
So my friend Pete
is asking if I want
to play pickleball
this weekend.
And I know how
to play tennis,
sort of.
I had to say that
for the demo.
But I'm new to this
pickleball thing.
So I'm going to reply
and try to be funny,
and I'll say,
is that like tennis
but with pickles?
This would be actually
a lot funnier
with a meme.
So let me bring up
Gemini to help with that.
And I'll say,
create image of tennis
with pickles.
Now, one you think
you'll notice
is that the Gemini window
now hovers in place
above the app
so that I stay
in the flow.
Okay.
So that generated
some pretty good images.
What's nice is I can then
drag and drop any of these
directly into the
Messages app below.
So, like, so.
That white.
Cool.
Let me send that.
All right.
So Pete was typing,
and he says,
he's sending me a video
on how to play pickleball.
All right.
Thanks, Pete.
Let's tap on that.
That launches YouTube.
But, you know,
I only have one or two
burning questions
about the game,
and I can bring up
Gemini to help with that.
And because it's
context-aware,
Gemini knows
I'm looking at a video,
so it proactively shows me
an Ask This Video chip.
So let me tap on that,
and now I can ask
specific questions
about the video.
So, for example,
what is,
is,
can I type,
the two bounce rule?
Because that's something
that I've heard about,
but don't quite understand
in the game.
By the way,
this uses signals
like YouTube's captions,
which means you can use it
on billions of videos.
So give it a moment,
and there.
I get a nice,
distinct answer.
The ball must bounce
once on each side
of the court
after a serve.
Okay, cool.
Let me go back to messages.
But Pete followed up.
He says,
you're an engineer,
so here's the official rule book
for pickleball.
Okay, thanks, Pete.
Pete's very helpful,
by the way.
Okay, so we tap on that,
launches a PDF,
and that's an 84-page PDF.
I don't know how much time
Pete thinks I have.
Anyway,
us engineers,
as you all know,
like to work smarter,
not harder.
So instead of trolling
through this entire document,
I can pull up Gemini to help.
And again,
Gemini anticipates
what I need
and offers me
an ask this PDF option.
So if I tap on that,
Gemini now ingests
all of the rules
to become a pickleball expert.
And that means
I can ask very esoteric questions,
like, for example,
are spin serves allowed?
And let's hit that,
because I've heard
that rule may be changing.
Now, because I'm
a Gemini advanced user,
this works on any PDF
and takes full advantage
of the long context window.
And there's just lots of times
when that's useful.
For example,
let's say you're looking
for a quick answer
in an appliance user manual.
And there, you have it.
It turns out,
nope, spin serves
are not allowed.
So Gemini
not only gives me
a clear answer
to my question,
it also shows me
exactly where on the PDF
to learn more.
Awesome.
Okay.
So that's a few of the ways
that we're in Azure Gemini
to be more context-aware
and helpful in the moment.
And what you've seen here
are the first really
many new ways
that Gemini will unlock
new experiences
at the system level.
And they're only available
on Android.
You'll see these,
and more,
coming to hundreds
of millions of devices
over the next couple
of months.
Now,
building Google AI
directly into the OS
elevates the entire
smartphone experience.
And Android
is the first mobile
operating system
to include a built-in
on-device foundation model.
This lets us bring
Gemini goodness
from the data center
right into your pocket
so the experience
is faster
while also protecting
your privacy.
Starting with Pixel
later this year,
we'll be expanding
what's possible
with our latest model,
Gemini Nano
with multi-modality.
This means your phone
can understand the world
the way you understand it.
So not just
through text input,
but also through sights,
sounds,
and spoken language.
Let me give you an example.
2.2 billion people
experience blindness
or low vision.
So several years ago,
we developed TalkBack,
an accessibility feature
that helps people
navigate their phone
through touch
and spoken feedback.
Helping with images
is especially important.
In fact,
my colleague Caro,
who uses TalkBack,
will typically come across
90 unlabeled images
per day.
Thankfully,
TalkBack makes them
accessible.
And now we're taking that
to the next level
with the multimodal capabilities
of Gemini Nano.
So when someone sends Caro
a photo,
she'll get a richer
and clearer description
of what's happening.
Or let's say Caro
is shopping online
for an outfit.
Now she can get
a crystal clear description
of the style and cut
to find the perfect look.
Running Gemini
Nano on device
helps minimize
the latency
and the model even works
when there's no network
connection.
These improvements
to TalkBack
are coming later this year.
Lo que hablábamos antes
de la IA
enbebida
en el móvil
y que por tanto
puedes usarla
sin internet.
Eso está guay.
Qué asustos.
La ansiedad
es mucho sacada de activar.
¿Estoy hablando con Dave?
Sí,
soy Dave.
¿Estás en el medio
de algo?
We've detected
some suspicious activity
on your account.
It appears someone
is trying to make
unauthorized charges.
Oh, yeah.
What kind of charges?
We can't give you
specifics over the phone.
But to protect your account,
I'm going to help you
transfer your money
to a secure account
we've set up for you.
And look at this.
My phone gives me
a warning that this call
might be astounding.
Mola.
Lo que habrá gente
que dirá
el móvil
escucha la conversación
pero todo se supone
que en local
con lo cual
la privacidad
se preserva.
Exacto.
Mola.
Si fuera que
se lo están mandando
a la nube
ya es
dedicado.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
Mola.
como donde encuentre pickleball clubes near me.
Y esto es un concepto que trabajará con muchos apps en tu teléfono.
En realidad, en el Developer Keynote,
te voy a hablar de cómo empoderar nuestra comunidad de developer
con nuestros nuevos modelos y modelos,
como Gemini Nano y Gemini en Android Studio.
También, estén listos mañana para nuestros próximos Android 15 updates,
que no podemos esperar a compartir con ustedes.
Como dije en el outset,
estamos reimagining Android con Gemini en el core.
De tus favoritos apps a los OS,
estamos llevando el poder de AI a cada aspecto de la experiencia de la experiencia.
Y con eso, voy a pasar a Josh para compartir más información de nuestros nuevos modelos.
Gracias.
Muy largo, ¿eh?
Gracias, Dave.
Es increíble ver que Gemini Nano haga todo eso directamente en un Android.
Ese fue nuestro plan todo el tiempo,
crear un Gemini multimodal nativo en una variedad de tamaños,
para que todos, como desarrolladores,
puedan elegir el que funciona mejor para ti.
Durante la mañana,
has escuchado mucho sobre nuestra serie de Gemini 1.5.
Y quiero hablar de los dos modelos que puedes acceder hoy en día.
1.5 Pro,
que está obteniendo una serie de mejoras de calidad
que se salga justo ahora.
Y el nuevo 1.5 Flash.
Estas son disponibles hoy en globalmente,
en más de 200 países y territorios.
Bien, cosas nuevas, bien.
La cosa es,
no sé la diferencia entre el Pro y el Flash,
porque han dicho que el Flash es como
igual de competente que el Pro.
Hace falta ver benchmarks.
Estas son modelos nativos y multimodales.
Eso significa que puedes interlevar textos,
imágenes, audio y video como input
y arreglar esa gran ventana de 1.000.000 de contextos.
Y si vas a ir a www.ai.googledev
hoy,
puedes sign up
para probar el 2.000.000 token contextos
para 1.5 Pro.
Y también hay un montón de nuevo
developer features,
como con video frame extracto,
que va a ser en el GEMINI API.
Parallel function calling,
así que puedes return
más de una función call a una vez.
Y mi favorita,
context caching,
así que puedes enviar todos tus files
a la modela de una vez
y no tienes que resendirlos
a la vez y a la vez.
Eso es lo mejor.
Eso debería hacer el largo contexto
aún más útil
y más afortunado.
Se envía el próximo mes.
Esto mola.
Son funcionalidades
que creo que estaban,
por ejemplo,
en la demo de las gafas.
Y ahora lo explicamos
cuando acabemos.
Google's infrastructure
to serve these models.
So developers,
like all of you,
can get great prices.
1.5 Pro
is $7 per 1 million tokens.
And I'm excited to share
that for prompts
up to $128K,
it'll be 50% less
for $3.50.
Muy bien.
And 1.5 Flash
will start
at $35 cents
for $1 million tokens.
Wow.
El anterior,
el Pro,
creo que está
a mitad de precio
que GPT-4.
Now, one thing you might be wondering
is which model is best
for your use case.
Eso es.
Here's how we've been thinking
about it on the team.
We use 1.5 Pro
for complex tasks
where you really want
the highest quality response.
And it's okay
if it takes a little bit longer
to come back.
We're using 1.5 Flash
for quick tasks
where the speed of the model
is what matters the most.
And as a developer,
you can go try them both out today
and see what works best for you.
Now, I'm going to show you
how it works here in AI Studio,
the fastest way
to build with Gemini.
And we'll pull it up here.
And you can see
this is AI Studio.
It's free to use.
You don't have to configure
anything to get going.
You just go to
Aistudio.google.com
log in with your Google account
and you can just pick the model
here in the right
that works best for you.
So one of the ways
we've been using 1.5 Flash
is to actually learn
from customer feedback
about some of our Labs products.
Flash makes this possible
with its low latency.
So what we did here
is we just took
a bunch of different feedback
from our customer forums.
You can put it into Flash,
load up a prompt
and hit Run.
Now, in the background,
what it's going to do
is it's going to go through
that 93,000 token pile
of information
and you can see here
start streaming it back.
Now, this is really helpful
because it pulls out
the themes for us.
It gives us all the right places
where we can start to look.
And you can see
this is from some of the benefits
from Notebook LM
like we showed earlier.
Now, what's great about this
is that you can take
something like this
in AI Studio,
prototype here in 10 seconds,
and with one click
in the upper left,
get an API key,
or over here in the upper right,
just tap Get Code,
and you've got
all of the model configurations,
the safety settings,
ready to go
straight into your IDE.
Now, over time,
if you find that you need
more enterprise-grade features,
you can use
these same Gemini 1.5 models
and the same configurations
right in Vertex AI.
That way,
you can scale up
with Google Cloud
as your enterprise needs grow.
So that's our newly updated
Gemini 1.5 Pro
and the new 1.5 Flash,
both of which
are available today,
globally,
and you'll hear a lot more
about them
in the developer keynote
later today.
Now, let's shift gears
and talk about Gemini,
our family of open models,
which are crucial
for driving AI innovation
and responsibility.
Gemini is built
from the same research
and technology
as Gemini.
It offers top performance
and comes in lightweight
7B and 2B sizes.
Now, since it launched
less than three months ago,
it's been downloaded
millions of times
across all the major
model hubs.
Gemini 1.5 model
and researchers
have been using it
and customizing
the base Gemma model
and using some
of our pre-trained variants
like Recurrent Gemma
and CodeGemma
and today's
newest member,
PolyGemma,
our first vision language
open model
and it's available
right now.
Mola, bien.
Bueno, han liberado
un modelo.
Guay, bien.
Puntito para Google.
It's optimized
for a range
of image captioning,
visual Q&A
and other image
labeling tasks.
So go give it a try.
Hay que ver
porque esta semana
ha salido Bleep 3.
I'm also too excited
to announce
that we have
Gemma 2 coming.
It's the next generation
of Gemma
and it will be available
in June.
One of the top requests
we've heard from developers
is for a bigger
Gemma model
but it's still
going to fit
in a size
that's easy
for all of you to use.
so in a few weeks
we'll be adding
a new 27 billion
parameter model
to Gemma 2.
And here's
what's great about it.
This size
is optimized
by NVIDIA
to run on
next-gen GPUs
and can run
efficiently
on a single
TPU host
in Vertex AI.
So this quality
to size ratio
is amazing
because it'll
outperform models
more than twice
its size.
We can't wait
to see what
you're going to build.
Es un buen tamaño
de modelo
para el hardware
que casi todos
utilizamos.
Falta ver benchmarks
para ver
hasta dónde llegas.
To wrap up,
we've been using
Gemma
and its unique
tokenization
to create
Navarasa,
a set of
instruction-tuned
models
to expand
access
to 15
Indic languages.
This builds
on our efforts
to make
information
accessible
in more
than 7,000
languages
around the
world.
Take a look.
Language
is a very
interesting
problem
to solve
actually.
And given
India
has a
huge
variety
of languages
and it
changes
every
five
kilometers.
When technology
is developed
for a particular
culture,
it won't be able
to solve
and understand
the nuances
of a country
like India.
One of
Gemma's features
is an incredibly
powerful tokenizer
which enables
the model
to use
hundreds of
thousands
of words,
symbols,
and characters
across so many
alphabets
and language
systems.
This large
vocabulary
is critical
to adapting
Gemma
to power
projects
like Navrasa.
Navrasa
is a model
that's trained
for Indic
languages.
It's a fine-tuned
model based
on Google's
Gemma.
We built
Navrasa
to make
large language
models culturally
rooted
where people
can talk
in their native
language
and get the
responses
in their native
language.
Our biggest
dream is
to build
a model
to include
everyone
from all
corners
of India.
Today,
the language
that you speak
in could be
the tool
and the
technology
that you
use
for solving
your
real-world
problems.
And that's
the power
of generative
AI
that we
want to
bring to
every
corner
of India
and the
entire
world.
listening to
everything
that's been
announced
today,
it's clear
that AI
is already
helping people
from their
everyday tasks
to their
most ambitious,
productive,
and imaginative
endeavors.
Our AI
innovations
like
multimodality,
long
context
and agents
are at the
cutting edge
of what
this
technology
can do,
take it
to a whole
new level,
its capacity
to help
people.
Yet,
as with
any emerging
technology,
there are
still risks
and new
questions
that will
arise as AI
advances
and its
uses evolve.
Estoy solicitando
la...
el Gemini
de dos millones.
by our AI
principles
and we're
learning from
our users,
partners,
and our
own research.
To us,
building AI
responsibly
means both
addressing the
risks
and maximizing
the benefits
for people
and society.
Let me begin
with what we're
doing to address
the risks.
Here,
I want to focus
on how we're
improving our
models and
protecting
against their
misuse.
beyond what
Demis shared
earlier,
we're improving
our models
with an
industry-standard
practice called
red-teaming,
in which we
test our own
models and
try to break
them to
identify
weaknesses.
Adding to
this work,
we're developing
a cutting-edge
technique we
call AI-assisted
red-teaming.
This draws
on Google
DeepMind's
gaming
breakthroughs
like AlphaGo,
where we train
AI agents to
compete against
each other
and improve
and expand
the scope
of their
red-teaming.
Usar
inteligencia
artificial
para controlar
la inteligencia
artificial.
Para...
Para...
Que podría
salir mal,
eh.
Que podría salir
mal, eh.
Que podría salir
mal, eh.
los dos grupos
ayudan a identificar
riesgos emergentes
de las threatas de
la seguridad
a las posibilidades
potentially
peligrosas
en áreas
como la
bio-chem-chem.
Combine
un insight
con nuestros
testigos de seguridad
va a ayudar
a nuestros
modelos y
productos
más acertos,
reliable
y safer.
Esto es
particularmente
importante
como el
avanzo técnico
Gracias Miguel por la donación.
Qué bien lo de veo, ¿eh?
Creo que no tan bien como Sora, pero bastante bien.
Vale, la marca de agua que tienen para asegurar de que Internet no se llene de mierda.
Vamos a integrar avances como watermarking y otras tecnologías para asegurar nuestras generaciones de Gemini, Imagen, Liria, y VIA modeles.

Microsoft, Startups, and many others
to build and implement standards
that improves the transparency of digital media.
Now, let's turn to the second and equally important part
of our responsible AI approach.
How we're building AI to benefit people and society.
Today, our AI advances are helping to solve
real world problems like accelerating the work
of 1.8 million scientists in 190 countries
who are using alpha folds
to work on issues like neglected diseases.
Helping predict floods in more than 80 countries.
And helping organizations like the United Nations
track progress of the world's 17
sustainable development goals with data commons.
And now, Generative AI is unlocking new ways
for us to make the world's information
and knowledge universally accessible
and useful for learning.
Billions of people already use Google products
to learn every day.
And Generative AI is opening up new possibilities,
allowing us to ask questions like,
what if everyone everywhere
could have their own personal AI tutor on any topic?
Or, what if every educator could have
as a role assistant in the classroom?
Today marks a new chapter for learning and education at Google.
I'm excited to introduce LearnLM,
our new family of models based on Gemini
and fine-tuned for learning.
Mola?
LearnLM is grounded in educational research,
making learning experiences more personal and engaging.
And it's coming to the products you use every day,
like Search, Android, Gemini, and YouTube.
In fact, you've already seen LearnLM on stage today,
when it helped Samir with his son's homework on Android.
Now, let's see how this works in the Gemini app.
Earlier, Sissy introduced Gems,
custom versions of Gemini
that can act as personal, assistive experts on any topic.
We're developing some pre-made gems,
which will be available in the Gemini app and web experience,
including one called Learning Coach.
With Learning Coach, you can get step-by-step study guidance,
along with helpful practice and memory techniques,
designed to build understanding,
rather than just give you the answer.
Let's say you're a college student
studying for an upcoming biology exam.
If you need a tip to remember the formula for photosynthesis,
Learning Coach can help.
Learning Coach, along with other pre-made gems,
will launch in Gemini in the coming months.
And you can imagine what features like Gemini Live
can unlock for learning.
Entiendo que es un modelo fine-tuneado
con prompts gestionado.
Vamos, tráeme tráfico.
Gracias, huecos.
Aguantamos.
And this even works for those long lectures or seminars,
thanks to Gemini model's long-context capabilities.
This feature in YouTube is already rolling out
to select Android users.
As we work to extend LearnLM beyond our own products,
we're partnering with experts and institutions like
Columbia Teachers College,
Arizona State University,
and Khan Academy to test and improve
the new capabilities in our models for learning.
And we've collaborated with MIT,
RAISE, to develop an online course
to help educators better understand
and use generative AI.
We're also working directly with educators
to build more helpful generative AI tools with LearnLM.
For example, in Google Classroom,
we're drawing on the advantages you've heard about today
to develop new ways to simplify and improve lesson planning
and enable teachers to tailor lessons and content
to meet the individual needs of their students.
Standing here today makes me think back
to my own time as an undergraduate.
Then, AI was considered speculative,
far from any real-world uses.
Today, we can see how much is already real,
how much it is already helping people
from their everyday tasks to their most ambitious,
productive, and imaginative endeavors,
and how much more is still to come.
This is what motivates us.
I'm excited about what's ahead
and what we'll build with all of you.
Back to you, Sundar.
Ya acaba esto.
Madre mía, dos horas, chavales.
Dos horazas con sus 60 minutos cada una.
Y además para que me desmoneticen el directo este.
All of this shows the important progress we have made
as we take a bold and responsible approach
to making AI helpful for everyone.
Before we wrap,
I have a feeling that someone out there
might be counting
how many times we have mentioned AI today.
Van a dejar que lo haga a ella.
Since a big team today
has been letting Google do the work for you,
we went ahead and counted
so that you don't have to.
Bien, bien.
Mola.
That might be a record
in how many times someone has said AI.
I'm tempted to say it a few more times,
but I won't.
Anyhow, this tally is more than just a punchline.
It reflects something much deeper.
We've been AI first in our approach for a long time.
Our decades of research leadership
have pioneered many of the modern breakthroughs
that power AI progress for us and for the industry.
On top of that,
we have world-leading infrastructure built for the AI era,
cutting-edge innovation and search now powered by Gemini,
products that help at an extraordinary scale,
including 15 products with over half a billion users,
and platforms that enable everyone,
partners, customers, creators,
and all of you to invent the future.
This progress is only possible
because of our incredible developer community.
You're making it real
through the experiences you build every day.
Gracias, zapatillas.
So to everyone here in Showline,
and the millions more watching around the world,
here's to the possibilities ahead
and creating them together.
Thank you.
I'm going to take a look at the audio
for you to not me lo banen.
Well, we have it, guys.
Uf, it's been a short time.
I would have taken two hours more here
talking about Gemini
and how to organize a trip.
A ver.
A ver how we have this.
I'm going to do a analysis
but you're going to have it later this year.
Coming soon.
¿Vale?
Coming soon, the event.
Here are several things.
No can be that we can do
a two hours,
which is a long time,
when we can divide it in two events,
a lo mejor one hour
and the other in otoño,
and present things now
and things in otoño.
No we can repeat
what we saw coming soon
que sale ahora
y el coming soon de ahora
que lo presentarán cuando salga
seguramente en otro evento más adelante.
Es decir,
hace falta focalizar más.
Y fijaos cómo,
y mira que no quiero entrar
a hacer como las comparaciones,
voy a ponerme así.
No quiero entrar a hacer
como las comparaciones obvias
y entrar en el juego de OpenAI,
pero voy a entrar.
Está hecho adrede
hasta el formato del evento de OpenAI.
Y es algo que ya vienen haciendo.
Quieren demostrar que son otra cosa
y obviamente es una generación nueva
de empresas
y son mucho más lean,
son mucho más ligeros.
Y de hecho es que
hasta el evento de ayer de OpenAI
le criticaría que fue demasiado corto,
que le faltó sustancia.
O sea,
luego empezamos a rascar un poco
y había más cosas interesantes
que presentar
que no presentaron.
Del tema de la multimodalidad,
todo eso se lo pasaron por tal.
Entonces,
creo que hay un punto intermedio
que es el punto dulce
que Google debería apuntar a eso.
Han presentado cosas chulas.
Es que el problema es que
se diluye lo interesante
en cosas que no nos interesan tanto.
Y no sé por qué,
porque luego también es cierto
que hay productos
con integraciones con IA
que me parecen chulas.
Pues yo qué sé,
lo que han mostrado
de léeme el correo
y búscame la factura,
meterlas en una carpeta y tal.
Me parece chulo,
pero no sé si es porque
ya viene diluido
en un evento tan largo
que me interesa poco
o por la falta de demos,
que eso también.
Obviamente,
esto es un evento
donde está todo coreografiado.
Y aquí podría decir
la comparación de
ayer en Open IA
hicieron la demo en directo.
No nos engañemos,
seguramente las dos demos
que hicieron
estaban también
muy coreografiadas.
Obviamente,
eran demos
que sí probaron en directo
y se notaron
que había fallillos y tal,
pero al menos
se nota un poco más
orgánico
que lo que vemos aquí
que al final
no deja de ser
pues el caso de uso
que funciona y ya está.
Dadnos acceso
a la aplicación,
lo probamos nosotros
o enseñadnos
varios ejemplos
en vuestra página web
y no nos llenéis
el evento
de tanta,
tanta cosa.
No me traigáis
a una persona
para presentar
cada producto
para hacer
una explicación larga,
sintetizar más corto,
se puede hacer más corto.
Pero han enseñado
cosas chulas.
Vamos a ver
si recordamos
lo más interesante.
Para mí,
lo más interesante,
bueno,
no ha habido
modelo de nueva generación,
eso sí que me ha parecido
un poco,
bueno,
preocupante,
que no se haya hablado
de un futuro
Gemini 2.0
con mayor capacidad
de agencia,
con más capacidad
de razonamiento.
Se ha mencionado,
sí,
pero como muy etéreo,
muy a futuro,
me hubiera gustado
algo un poco más
aterrizado.
Pero sí han hablado
del nuevo
Gemini Pro 1.5,
el Gemini Flash,
que ya me he metido
en el estudio
y lo estaba comprobando.
El Gemini Flash,
pues lo tenemos aquí.
Vamos a comparar
las velocidades
de ambos modelos.
Este sería
el Gemini 1.5 Pro
con un millón
de tokens de entrada,
súper interesante.
Aquí le podríamos
coger,
pues yo qué sé,
vamos a decirle,
cuéntame una historia
muy larga,
y le damos a ejecutar
y aquí el modelo piensa,
el canto de la memoria,
la anciana de Lara
de piel arrugada
como corteza de árbol
y ojos como pozos
de sabiduría,
encendió una vela,
la luz litió,
titiló,
perdón,
proyecta bastante guay,
¿vale?
Una historia bastante chula.
O sea,
se ve la verdad
que interesante,
no lo vamos a negar.
Vamos al Flash
por comparar,
vamos a darle
el mismo prompt,
a ver si puedo
borrar esto,
el mismo prompt,
a ver cómo lo podemos mandar,
se lo escribo yo
directamente fuera esto,
tenemos el modelo Flash,
vamos a comparar velocidades,
vale,
un poco más rápido,
el viaje del artista,
¿vale?
De nuevo otra historia,
aquí lo que han dicho
es que el modelo Pro
quizás sea el más,
el que más te interesaría
de cara a,
a tareas un poco
más inteligentes,
vamos a darle aquí,
cuéntame una historia
más larga,
pues yo creo que a la par,
el modelo Flash
está un poco a la par
que el 4O
y que tal.
La única cosa
que nos falta ver
es cómo compite
el chat GPT-4O
que sabemos que está
muy arriba en el LM Arena
contra este nuevo modelo.
Eso por una parte,
el modelo Pro,
interesante,
con 1,5 millones de parámetros,
perdón,
1,5 no,
un millón de tokens
de ventana de contexto,
ampliable a 2
si solicitáis con la waitlist,
yo ya lo he solicitado
por aquí
mientras estamos viendo
el anuncio corporativo
número 28,
lo tenemos,
¿qué más?
Han presentado
el modelo YEMA
que llegará
en algún momento
este año,
pues lo veremos
seguramente
en junio,
creo que han dicho,
el modelo de 27.000 millones
de parámetros,
también bastante
interesante,
hemos visto
el proyecto Astra,
creo que se llamaba,
¿vale?
El proyecto Astra
creo que era,
que es un poco
la idea
de lo que vimos ayer
del GPT-4O
multimodal,
activas la cámara,
se ve a través
del escenario,
¿ok?
Vas planteándole
diferentes cosas
y una cosa muy interesante
que se ha visto ahí
ha sido
que el modelo
cacheaba,
¿vale?
El modelo cacheaba
fotogramas anteriores
y esto
va un poco
en relación
con algo
que han pasado
muy por encima
de la API
pero que es como
si lo vas a presentar así
pues no lo presentes
y es,
han enseñado
que ahora la API
tiene una funcionalidad
de a partir de un vídeo
ir cacheando fotogramas,
¿no?
O detectar fotogramas.
Creo,
mi intuición me dice
que esto lo que hace
es si tú le pasas
un vídeo,
sabe analizar el vídeo
para sacar aquellos fotogramas
que puedan ser relevantes
de cara a analizar
esos fotogramas
y entender la acción
del vídeo,
¿vale?
Es como,
no te interesa
de un vídeo
almacenarte los 30 fotogramas
por segundo
cada segundo,
sino que tú sabes
que si está pasando
una cosa aquí,
aquí y allá
pues te quedas
con estos fotogramas
y eso explica la historia.
Esto lo conté
cuando hablamos
de la demo fake
de Gemini
que era algo
que hacía falta,
¿no?
Que ellos en la demo
lo que hacían
era seleccionar a mano
los fotogramas
y ahora lo que parece
es que ya tienen
un modelo
que se encarga
de hacer esta tarea.
Parece interesante.
Entonces,
molaba mucho
porque lo que hemos visto
es una funcionalidad
que por ahora
en OpenAI
no nos han enseñado
que es,
oye,
yo te enseño muchas cosas
y luego te hago
una pregunta
¿Has visto mis gafas?
El modelo te dice
sí, sí,
tus gafas estaban aquí atrás.
Eso es la leche.
Eso,
dame más de eso,
dame chicha,
dame cositas
porque eso es interesante.
Eso es el futuro
al que nos movemos.
Dispositivos wearables
que estén percibiendo
lo mismo que nosotros,
que convivan
simultáneamente
con nuestra percepción,
pues,
que escuchen
lo que escuchamos,
que vean lo que vemos,
que vivan
en tiempo real
lo que estamos viviendo.
Todo esto se esté cacheando,
se esté almacenando,
a lo mejor
en un dispositivo,
en local
o quien quiera
lo mandará a la nube
y podremos hacerle preguntas
a la IA de
oye,
esto tal,
tal,
tal.
Ya hemos visto
que hemos igualado
a Her
teniendo IAs
que pueden hablar
como nosotros.
El siguiente paso
va a ser el capítulo
de Black Mirror
de toda la historia
de mí,
¿vale?
De la historia completa
de mí,
creo que se llamaba,
¿no?
Que podían como revivir
las discusiones de parejas
y historias así.
Qué guapo
se nos está quedando
el futuro.
No,
pero es bastante chulo
y bastante útil.
Entonces,
esas dos temas
me han parecido
muy interesantes,
pero de nuevo,
coming soon.
Vamos a poner la puntillita
también a OpenAI,
por cierto,
lo de ayer todavía
solo hemos tenido acceso
al modelo.
No nos emocionemos
porque nos falta
tener acceso
a lo otro
que dijeron
en las próximas semanas
tendremos acceso
a la voz
y al análisis
de vídeo,
pero las próximas semanas
pueden ser meses,
¿vale?
Podrían ser semanas,
podrían ser poco tiempo
o podrían ser meses.
Que también
hoy nos estamos quejando,
pero mucha gente
está diciendo mejor,
pues el asistente de voz
de OpenAI
no funciona tan bien
como parecía.
No,
no,
es que estáis usando
el antiguo.
Aunque el modelo
sea GPT-4O,
estáis usando el antiguo
porque el nuevo
todavía no lo están liberando.
Entonces,
estamos un poco
a la par,
pero un coming soon
continuo
no tiene sentido
porque coming soon
en el mundo de la IA
es la hora,
¿vale?
Pasa un día
y te pisan,
te adelantan todos
por la derecha.
Entonces,
no tiene mucho sentido
que todo lo estén
posponiendo tanto.
Entiendo
que para Google
es complicado
porque es una empresa
que tiene mucho
que ofrecer,
tiene muchos servicios,
tiene muchos productos
y eso genera
que
quieras aprovechar
la oportunidad
de las frutas bajas,
coger las oportunidades
más cercanas
que la IA generativa
te ofrece
para integrarlo
en todos tus productos.
Entonces,
claro,
luego pasa lo que pasa
que llegamos al evento
y te quieren enseñar
todo de todo
y madre mía
vaya ajetreo
de información.
Eso
en OpenAI
se divide
entre Microsoft
y OpenAI.
La semana que viene
veremos el evento
del Microsoft Build
que se parecerá
un poco más a esto,
quizás un poco
con batinamismo
porque es cierto
que Microsoft
al menos
desde el año pasado
vienen con otro
rollito,
pero va a ser
un poco más esto,
va a ser como más
la parte de producto.
En ese sentido,
claro,
hay OpenAI gana
en que ellos
solo tienen que hablar
de sus actualizaciones
de modelo
y poco más.
Pero
me pasa un poco
como que
he visto muchos productos
y mucho Gemini
y creo que hay cosas
muy interesantes
pero que luego
están tan metidas
en...
Hemos visto,
yo que sé,
el LM,
a ver cómo se llamaba,
el Learn LM,
que es como un modelo
fintuneado
para aprendizaje
que eso lo va a hacer
Gemini.
Luego hemos visto
el Gemini Search,
hemos visto el Gemini Flash,
hemos visto el Gemini Pro,
hemos visto
una herramienta
de notas
que también parecía
muy interesante
donde ahí tienes
eso.
Tienes
el Google Vertex AI
para probar la IA,
pero luego también tienes
el Google Studio AI
para probar la IA.
Tenemos Gemma,
es como
wow,
muchas cosas.
Hemos visto
que si vas a poder
planificar viajes,
que vas a poder
hacer búsquedas,
que vas a poder
hacer tal,
hemos visto
un montón de interfaces
pero si no me lo das
ahora para probarlo,
el anuncio que me has dado
ahora se queda
tan inundado
de tantos otros anuncios
que me has dado ahora
que me voy a olvidar
y como me voy a olvidar
cuando lo saquéis
o hacéis mucho ruido
o no me entero.
Entonces,
eso es el problema
que está teniendo
ahora mismo
Google,
creo.
y creo que tienen
que cambiar un poco
la orientación
de cómo se vende
todo esto
porque la tecnología
es buena.
Gemini
es bueno,
es un modelo
al nivel de GPT-4
con capacidades,
con integraciones,
con cosas chulas.
O sea,
vamos a ver si ha salido
algo nuevo por aquí.
Este es el Gemini
Advance.
Hay cosas chulas,
mirad,
por ejemplo,
integraciones que
no tenemos por ahora
con OpenAI
y GPT-4.
Oye,
¿puedes decirme
cuál es
el último
vídeo
subido
por .docswe?
Bueno,
esto sí porque
también puede buscar
en internet
ChatGPT.
Vamos a la comparación.
Pero en este caso,
bueno,
pues no.
Vale,
no.
Pues mira,
por ejemplo,
aquí acaba de alucinar
y se ha ido un vídeo
de noviembre de 2023.
Nada.
Pues mal.
Vamos a ver,
vamos a la comparación
ya que estamos.
¿Puedes decirme
cuál es
el último
vídeo
de .docswe?
Recordemos,
bueno,
también,
alucinaciones,
alucinaciones por todos lados.
Mal y mal,
mal,
mal.
Esto,
amigos,
es lo que la IA
tiene que solucionar.
Este es el gran problema
de la IA
en 2024.
Y hoy que he estado discutiendo
con Gary Marcus
en Twitter,
esto se lo concedo.
esto a día de hoy
hace que todo lo que hemos visto
no tenga valor.
¿Vale?
Porque si tú me presentas
Gemini o ChatGPT
o lo que sea
que puede cogerte
de tu correo
y hacerte un resumen y tal,
yo tengo que confiar
en que la IA
lo va a hacer bien.
Si vas a hacer una búsqueda
y vas a equivocarte,
mal asunto.
Estaba haciendo esta prueba
porque antes la he probado
y me ha salido bastante guay.
O sea,
me ha salido el último vídeo,
el de BitNets,
pero veo que
no es consistente.
Vamos a hacer otra
de las pruebas que hice
para que veáis
integraciones que tiene esto,
la de Gmail,
que es...
A ver,
un correo que a lo mejor
no sea confidencial.
Vale.
Puedes...
Se ha sumado
algún nuevo Patreon
hoy.
¿Vale?
Al correo a veces
me llegan
emails de
nuevo Patreon.
A ver.
¿Puedes mirar
en mi correo?
Vale.
Vamos a darle.
Pero si deberías
de mirar...
Se debería de poder
mirar en el correo.
A ver.
Vamos a pedirle
puedes mirar
en el correo
si hay
un nuevo Patreon.
¿Vale?
Se conecta
al Google Workspace.
¿Vale?
Y ahí está.
Vale.
Pues nos sale de repente.
Esto sí es información
actualizada de hoy.
Esto está guay.
¿Vale?
Estas cosas son las que digo
tío,
tienen utilidad.
Al menos para mí
es...
Por cierto,
muchas gracias
Ignacio Jauregui
por hacerte Patreon.
Estas son las cosas
que le veo valor.
Estas integraciones
dentro de las aplicaciones.
Había gente que decía
lo de Gemini
ahí en el móvil
analizándote
en YouTube
y analizándote
las transcripciones
y tal.
Para mí eso es súper útil.
Yo
dos o tres veces al día
quizás será por mi trabajo
cada uno encontraron
sus casos de uso
pero por mi trabajo
yo necesito buscar
información en vídeos
y trabajo mucho
cogiendo vídeos de YouTube
me lo llevo a páginas web
donde ahí
te hacen transcripciones
que directamente
lo que cogen
son las captions
los subtítulos
del vídeo de YouTube
y te lo ponen.
Entonces yo ahí hago
control F
busco información
y ya está.
Eso me parece súper útil
que Gemini te lo haga.
Entonces todo ese tipo
de integraciones
son súper bienvenidas
pero
dadmelas ya
las uso ya
y aprendo a usarlo.
Tiene que haber
un proceso de
oye esto es nuevo
pruébalo
testéalo
disfrútalo
no
coming soon
porque coming soon
es que vienen muchas cosas
o sea hay mucho coming soon
y esto
la sensación que hemos tenido
todos en el chat
yo creo que
es útil
pero no te sorprende
porque esto es muy 2023
y estamos en 2024
ok
no sé si me dejo algo más
el Google veo este
el veo veo
que es el nuevo modelo SORA
me gustaría ver
si han publicado algo
no sé si alguien en el chat
tiene información
a ver
a ver
a ver
a ver
vamos a ver
si podemos ver algún ejemplo
del modelo de generación
de vídeo
y aquí hay una cosa
en el evento de ayer
de OpenAI
no se publicaron
o sea
no sé
no salió
el buscador
que supuestamente
iba a salir esta semana
a lo mejor sale ahora
uno de estos días
el Search GPT
pero OpenAI
se va a meter a competir
en este terreno
van a hacer un buscador
y van a hacer integraciones
con aplicaciones
de Workspace
y de tal
porque pueden hacerlo
a través de la API
entonces
va a haber batalla
ahí también
va a ser bastante interesante
dejadme que mire
a ver
un momento
a ver si OpenAI
no ha sacado nada
estoy
vale
y el Project Astra
pues de nuevo
tiene muy buena pinta
tiene muy buena pinta
lo estoy viendo aquí en Twitter
que es el proyecto
de las gafas y tal
llevo años
pidiendo por favor
a Google
que haga unas gafas
porque
fueron los primeros
en iniciar el proyecto
de las Google Glasses
y es un proyecto
que ahora tiene mucho sentido
porque la IAM multimodal
se va a consumir
a través de las gafas
Meta
se ha metido en ese terreno
con Ray-Ban
van a seguir avanzando
parece que Google
también lo está trabajando
y que van a llevar
esta IAM multimodal
pues ahí
bastante
bastante guay
un último repaso
a lo de Evo
y ya me decís
si me dejo algo
por el camino
ah bueno
había una cosa
que quería comentar
que me parece muy graciosa
que también es como
muy Google
y es el tema
de la música
a ver
cómo lo podemos
ver
mirad
Google
está trabajando
en proyectos
de generación musical
pero su
vertiente
es muy diferente
a lo que vosotros
podéis imaginaros
¿por qué?
porque lo que están haciendo
es como una especie
de colaboración
con ciertos autores
con músicos reales
para
entrenar a la IA
con sus voces
y con su estilo
para que vosotros
si hacéis un short
podáis generar música
con estos
autores concretos
¿no?
es como algo
súper respetuoso
pero súper restringido
a
a
a
ese catálogo
de autores
que tengan
entonces claro
la música generativa
es que no va a evolucionar
por ahí
no va a evolucionar
por ahí
sé que hay gente
en la industria
que quiere que sea así
y sé que Google
no quiere
confrontarse
con los artistas
quieren sumarlos
y
y lo digo como Google
como lo hace Microsoft
como lo hacen todas
estas empresas
te venden el paradigma
copilot
la IA no te reemplaza
la IA te acompaña
la IA te lleva de la mano
es tú
tal
que en parte es cierto
pero
hay modelos y modelos
obviamente la IA generativa
va a evolucionar a esto
esto es
Irving Labs
que ahora mismo
supera audio
en generación musical
son demos
coming soon
pero esto es lo que la IA
puede generar
esto es lo que yo espero
de un modelo generativo
de audio
punto
We were having fun
Programming young
Dreaming that one day
We'd make it work
Lines of code
We'd write all night
Hoping that one day
We'd get it right
Can we teach the machine
to sing
Can we teach the machine
to dream
And then
Ooh
It started to sing
No, this can't be real
It's just a machine
But the melody
Ooh
It's all too real
Entonces
creo que esto resume muy bien
a lo que me refiero con todo
es como
no quiero
encorsetar a la IA
a las interfaces
y herramientas
del presente
sino quiero herramientas
del futuro
¿no?
y quizás eso es lo que estamos
la confrontación de mundos
que estamos viendo
yo no quiero
buscar
buscar
en Google Search
lo del tocadisco
esto lo he dicho antes
el Google Search
o sea
yo no quiero
que si tengo un problema
grabo
y eso directamente
me lleva a Google Search
donde yo tengo que estar
como leyendo
lo que ciertos blogs
han dicho
de cómo se resuelve
es como
eso es un conocimiento
general
que la IA
debería de saber
porque es un conocimiento
que no
no es caduco
no desaparece
entonces
eso puede estar ya
integrado dentro del modelo
y eso te lo puede decir
el modelo directamente
a ti
con una interfaz más natural
entonces
tiene más sentido
el paradigma
de lo de ayer
que dices tú
contra
es que yo se lo enseñó
a el GPT4O
y le digo
tengo este problema
y te va a decir
tienes este problema
con el tocadisco
mueve el contrapeso
y verás
cómo suena la música
a disfrutar
colega
entonces
eso va a ser
lo que haga el modelo
eso es
futurista
lo otro es
intentar
salvar
la estructura
que tenemos creada ahora
e integrarla
ahí a ahí
entonces creo que
esta es la diferencia
y es un poco
lo que
a lo mejor
la sensación
que hemos tenido
todos
con algunas
de las cosas
que hemos visto
cosas futuristas
lo de las gafas
compramos todos
estamos súper ahí
pero el resto
el resto
creo que
esa es la sensación
que nos deja
aun cuando
a lo mejor
eso son
porque todavía
nos falta probar
toda esta tecnología
futurista y nueva
a ver si funciona
pero
a lo mejor
lo que nos está presentando
es lo que mejor
va a funcionar
y lo que la mayoría
de la gente utilizará
porque la gran mayoría
de la gente
no son unos frikis
como nosotros
sino que lo que
la mayoría de la gente
quiere es que su gmail
le haga resumen
de los correos
puede ser
y puede ser
la estrategia correcta
pero es para que
entendamos un poco
la sensación
que tenemos
ya que he enseñado esto
os enseño otro
ejemplillo más
porque
bastante flipante
lo que han hecho
esta gente
había un rap
bueno música
que pasada
vaya mundo
vaya mundo
nos movemos
chicos
chicas
nada
creo que no me dejo
nada
porque no estoy
viendo
en
la web de
google
no sé si alguien
lo ha encontrado
el proyecto
de
estoy mirando
a ver
novedades que han puesto
por aquí
mira ahora tenemos
toda la familia
de modelos
ultra pro
flash
y nano
tenemos dos modelos
en la 1.5
y el ultra
y el nano
en la 1.0
sinceramente
esperaba ver
un modelo 1.5
me puedo creer
que a lo mejor
tuvieran un
gpt4 ultra
1.0
perdón
gpt4 ultra
un gemini
ultra 1.5
y que a lo mejor
no fuera mejor
que gpt4o
y que no lo hayan sacado
podría ser
esto ha estado muy bien
esta demo ha estado muy bien
mola mola
mola
y el ejemplo
que me ha gustado
es
el de la gafa
aquí
¿qué puedo agregar
aquí
para hacer
este sistema
más rápido?
pide piper
añadir una cacha
entre el server
y el database
podría mejorar
la velocidad
¿qué te recuerda
de esto?
schrodinger's cat
ok
dame un nombre
de band
para este
duos
golden stripes
y lo de la gafa
cuando era
a ver
ahí aquí
en este momento
a ver cuánto tiempo pasa
de que muestra
la gafa
bajada
aquí
ahí
hasta hace un poquito
el gesto
para que se vea
para que vea
la
como hace
para que tal
bastante bien
bastante bien
esto me ha gustado
contexto grande
bla bla bla
air research
google deep mind
donde está
evo
evo no veo
no veo
veo
vale
technology veo
vale
lo tenemos
sign up
to try
video effects
esto que es una nueva
vale
vale
dejadme que
veamos
si lo puedo probar
vale
hasta aquí
nuestras aventuras
chicos
no está disponible
fuera de
estados unidos
pues nada
vamos a ver si hay ejemplos
en la web
modelos
videos de 1080
resolución
veamos la calidad
la calidad
es
la calidad es buena
aquí va a decir que es un poquito peor que eso
al menos este
o sea se le nota como un granulado
un poco
más extraño
pero
pero no está mal
vale
bastante guay
es como más
plano
si es cierto
que es más plano
es como un poco
lo que pasa entre
yo que sé
mid journey
o
firefly
que firefly parece un poquito
más
más plano
vale
aquí hay como mucho
artefacto
está un poco por debajo
bueno un poco
está por debajo
de Zora
este me ha parecido
bastante bien
bueno
espérate
es que hay ejemplos
y ejemplos
pasa mucho
y esto también le pasa un poco
a Zora
lo de
las sticky textures
que se llaman
creo que era
que es que
se nota un granulado
fijo
en términos absolutos
en la imagen
cuando se va moviendo
aquí como un granulado
que
que se mantiene
como fijado
en términos absolutos
en la imagen
¿lo veis?
esto es algo que pasaba
también con la Gans
es curioso
que esto no esté
como resuelto
bastante guay
vale
a ver
bastante guay
vale
el mismo vídeo
pero con canoas
aquí la calidad
es más mala
no
a ver
no es hora
en calidad
no es hora
esto es una imagen
y esta es la imagen
hecha real
bueno
no es hora

a ver
es impresionante
tener una imagen
y que de repente
cobre vida
es bastante
bastante guapo
vamos a ver
vamos a ponerlo así
está por detrás
en calidad
es como
se ve como un poco
más sucia
la imagen
y con más artefactos
pero es un paso
hacia adelante
para ellos
pero no es hora
si
esta es la que
viendo el vídeo
antes
me ha parecido
de calidad
un poco
raruna
si queremos
compararlo
podemos compararlo
nos vamos a la web
de OpenAI
Zora
Zora
First Impressions
si nos venimos
para acá
justo en el
Technical Report
no
este es el
First Impressions
no
Creating Video
Technical Report
justo en el del coche
justo en el del coche
tenemos ejemplos
o sea Zora
se ve con más calidad
si si
o sea
definitivamente
se ve con más
bueno
si si
más fluido
temporalmente
y más calidad
es que no
es que no
no hay otra
si
pero justo el ejemplo
que estoy buscando
es
este no
el del coche
para hacer una comparación
similar
a ver
a Play
veis la calidad
de esto
aunque aquí se ve
más pequeñito
pero
voy a hacerlo más
con más zoom
a ver
perdonadme
pero para que lo veáis
en grande
la calidad
de estos vídeos
este de aquí
sobre todo
o sea
este vídeo
reconvertido a esto
no se compara
con esto
o sea
que ahora
visto así
ahora tela
esta si se veía
luego mejor
es curioso
por zonas
este se ve
muy difuso
y este vídeo
si se ve mejor
pero no se ve
a la calidad
vale
no se ve
con esa
con esa calidad
no sé si
si estamos
en la calidad
que tal
o sea
quiero decir
en fin
bueno
pues esto
es un poco
el resumen
de lo que hemos visto
es interesante
este ejemplo
es bastante bueno
hay ejemplos
pero tiene mucho
mucha textura
fija
veis
o sea
pasa mucho
lo de la textura
en las patas
y sé que hay vídeos
de los de Sora
que también lo tienen
un poco
pero no es
tanto
y un ejemplo
muy claro
de esto
es el de la chica
el que todos
hemos visto
este
este vídeo
cuando lo adelantamos
hasta un punto
cuando vemos
la cara
de la chica
de cerca
aquí no hay
textura fijada
o sea
las cejas
es que es impresionante
maldita sea
esta gente
está loca
o sea
todos los píxeles
se mueven
como tienen que moverse
no sé
no hay un tema
de fijado
de textura
como si sucede
en el
vídeo de aquí
vale
fijaos
en las patas
del elefante
vale
pero bueno
mola que haya gente
que esté moviéndose
en esto
porque ciertamente
en generación de vídeos
que la bofetada
fue tan bestia
que madre mía
chicos chicas
hasta aquí el directo
de hoy
luego ya
pues nos queda
reunirnos de nuevo
la semana que viene
para otro directo
el Microsoft Build
y así cerramos un poco
este ciclo
de ponencias
en mayo
tendremos luego
también el evento
de Apple
en junio
que creo que puede ser
interesante
puede que haya más novedades
de OpenAI
este mes
puede que haya novedades
el mes de junio
estaremos atentos
si nos dan acceso
al Google
al Google
no
madre mía
se mezclan los nombres
al GPT4O
estaremos atentos
a ver si tenemos acceso
en algún punto
me está gustando
esto de los directos
lo voy a retomar
yo creo
ahora que tengo
el setup
más de streamer
creo que voy a estar
haciendo
de cuando en cuando
directos en Twitch
y resubiendo
probando herramientas
y hablando de cosas
y de actualidad
y resubiéndolo
al canal del laboratorio
que lo tengo un poco parado
pero porque quiero
buscarle en caja
este formato
y poco más
tenéis vídeos
para ver en el canal
tenéis el vídeo
de las bitnets
tenéis el vídeo
de los modelos del mundo
tenéis vídeos
súper chulos
y chicos chicas
muchas gracias
por confiar
en .docsv
para contaros
la actualidad
de la IA
y seguimos
con la revolución
de la inteligencia artificial
en próximos vídeos
y próximos directos
un besito a todos
y adiós
ahí
caminsú
me voy
a cerrar
directo
chao
y