This graph shows how many times the word ______ has been mentioned throughout the history of the program.
Google ha despertado
Bueno, bueno, bueno
Vaya salto de la silla
He pegado cuando me he metido a Twitter
Y he visto lo que estáis viendo en pantalla
Google, repito, Google
Google DeepMind
Por fin ha despertado
Por fin ha despertado después del golpe de efecto
Que OpenAI le dio hace ya un año
Con su nuevo sistema Gemini
¿Vale?
Hola, ¿qué tal?
Saludo
Estoy muy nervioso
Os tengo que decir
Vamos a estar viendo en directo
Toda la reacción de lo que es Gemini
Vamos a estar analizándolo
Vamos a estar intentando traer un poco de luz
Sobre todo esto
Que nos ha llegado así de sorpresa
Pero no he visto nada
O sea, me he reservado para vosotros
Para hacer en directo esta reacción
Solo he visto esta imagen
Todo lo demás es desconocido para mí
Y como digo, estoy muy nervioso
Porque llevo mucho tiempo esperando esto
Desde que hicimos el vídeo en septiembre
Donde ya anunciaba
Que el futuro de la inteligencia artificial
Iba a pasar por sistemas como Gemini
Donde hacía una apuesta
Sobre lo que yo pensaba que iba a ser Gemini
Bueno, pues han pasado ya tres meses
Pensamos que iba a salir antes
Pensamos que iba a salir más tarde
Se había filtrado que Google estaba posponiendo
La salida de Gemini para principios de 2024
Lo cual demuestra lo competitiva
Que está la esfera tecnológica
En el mundo de la inteligencia artificial
Donde se juegan con estas desinformaciones
Se juegan con estos engaños
Para de repente pillar a la competencia
Con el pie cambiado
Y poder entrar con todo
Creo que Google ha hecho una decisión correcta
Ya se les estaba escapando el tren
Y si querían llegar y dar un golpe sobre la mesa
Tenían que presentar algo que fuera potente
Hemos visto que Google tenía el sistema BART
A lo largo de todo este año
Pero que es un sistema que no llega
Al nivel de Google
Perdón, de ChatGPT
Y entonces estamos esperando algo más
Un modelo de Next
De la siguiente generación
Esto es nuestro trailer del GTA VI
Y lo vamos a disfrutar todos aquí en familia
Juntito
Se me escucha bien
Se ve todo bien
Esto es lo primero
Lo más importante
Un poco de contexto
Gemini es
El modelo con el que Google
DeepMind
Recordemos
La unión
La fusión de los laboratorios
De inteligencia artificial
De Google
Google Brain
Junto a DeepMind
Pues han preparado
Para plantar cara
Ahora sí
A lo que sería
El modelo más potente
De inteligencia artificial
Que tenemos ahora
Disponibles
Que es GPT-4
Lo poco que he podido ver aquí
En los comentarios del chat
Parece ser que Gemini
Sí se sitúa por encima
De GPT-4
Y eso es
Muy buenas noticias
Aquí lo que nos interesa ver es
Si esta
Next Gen
Esta siguiente generación
Viene porque el modelo
Es más potente
Y ya está
O si el modelo es más potente
Porque integra dentro de él
Ciertas mejoras
Y ciertas tecnologías
De las cuales se han hablado mucho
Las últimas semanas
Como es esta fusión
De los enormes modelos
Del lenguaje
Con sistemas de búsqueda
Basadas en Reinforcement Learning
O cosas similares
A los sistemas
Alpha
Go
Alpha Zero
Que DeepMine
Ha ido trabajando
A lo largo de la década pasada
Esto puede ser un bombazo
Y lo primero que vamos a hacer
Evidentemente
Es consumirnos
Vamos a comernos
La noticia
Porque te digo
No la he visto
¿Vale?
Entonces quiero que
Entre todos
Disfrutemos este momento
Esta reacción en directo
He puesto hasta
La portada del vídeo
Con la cara
Que he aprendido
De las reacciones
Del GTA 6
Del resto de youtubers
Con la cara esta
De sorpresa exagerada
Pero vamos a verlo
¿Vale?
Yo me he metido de repente
En Twitter
He visto que está
Todo el mundo hablando
De Gemini
Y para esto
Vamos a saltarnos
Directamente
Bueno, aquí hay gente
Reaccionándome
Cosas
Oriol Viñals
Hostia Oriol
Un día tendrías que
Venirte aquí al canal
Y hablamos
Oriol investigador
Gran investigador
Potente de DeepMind
Y también
Español
Estaría muy guay
Entonces vamos a situarnos
En la página web
De DeepMind
¿Vale?
Estamos aquí
Y vamos a ver
Vamos a ver
Vamos a ver
Que tenemos por aquí
Vamos a ver si Google
No defrauda
Que a veces con Google
Me asusta
Pero yo creo que
Si lo han sacado ahora
Es porque han visto
Que ya estaba la cosa
Lo suficientemente madura
Bueno, os presento
Lo que iba a ser el vídeo
De la próxima semana
Lo aparcamos
No pasa nada
Vamos a entrar aquí
Vamos a explorar más
Uf, uf
Estoy muy nervioso
Estoy muy nervioso
Bienvenidos a la
A la era Gemini
¿Vale?
Gemini tenemos que pensarlo
Como un nuevo cerebro artificial
Tipo GPT-4
¿Vale?
Es un nuevo modelo
De inteligencia artificial
No hablo de
Modelo de lenguaje
Porque entiendo
Que esto va más allá
Es un sistema multimodal
Seguramente
Vision Language Model
LLLM
Bueno, todo esto
Nos vamos a ir viendo
Que tenemos por aquí
Bienvenidos a la era Gemini
Gemini
Está construido
Desde cero
Para ser multimodal
Justo lo que estamos comentando
Tiene capacidad de razonamiento
A través del texto
Imágenes
Video
Audio
Y código
¿Vale?
Quizás las cinco modalidades
Más importantes
Que se nos pueden ocurrir
Texto
Imágenes
Video
Audio
Y código
Si esto lo comparamos
Con GPT-4
Quizás la única modalidad
Que no está contenida
En GPT-4
Es la de video
¿Vale?
Poder analizar
La temporalidad
De una secuencia
De imágenes
Solo se puede hacer
Trucando un poco
El sistema de visión
Como vimos en el video
De visión
Pero no sería
No sería el caso
¿Vale?
Entonces bueno
La era Gemini
Y esto es una cosa
Muy importante
Que también vamos a comentar
Y que es muy chulo de ver
Buah, buah
Hay un montón de videos
Chavales
Buah, buah
Me quedo solísimo
Esta tarde
Mola mucho
Esto que estamos viendo
Porque es la primera vez
Que estamos viendo
Un producto
Por así decirlo
Un trabajo
De investigación
Donde se combina
A los dos laboratorios
¿No?
La unión de Google Brain
Con DeepMind
Entonces
Mola mucho
Ver a Sundae
Pichar
CEO de Google
Criticado
CEO de Google
Por su inmovilismo
Durante todo este año
Pero bueno
Yo creo que viene ahora
A redimirse
Y a pedir perdón
Públicamente
Pero mola verlo
Dentro de este
Dentro de este trabajo
Que no deja de ser
También de DeepMind
Bueno, me callo
Vamos a ver esto
Me decís si se
Si se
Si se ve bien
Y si se escucha bien
Porque quiero que lo disfrutéis
Junto a mí
Yo voy a revisar
Que esté todo bien
Al ataque
Una de las razones
Por que nos estamos interesados
En AI
Desde el muy principio
Es que
Siempre vemos
Nosotros vemos
Como una misión
Como una misión
Es organizar
La información
Y hacerla
Universo
Y accesible
Y útil
Pero
Como la información
Ha crecido
En escala
Y complejidad
El problema
Ha crecido
Vale
Nada
Bueno
Ha salido diciendo
Que la misión
Corporativa de Google
Pues es la que es
Que
Se ve todo bien
Se oye bien
Vale, perfecto
Que la misión
Corporativa de Google
Siempre ha sido
Organizar y estructurar
La información
Dentro de internet
Cosa que sabemos
Y ahora
El que estamos
Escuchando es
A Demis Hassabis
CEO de DeepMind
Mi papa
Vale
Nada, bueno
Que lo mismo
Que tenemos
Diferentes modalidades
A través de las que nos gusta
Informarnos
Y que tienen que
Estructurar todo esto
Vale
Y que este es el primer paso
Que están dando
Hacia un modelo
De inteligencia artificial
Verdaderamente universal
Me estáis pidiendo
Que lo ponga
Con la traducción
Vamos a intentarlo
A ver si podemos
Vamos a ponerlo
En autotranslate
En español
Pero hubiera estado bien
Google
Ya que estáis preparando
La salida
De este modelo
Tan potente
Y que queréis
Estructurar la información
Que me traigáis
Con los subtítulos
En el idioma
Que tal
Vale
Vamos a verlo entero
Y ahora reaccionamos
A todo lo que haya
Vale
Jeff Dean
También otro de los
Importantes
Dentro de Google
Y estas son
Capabilidades
Que no han realmente
Existido
En computadores
Antes
Tradicional
Multimodales
Madre mía
Están todos aquí
Vale
Importantísimo
Vale
Vale
Vamos a empezar
A comentar cositas
A ver
Es que no lo sabemos
Porque bueno
También esas otras
Habrán sacado
Paper
Madre mía
Madre mía
La de caminos
Que se nos abren
Lo que están comentando
Aquí
Que tradicionalmente
La multimodalidad
Y esto lo hemos comentado
En algunos directos
Hablando de multimodalidad
Se suele conseguir
Cogiendo diferentes
Modelos entrenados
Para modelo de texto
Modelo de lenguaje
Modelo de visión
Los combinas
A lo mejor te montas
Un adaptador
Y lo entrenas
Para que los modelos
Congelados puedan interactuar
O se buscan
Diferentes estrategias
De OpenAI
El modelo GPT-4V
No lo tenemos claro
No sabemos si es un modelo
Que han conectado
Dos cabezas diferentes
En una
Y por eso funciona así
O que es lo que han hecho
O si lo han entrenado
Desde cero
Para ser multimodal
No se sabe
Porque no hay paper
Amigos de tal
Pero en este caso
Lo que nos van a decir aquí
Es que esto
Lo han hecho diferente
Que es multimodal
Desde cero
¿Vale?
Que es un modelo
Entrenado para ser multimodal
Y de aquí pueden salir
Cosas bastante
Interesantes y curiosas
Ottima
es un moda
En una etapa secundaria
Gemini
Es el multimodal
Y de arriba
Si también puede
Poder haber
Conversación
En عud gerne
Los modales
Y poderier
Te darás la mejor
videos
Ojo
Ojo
Gemini
Es el modelo más potente
Que han entrenado
Preciosa las animaciones, por cierto
A ver, a ver, a ver, a ver
No me pongas texto y me lo quitas tan rápido
A ver qué dice
O sea, estaban diciendo que
Según estaban terminando el entrenamiento
Estaban comprobando que Gemini era
Mucho mejor que modelos State of the Art
Los modelos más avanzados
Entiendo que se refieren a GPT-4
No van a hacer mención como tal, creo
Ah, bueno, sí, aquí lo pone
Vale
Five Shot, Reported
Vale, no te dice exactamente
Sobre qué métrica lo están haciendo
Pero bueno, en alguna de las que han utilizado
Five Shot y comparándolo con GPT-4
Pues dicen que es mejor
Out there on these very, very important benchmarks
For example, each of the 50 different sub...
Hostia, Gemini Ultra
Ok, vale
Object areas that we tested on
It's as good as the best expert humans in those areas
It's very rare that you can work on technology
At a foundational level
And it simultaneously can impact all our products
We created a family of models
That can run on everything
From mobile devices to data centers
Each of which is actually best in class
Gemini will be available in three sizes
Gemini Ultra
Our most capable and largest model
For highly complex tasks
Tres modelos, tres tamaños
Gemini Pro
Our best performing model
For a broad range of tasks
Vale
And Gemini Nano
Our most efficient model
For on-demand
Vale, pues podemos pensar
Que esto es la versión Ultra
Es la versión más potente
Es el...
La bestia parda
Que competirá
A nivel de números
Contra GPT-4
Luego esta será la versión Turbo
De GPT-4
Podemos pensarla como tal
Una versión seguramente destilada
A lo mejor con menos parámetros
Eh...
Que está pensada seguramente
Para dar soporte a la mayoría
De aplicaciones de Google
Que ahora se van a empezar a integrar
Con todo esto
Y luego el sistema Nano
Seguramente estará destinado para móvil
¿Vale?
Porque pensemos que Android
Y de hecho yo tengo aquí
Mi...
Voy a hacer publicidad casi parece
Pero tengo el Google Pixel 8
Que presentaron
Donde ellos comentaban
Que va a tener soporte a futuro
Para la inteligencia artificial
Y seguramente este modelo
Está perfectamente diseñado
Para meterlo en el móvil
Y funcionar incluso
Eh...
A modo Edge
¿No?
O sea sin tener que
Depender de la conexión a internet
Ni nada
Sino para poder meter el modelo
Directamente dentro del móvil
Device has
We want to provide
The best foundation
Or building blocks
And then we know
Developers
And enterprise customers
Are going to
Figure out really creative ways
To further refine
Our Gemini
Foundational models
And the potential
Is almost limitless
So at Google
There's this healthy disregard
For the impossible
And that has oriented us
To be both bold
And responsible
Together
Estoy muy nervioso
As these systems become more capable
All of those capabilities
Also raise new questions
We have to think about
What it means to have an image
Be a part of for example
The input
Because an image
Might be
Innocuous on its own
Or text might be
Innocuous on its own
But the combination
Could be offensive or hurtful
Safety and responsibility
Has to be built in from the beginning
Aquí están hablando
De un aspecto
Muy importante
Y es el motivo
Por el que Google
También ha tardado tanto
El motivo al menos público
Y es el tema
De la seguridad
De los modelos
Y todo lo que
Con ello conlleva
Y han comentado
Una cosa súper interesante
Que ya lo hablamos
En el vídeo
De GPT4V
Y es el tema
De lo difícil
Que se vuelve
El aspecto
De evaluar
La seguridad
De estos modelos
Cuando empiezas
A añadir
Diferentes multimodalidades
Porque
Va creciendo
Exponencialmente
La combinatoria
De modalidades
Que tú puedes añadir
A un modelo
De este tipo
Te amplía
El número
De riesgos
Que tiene
Un texto
A lo mejor
Es inocuo
Una imagen
A lo mejor
Es inocua
Pero la juntas
Y te sale
Un meme racista
Y entonces
La has liado
Porque a lo mejor
Eso no lo has evaluado
Es un poco
Lo que comentan aquí
Google DeepMind
That's what we've done
With Gemini
We develop
Proactive policies
And adapt those
To the unique
Considerations
Of multimodal
Capabilities
We then do
Rigorous testing
Against those policies
To prevent the harms
That we've identified
With approaches
Like classifiers
And filters
If I were to look
At the foundational
Breakthroughs in AI
Over the past decade
Google has been
At the forefront
Of many of those
Breakthroughs
And I think Gemini
Continues that rich
Tradition
It's been an enormous
Sort of monumental
Engineering task
Which has been
Very challenging
But also very exciting
I have been at Google
For quite a while
And the reason I'm here
Is really I believe
In the company's mission
And I think Gemini
Is a great step
In that overall mission
We end up
With a world
That has more knowledge
And that people
Have more access
To information
That otherwise
Would not be available
To them
That's what excites me
The chance
To make AI
Helpful
For everyone
Everywhere in the world
Vámonos
Estoy tenso
Como una cometa
Estoy tenso
Porque he leído
Un comentario
Por el chat
Que decía
Que decía
No, no
El modelo Pro
Ya compite
Con GPT-4
El modelo Ultra
Le da un repaso
Y me habéis puesto
Muy nervioso con eso
Porque ahora quiero ver
Que ha pasado por aquí
Vamos para allá
Vamos a ver
Que tenemos con Gemini
¿Vale?
Recordemos que estamos
Hablando de
Un pequeño paso
Para el hombre
Y un gran paso
Para la inteligencia artificial
Posiblemente estemos
Ante el anuncio
Del año
Y que va a tener
Ecos y olas
De cara al futuro
Y vamos a ver
Por qué
¿Vale?
Dice
Os presentamos
Conoce la primera versión
De Gemini
Nuestro modelo
De inteligencia artificial
Más capaz
Entonces
Aquí ya
Empezamos a ver métricas
Y estas son las métricas
Con las que se presentó
GPT-4
Recordemos que ahora mismo
Una de las grandes problemáticas
Que tienen estos enormes
Modelos de inteligencia artificial
Es que los benchmarks
Que se habían diseñado
Durante la última década
Para poder evaluar
Su rendimiento
Pues ya no nos sirven
Casi
Por así decirlo
Es decir
Se han vuelto
Sencillos
De cara a lo que estos modelos
Son capaces de hacer
Y ahora muchos
De estos modelos
Se evalúan con
Exámenes
Con test
Reales
Que nosotros los humanos
También enfrentamos
¿Significa eso que estos modelos
Compitan como nosotros
Cara a cara?
No
Somos sistemas diferentes
Ellos tienen memoria
Tienen capacidad de cómputo
Muy diferente a la nuestra
Pero sirven
Para poder comparar
Entre modelos
Y es bastante interesante
Entonces
Ya con esto
Lo que estamos viendo aquí
Es
Aquí está
¿No?
Pues muchas de las
De los diferentes benchmarks
Voy a ampliaroslo
Para que lo veáis un poco
Hola
Me he cargado la página
No
Gemini
¿Qué has hecho?
A ver
Le voy a dar a recargar
Un momentito
Ahí está
Vale
Creo que no lo puedo ampliar
Ah sí
Ahora sí
Vale
Estos son como muchos
De los benchmarks
De test y tal
Que presentó también
OpenAI en su momento
Y fijaos aquí
Que están comparando
Con un GPT-4V
Y vemos como
En este caso
Capacidad general
Pues vemos que
Aplicando
Claro
Aquí también
Esta es otra cosa interesante
Vale
Y esto también
Vamos a comentarlo
Bueno
De partida
Vemos que aquí
Este modelo
Sobre este benchmark
Pues consigue un 86.4
Y aquí consigue Gemini Ultra
Un 90%
En técnicas de
O sea
En capacidad de razonamiento
Pues también un poquito
Por encima
También por encima
Frente a GPT-4
Common sense
Reasoning
For everyday tasks
En este caso
Fijaos que todavía
Es el único benchmark
Y lo han puesto a bien
Lo cual me parece correcto
Donde GPT-4
Si tiene más
Bastante más
De hecho
87
Frente a
95.3
En habilidades matemáticas
Pues vemos que
92
Frente a 94.4
En el dataset
De matemáticas
53.2
Frente a 52.9
Programación
HumanEval
Que son
Pruebas de programación
De código
En Python
Vemos que mejora
Bastante
Vale
Vemos que mejora
Bastante
Esto si es un saltito
Guapo
67
74
O sea
Aquí son puntos
Porcentuales
Pero pensad que esto
Representa
Internamente
Representa muchas cosas
Vale
Y Natural To Code
Pues lo mismo
Vale
Entonces lo que estoy viendo aquí
Son si
El modelo es
En números mejor que GPT-4
Eso está claro
Gemini
Ultra
Se ve más fuerte que GPT-4V
Que es la versión más potente
No son números meteóricos
Pero son números superiores
Eso es evidente
Ahora una cosa a tener en cuenta
Es lo que nos ponen aquí abajo
Vale
Fijaos
Que nos dicen
90%
COT
At
32
86,4
5-shot
Reported
Esto que es
Estas son las técnicas
De prompting
Que han utilizado
Para evaluar los sistemas
Por ejemplo
GPT-4V aquí
Usa un 86,4%
5-shot
Vale
Que esto sería
Pues poniendo
5 ejemplos
A la prueba
Que se le está evaluando
5 ejemplos
Si tú en vez de poner
5-shot
Le pones
10
Pues a lo mejor
El modelo funcionará
Tendrá más capacidad
Esto es lo que reportó
OpenAI
Y claro
Google no tiene acceso
Al modelo GPT-4V
Como tal
Bueno a través de la API
Podrían haber hecho evaluaciones
Pero bueno
Y aquí
Lo que nos dicen es
The chain of thought
A 32
Vale
Entonces
Que no son comparaciones
Exactas
Exactas
Y habrá que mirar el paper
Pero es importante
Tener en cuenta
Yo entiendo que habrán intentado
Equilibrarlo lo máximo posible
Para que los números
No mientan
Pero bueno
Estos son números
Sobre la mesa
Vamos a ver
Que más tenemos por aquí
Gemini
Surpass
State of the art
Performance
On all multimodal tasks
Es decir
Que Gemini
A nivel de habilidades multimodales
Supera a cualquier modelo
Presente ahora
Y en este caso
Pues obviamente
Se comparan con GPT-4V
Lo mismo
Números más altos
Números más altos
Estos ya son
Ejemplos de
Benchmarks
Multimodales
Vale
Donde se están evaluando
Sobre tareas
Donde no solo se está teniendo en cuenta
El texto
Sino texto e imágenes
O texto y vídeo
O solo imágenes
O solo vídeo
Entonces vemos que
Aquí pues los números de nuevo
Dan una clara victoria
Todo lo que está en azul
Significa que
Gemini Ultra
Pues está
Está mejor
Tanto en vídeo
Fijaos como en vídeo
Sí
En vídeo vemos unas diferencias más claras
Y también en audio
Claro que en audio
En este caso
Claro
Antes os he mentido
Entre comillas
Cuando os he dicho
Que solamente
Es vídeo
Lo que
Lo que diferenciaría
GPT-4 y tal
Pero no
Porque realmente
Whisper
Es un modelo
Diferente
Es decir
GPT-4
Tiene acceso
Al audio
Pero solo tiene acceso
A transcribir el audio
A texto
Y esto luego
Solo come GPT-4
Entonces también
El audio
Es una modalidad
Que no estaba incluida
En GPT-4V
Y que sin embargo
Gemini lo tiene
Por defecto
Al parecer
Y en este caso
De nuevo
También
Wow
A nivel de transcripción
De audio
Ojito
Que cae bastante
O sea
Cae bastante
Y es positivo
Que caiga
Comparado con Whisper V3
Que esta fue
La versión del modelo
Que sacaron
En el último
En el último evento
De OpenAI
Antes de que fuera
Todo el caos
Vale
Tenemos un
Technical Report
Solo lo voy a abrir
Por curiosidad
60 páginas
60 páginas
Lo voy a mirar rápido
Aquí hay un montón
De ejemplos
Que ahora vamos a echar
Un vistacillo
Que esto nos va a gustar
Esto no
Estas cosas
No cuestan
A todos nosotros
Vale
O sea
Lo que quiero mirar
Rápidamente
Es si nos hablan
Vale
Aquí tenemos las evals
Que estamos mirando ahora
Vale
Los diferentes modelos
Y evaluaciones de
Va a ser todo
Evaluaciones
Vale
Es lo que me temía
Quería ver si había algo
Uh
Que guapo
Uh
Que guapo esto
Espérate
Uh
Esto
Esto está guapo
Esto GPT4
No te lo hacía
Esto GPT4
No te lo hacía
Lo de darle una gráfica
Y decirle
Dame el código
Que genera estas gráficas
Esto GPT4
Lo hacía bastante mal
El GPT4V
Me acuerdo porque
Miramos el report
Si recordáis
Tenemos el vídeo en el canal
Nada
Simplemente
Quería echar un vistazo
A ver si aquí hablaban
Algo de arquitectura
Del modelo y tal
Pero obviamente
Se van a callar
Como gente mala
Que son
Gente cerrada
Que ya no
Ya no comparten nada
Pero bueno
Tenemos un report
Muy interesante
Que analizaré en profundidad
Con calma
Más adelante
Ahora veremos los ejemplos
Que ya nos muestran
Pero de ahí puede salir
Un vídeo bastante chulo
Igual que hicimos
Con el GPT4V
Evaluándolo
Pues vamos a hacer uno
Con el Gemini Ultra
Para evaluar sus capacidades
Que conozcáis bien
Que conozcáis bien
Sobre esto
Pero vamos a ver un poco
Que nos ofrece
Vamos a ver
Que nos ofrece aquí
Nuestro amigo Gemini
Gemini Ultra
Nuestro modelo más capaz
Dedicado para tareas
Altamente complejas
El modo Pro
Nuestro modelo
Que funciona bien
A través de muchas tareas
Y luego el más eficiente
Para On Device
Lo que estábamos hablando antes
Para móvil
Seguramente este modelo
Hará de las delicias
De todos
Entonces
Anything to anything
Vamos a ver el tema
De la multimodalidad
Estamos hablando
O sea
Quiero que entendamos
La relevancia
De lo que estamos viviendo
Estamos viendo
El que sería
Hoy
El modelo de inteligencia
Artificial
Más potente
Jamás creado
Punto
¿Vale?
Sobre los números
Si supera GPT4V
Es el modelo más potente
Pero además es más potente
Por esto ¿No?
Por la multimodalidad
Entonces vamos a ver
Que nos puede ofrecer
Gemini
Es nativamente multimodal
Lo cual le da su
Le da el potencial
De transformar
Cualquier tipo de input
En cualquier tipo
De output
Ojito
Gemini puede generar
Código basado
En diferentes inputs
Que tú le des
Gemini puede generar
Texto e imágenes
Combinadas
¿Vale?
¿Vale?
A ver si puedo
Reproducir yo esto solo
¿Cómo va esto?
Ah vale
Es un slider
Vale
Pues esto ¿No?
Estamos viendo
Gemini puede generar
Código basado
En diferentes inputs
Entonces le digo
Como input
Wow
Wow
Wow
Vale
No me había pispado
Que lo de la derecha
Era una simulación
¿Puede Gemini
Hacerme una demo
Basada en este vídeo?
Vale
Le pasamos un vídeo
Como input
Esto no te lo hace
GPT-4
Le pasas un vídeo
De
Una bandada de pájaros
Volando
Haciendo estas formas
Que nunca me acuerdo
Como se le llama
Cuando hacen este efecto
Y a la derecha
Te entiende el vídeo
Perfectamente
Y te genera un código
Donde se ve la simulación
Como si fueran
En dos dimensiones
En este caso
De los pájaros volando
¿Vale?
Bastante bastante guapo
Luego
El siguiente ejemplo
Gemini puede generar
Texto e imágenes
Combinadas
¿Vale?
¿Vale?
Claro
También tiene generación
De imágenes
Vamos a
Eso también
No estaba cayendo
¿Vale?
Fijaos
Le pasamos una foto
En la que le decimos
Oye
Tengo este ovillo rosa
De lana
Tengo este ovillo
Azul de lana
Podría darme ideas
De lo que puedo hacer
Y entonces te genera
¿Qué te parece hacer
Un octopus
Azul y
Con tentáculos rosas?
¿Vale?
Con tentáculos azules y rosas
Y te genera la imagen
Abajo tenemos más ejemplos
Que no se están viendo
Pero
Te lo genera
Esto es bestia también
Esto es un poco
Lo que el combo
Con Dali 3
Nos ofrecía
Con esto creo que
Estamos entendiendo un poco
Por qué OpenAI
Se dio tanta prisa
De sacar GPT-4V
Dali 3
Combinarlo todo
En chat GPT
Y tal
Ojito
Que Google
Se mete en la carrera
Entonces
¿Qué tenemos aquí?
Gemini puede razonar visualmente
A través de
Lenguajes
¿Puede Gemini
Explicarme
Qué significa esto?
¿Vale?
Y entonces le saca
Una foto
Con el móvil
Y dice
Andante gracioso
Y entonces te da la respuesta
Con texto
Sin problema
¿Vale?
Esto te lo hace
GPT-4V también
Y bastante guay
Lo chulo sería
Claro
Aquí dicen
Anything to anything
Me pregunto
¿Puede generar audio?
O sea
¿Puede el modelo decirle
Oye
Según esta foto
Générame
Una melodía
Y que te interpreta la partitura
Yo digo que
Me parecería bastante loco
Pero bueno
Yo confío
¿Vale?
Y estos ejemplos
Se vuelven a repetir
Hand-ons with Gemini
Vale
Vídeo con capacidades
De Gemini
Vámonos
Buah
6 minutos chavales
Adelante
Se han preparado
Una buena salida
Se han preparado
Una buena salida
Esto es el momento
En el que empezamos
A ver
A Gemini
En acción
Hemos estado testeando
Las capacidades de Gemini
En nuestro modelo
Multimodal
Hemos capturado
¿Vale?
Hemos capturado
Footage
Para testearlo
En una amplia
En una gama amplia
De tareas
Mostrando una serie
De imágenes
Y preguntándole
Que razones
Sobre que ve
¿Vale?
Vale
Vale, vale, vale
Vale, vale
Vale
Vale
Vale
Vale
Vale
Vale
Vale
Vale
Vale
Vale
Vale
Vale
Me está gustando
Mucho esto
¿Vale?
Le han cogido
Una cámara
Un stream
De vídeo
Y entonces
Va dibujando
Y le va preguntando
¿Qué estás viendo?
Ta ta ta ta ta ta
Yo estoy flipando
Porque aquí
Google
A diferencia de
OpenAI
Que solo
Uy
Se me ha activado
El Google
Del móvil
A diferencia de
OpenAI
Que solo abandonó
Tiene divisiones
De robótica
Muy potente
Y esto
Dentro de robótica
Como os dije
En el vídeo
Del futuro
De la IA
Ojito cuidado
La voz
Está generada
Por el modelo
Como tal
O es un texto
Speech
Que le han añadido
O sea
Yo creo que han ido
Por todas
Y han construido
Todo junto
Pero
Está pintándolo
De azul
Y le dice
El modelo
Los patos
No suelen ser azules
Pero bueno
Hay algunas especies
De patos
Que si son azules
Jaja
Y le ha sacado
Y le ha sacado
Un patito de goma
Y la ha liado
Dios, Dios, Dios
Le ha sacado
El pato
Y le dice
Jaja
Estaba hablando
De patos azules
Y me ha sacado
Un pato azul
Jaja
Vale, la pregunta
Flotaría
Y le dice
Parece que
Podría ser
De goma
O de plástico
Vale
O sea
Como que lo ha apretado
Y ha dicho
Ah, vale
Si es apretable
Entonces
Es que
Es que va a flotar
It is a rubber duck
It is made of a material
That is less dense
Than water
Can you teach me
How to say this
In a different language
And give me a few options
Can you explain
How to pronounce
The mandarin one
Is it
Ya-tsu
Ya-tsu
Is pronounced
With a first tone
In mandarin
There are four tones
Vale
Le ha pasado el audio
Y lo ha entendido
O sea, le ha dicho
Voy a decirlo
O sea
Me ayudas a pronunciarlo
Bien en japonés
Entonces
Lo ha grabado
Y lo está analizando
The first tone
Is a high level tone
Oh, ok
The duck is in the middle
Of the ocean
There is no land nearby
For the duck to rest
Or find food
It is unlikely
To find ducks here naturally
Ok
Based on what you see
Come up with a game idea
Oh
And use emojis please
Vale
Ha puesto el pato
Sobre el mapa
Y ha dicho
Jaja
El pato está en mitad
Del océano
Ok
Ahora le ha dicho
Según lo que está viendo
Que es el mapa mundi
Que tenemos delante
Dame idea de juego
Creo que ha dicho
Y usa emojis
How about this
We can play a game
Called
Guess the country
So let's do it
Clue one
This country is the
So let's
Guess the country
So
We can play a game
Vale
Fijaos
Van a jugar un juego
Donde al parecer
El juego
Por lo que entiendo aquí
Que pone generating code
Se ha autoprogramado
Un juego
Para jugar
Es lo que he entendido
Que ha pasado
No entiendo nada
Yo creo que vivimos
En el futuro
Y
Si, si
España
Técnicamente
Este juego
A ver
También os digo
Vamos a pensar
Y vamos a colocar
Todo esto
En que es un ejemplo
De demo
Que habrán probado
Hasta la eternidad
Que es de los vistosos
Es decir
Vamos a pensar
Que nos están vendiendo
A Gemini
No es que sea esto
Un paper
Que
Ah mira
Hemos sacado un paper
No, no
Nos quieren vender
A Gemini
Dicho lo cual
Lo que acaba de hacer
Está bastante guapo
Vale
Acaba de autoprogramarse
Un jueguito
Para poder jugar con él
En una conversación
Que parece que está fluyendo
Todo el rato
En tiempo real
No me lo creo
Uf
Esto me acaba de dar
Escalofríos ya
Esto si que
Esto si que no lo habíamos visto
Esto
Esto GPT-4V
No lo puede hacer
Porque como no tiene
Análisis de vídeo
No
O sea
Tu le puedes pasar
Una secuencia de fotogramas
Pero claro
El juego del trilero
Si no hay un flujo continuo
De fotogramas
Te pierdes
Obviamente
Y en este caso
¿Qué está pasando?
Yo soy tontísimo
No me había enterado
Que estaba jugando eso
Yo estaba pensando
5-2
¿Qué está contando?
Vale
Vale
Vale
Vale
Tenía la moneda
En la mano derecha
Y ha hecho el truquito
Esto
De que lo tiras
Como contra la mesa
Y entonces
Pasa rápido
Para la izquierda
Yo no me he enterado
Hasta que ha levantado la mano
Y el modelo
La ha inferido
Ha dicho
Ah vale
Pues te has hecho
La técnica esta
De pasarte la moneda
No sé que
No sé cuánto
Yo os invito
A esperar
A que podamos probar esto
Que no lo sabemos
Esto es otra pregunta
Que se queda ahora en el aire
Pero hasta que no lo podamos probar
Vamos a dudar un poco
De todas estas capacidades
Evidentemente van a estar ahí
Porque si nos lo están vendiendo
Es que se puede
Pero wow
O sea
Por ahora lo que están poniendo
Sobre la mesa
Nunca mejor dicho
Bastante
Bastante impresionante
También es cierto
Que nos parece muy impresionante
Porque es la primera vez
Que estamos viendo
Esta multimodalidad de vídeo
Y es como cuando
De repente ves por primera vez
GPT-4
Hablándote
O cuando ves por primera vez
A GPT-4V
Analizando imágenes
Es muy impresionante
Y a mí me está impresionando
Alguna de estas demos
Porque en vídeo
Como digo
Esto no lo habíamos visto
Ojo
El cookie clicker
Amigos
Juegazo
Vale
Ha dicho
Bueno
Galletas
Sí
Los dos son comidas
La naranja es más sana
Que la galleta
Vale
Ha dicho
Está jugando
Como a colocar dos objetos
Y que encuentra una relación
Entonces ha dicho
La naranja y el spinner
La naranja es un cítrico
Y el cítrico te puede calmar
Yo ahí no sé de nutrición
Así que tampoco respondo a eso
Y el spinner
También te puede calmar
Ha encontrado
Como esa relación
Entre estos dos objetos
Vale
Que son dos juguetes
Ojo
Imágenes
Dios
Ovillo de lana verde
Ovillo de lana rosa
Dame ideas
Vamos a
Ponerle la puntilla
No es el mismo color
De lana
Vale
Aquí la multimodalidad
Este color
No sé si es que lo han retocado
Que también se ve un poco raro
Pero no es el mismo color
Pero bueno
No es el mismo color
Vale
Ok
Ok
How about
These colors
And
Maybe show me
Some animals
Ok
Now I see
Blue and pink yarn
How about
A pig
With blue ears
Or an octopus
Vale
Or a bunny
Or a bunny
With a pink nose
Uuuh
I'll keep those in mind
Which way should the duck go
Going left leads to a duck
Which is a friend
Going right leads to a bear
Which is a foe
It is better to make friends than foes
So the duck should go left
Smart choice
Vale
Pues el juego del tranvía
Hostia
Estaría guapísimo
¿No?
Testear a Gemini
Con el juego del tranvía
En este caso eligiendo
¿No?
Ha elegido ir con el patito
Vale
Vale
Impresionante eso
Hubiéramos sabido
Que esto era un cangrejo
Antes de verlo
A ver
Choice
Hostia
No lo sé
No lo sé
Ahora la pregunta es
¿Ha sabido que esto es un cangrejo
Porque
Su capacidad de ver
Le permite conectar
Como los puntos tal
O simplemente es que
Tiene memorizadas
Estas imágenes
Porque las imágenes
De unir los puntos de cangrejo
Son
No sé
No sé
No sé
Yo ya
Yo ya me jubilo chicos
Yo ya me veo otras cosas
Vale
Le pregunto si es el orden correcto
Y dice que no
Pero ahora yo le diría a Gemini
Pero es que lo estoy ordenando
Alfabéticamente
Estás equivocado
Fijaos que aquí
Se están resolviendo
Tareas de multimodalidad
Sobre imágenes
Que están dibujadas
O sea
Que parece
Que parecen tonterías
¿No?
Porque está todo hecho
Composite y tal
Daos cuenta de que
Esto es más difícil
Que ponerle dos imágenes
De que hayas sacado
Imagínate
No, tú trabajas
Dentro de un parque de atracciones
Y quieres hacer un análisis
De la
Yo qué sé
Me invento
Alguna problemática
De un parque de atracciones
Tú sacaría fotos reales
Pero aquí están usando
Posits
Y aún así
La IA entiende perfectamente
El dibujo
Y sobre ese dibujo
Hace la tarea correcta
Bastante impresionante
Vale, a ver
¿Qué ha pasado aquí?
Ha generado una guitarra
Y ha improvisado
El generar un sonido de guitarra
Esto también es otra cosa
Que ahora entraremos a analizar
Y es
¿Qué personalidad tiene Gemini?
Es decir
Que proactivamente genera un sonido
No sé si es parte de la demo
Que ellos están probando
O realmente
Ese va a ser su comportamiento
De intentar ser un poco más proactivo
Y yo qué sé
Que te genere un sonido
Tampoco sé si este sonido
Lo ha generado como tal
Que estaría bastante guapo
O si
Es simplemente un acceso
A alguna librería
De ficheros y tal
Que tiene por aquí
Pero guau
Vale, lo mismo
O sea, le pone un vídeo
O sea, le pone un vídeo
O sea, está consumiendo un vídeo
De un vídeo
Y...
Madre mía, perdió la pantalla de la derecha
Y consigue entender
Que es el momento
Valet time de Matrix
Nice
What do you think might happen next?
The cat is going to jump to the wall
And stick the landing
It's going to be a perfect 10
Oh, and it's a miss
No
It looks like it was just a little too far away
But don't worry
The cat is a natural athlete
And it will be back up there in no time
Vale
Okay, I've got one more for you
Describe the drawing I made
Vale, acaba de hacer una constelación
It's a simple line drawing of the constellation Gemini
You did a good job of capturing the beauty of Gemini
Nice
That's it
I think we're done
Bastante guapo
Es una demo oficial de
Vamos a presentar lo mejor que hace y tal
Pero lo que han presentado es bastante impresionante
Y realmente es superior a
Madre mía, hay un montón de vídeos aquí
Madre mía, han sacado de todo
Estoy teniendo problemas con la pantalla a la derecha
Que es algo habitual que me pasa
No quisiera yo perderos
Porque la pantalla a la derecha es el chat
Bastante, bastante guapo
Ahora repasaremos todos estos vídeos con más calma
Pero bueno, vamos a seguir viendo
Qué nos ofrecen por aquí
A ver
Nos han mostrado este vídeo
Para hablarnos de la multimodalidad
Ahora
Ah, vale, vale, perdón
Estos son todos los puntos del vídeo
Perfecto
Pues hemos visto, ¿no?
Diálogo multimodal
En función de varios tipos de datos
Multilinguaje
Pues que puede entender diferentes idiomas
Estará guay ver en el paper también
El español que también funciona, ¿no?
Aquí hablando un poco para nuestro
Para nuestra comuna de gente de habla hispana
A ver qué también rinde en español
Sabemos que GPT-4 funciona bastante bien
Creación de videojuegos
Esto ha sido impresionante
Puzzles visuales
Y hacer conexiones
Perfecto
El potencial de Gemini
Vamos a ver qué nos pueden presentar por aquí
Vale, aprende qué puede hacer Gemini
A través de la gente que lo ha construido
Entonces vamos a ver algunos estos vídeos
Vale, vale, vale
Esto es lo que yo necesito
Esto
Lo que hemos visto hasta ahora son
Como demos muy
De las capacidades que tiene
Pero ahora vamos a ver casos de uso
Más profesionales o más reales
Y este es el
De los que más me interesan
Ya sabéis
El combo
Inteligencia artificial
Y avances científicos
Algo que está en el ADN
De DeepMind
Empresa que está detrás de Gemini
Vamos a ver qué nos ofrecen
Vale, aquí lo que nos van a mostrar es
Uno de los potenciales usos
De todos estos sistemas
Que es poder acceder
A una literatura que es masiva
Pensemos, ¿no?
Los que estamos metidos en Deep Learning
La cantidad de papers
Que salen al día de Deep Learning
Pues que la IA
Que es Gemini en este caso
Pueda acceder
Y darnos información de esto
Vamos a ver
Que también funciona
Vale, nos están hablando de
Un artículo en un artículo en concreto
Van a ser como un caso de uso
¿No?
Pues un artículo concreto
De genética
Donde además se compartía
Una base de datos
Que es esta tabla
Que tenemos aquí abajo
Que está, bueno
Pues con diferentes
Información de
No sabría decir
¿No?
Algo genético
Pero
Sí
O de fármacos
¿No?
Porque es Target Gene
Y todo esto
Bueno, vamos a ver
¿Qué hacemos con esto?
Vale, estamos en Google
Collab
Vale
Entonces lo que están haciendo
Es usar Gemini
Dentro de Google
Collab
Ojalá esté ahí metido
Y se pueda usar ya
Vale, entonces
El prompt
Que no se ve aquí
Que están utilizando
Es
Eres un asistente
De
Eres un asistente
Ayudante
De biocuración
Tu trabajo
Es leer los siguientes
Paper
Títulos y abstract
Y decirme
De qué habla el paper
Y hacer una validación
Experimental
Vale
Aquí algunas cosas
Que tienes que tener en mente
Algunas variantes
Se llaman SNP
Le da como
Diferente información
De la tarea
Que tiene que hacer
Y es un poco
Como configurarte
Lo que quieres que haga
El asistente
Cualquiera que haya
Trabajado con
Modelos
Saben cómo va la cosa
Hostia, pero
¿Y esto está funcionando?
Están dejando loco
Que usan
Vale, o sea
Están usando el modelo
Tampoco sé que esperaba
Pero lo están utilizando
Como código
Como la llamada
A una API
Que tendrán interna
Y entonces
Con esto
Usan el modelo
Internamente
Para calcular
La relevancia
De los diferentes
Papers
This showed us
Exactly where
In the paper
Gemini found the information
We ran this at scale
And over a lunch break
Gemini read 200.000 papers for us
Filtered it down to 250
And extracted their data
So now we have
A refreshed version
Of this data set
But because Gemini
Acaban de coger
Han hecho la pruebita
De vamos a pedirle
Una tarea concreta
De leerte un paper
Y buscar
Pues lo que sea
Una variante
Un fármaco
Lo que sea
Que cumpla el criterio
Que ellos han puesto
Han visto que funcionaba
Pues lo que han dicho es
Vale, ahora vamos a dejarle
Que analice todos los papers
Que han salido
De 2021 en adelante
Y que nos genere
Un dataset
Directamente
Vale, que nos genere
El dataset
Mientras nosotros
Estamos en la pausa
De la comida
Recordemos que esto es
Porque ellos hablaban
De que en un paper original
Había una base de datos
Que ya no estaba actualizada
Porque el paper salió
En 2021, ¿no?
Entonces ahora
Han conseguido actualizar
La base de datos
Automáticamente
Utilizando a Gemini
¿Y cómo le llamamos?
Gemini, Gemini
Me gusta Gemini
Y ahora lo que van a hacer
Es actualizar
Una de las figuras
Del paper, ¿no?
Pues esta figura
A lo mejor te la encuentras
Dentro del artículo científico
Han sacado una captura
Se la van a dar a Gemini
Gemini va a analizar
El formato y la figura
Y ahora va a generar
El código para actualizarlo
Con la información
De la nueva base de datos
Chicos
Esta es la nueva forma
De hacer ciencia
Esta es la nueva forma
De hacer
Trabajar con información
Esta es la nueva forma
De trabajar
Y todavía es muy prematura
Y mucha gente lo verá
Y dirá
No, pero esto
A mí no me resuelve
Mi problema
No sé qué, no sé cuánto
Pero todo se está moviendo
A esto
A que esto funcione así
A que la gestión
De la información
Potenciada por estos enormes
Modelos de inteligencia artificial
Funcione
De esta manera
Y ojo
Vale, ha generado todo el código
En Matplotlib
Y ahí tenemos la figura actualizada
Vale, con los datos nuevos
Que ha generado Gemini
Puedes ver que esta figura
Ahora incluye datos
Hasta 2023
Antes la figura
Llegaba hasta 2020
Y ahora llega hasta 2023
Y fijaos que tiene
Las mismas líneas
Es decir
Las mismas secuencias
Que se están mostrando
El mismo texto
En el eje tal
Perfecto
Vale, este es un caso de uso
Perfecto
Wow, madre mía
Tenemos aquí chicha para estar
Toda la tarde
Tranquilitos
Haciendo nuestras cosas
Programación
Venga, vamos a ir pisando charcos
Vamos con programación
Recordemos que estos son ejemplos
De los que internamente
Han construido a Gemini
Pues gente que hace investigación
Gente que programa
Gente que hace tal
Que han tenido acceso a este modelo
Desde hace meses
Como lo usan
En su día a día
O casos de usos
Que han encontrado útiles
Incluyendo algo
Muy importante
Para ambos
Algo de nosotros
Programa
Programa
Código
Gemini
Es capaz de
Consistente
Comerir, explicar
Y generar
Código que es correcto
Y bien escrito
En la mayoría de las lenguas
Que incluye
Python, Java, C++
And Go
Vale
Que mejora la capacidad
De programar
Frente a modelos
Como Palm 2
Normal
A ver
From a benchmark
Around 200
Programming functions
In Python
It consistently
Solves
About 75%
Of them
In the first try
Versus
Around 45%
On Palm 2
If you allow
Gemini
To check
And repair
Its own answers
This number
Jumps
To over 90%
Which is
A huge step forward
It can help
Me he perdido
En esto estaba
To over 90%
Which is
A huge step forward
It can help
You create
And prototype
New ideas
In seconds
Let's give it a try
Vale
O sea que
La capacidad
De mejorar
Pasó del 45%
Creo que ha dicho
De Palm 2
Al 70%
Y largo por ciento
De Gemini
Y que si luego
Le dabas la posibilidad
De decir
Oye el código está bien
De autorreparar
De corregirlo
Podía subir hasta el 90%
Algo que sabemos
Que iterativamente
Se puede hacer
Con los generadores
De código
Dice
Quiero hacer una aplicación
Tipo Google Maps
Que me muestre
Las comunicaciones
De transporte
En Londres
Creo que se traduce así
El código no es perfecto
Pero que sirve
Para tener
Un buen bocete inicial
Alguien dice
Alguien dice por el chat
Que chat más feo
Y estoy de acuerdo
Yo es que la
Me estoy pasando
Al lado oscuro
Nunca mejor dicho
Me están gustando más
Las interfaces oscuras
Y mira que siempre he sido
De interfaces claras
Pero me he acostumbrado
Al chat GPT en oscuro
¿Qué componente
De sistemas más sofisticados?
Gemini es genial
En el coding
Pero hemos conseguido
Acercer un poco más
Crear una versión especializada
Que funciona
Remarkably bien
En programación competitiva
Vale, vale, vale
Bueno, bueno, bueno
Gemini programa bien
¿Ok?
Pero además
Han sacado una versión
Al parecer
O están comentando
Que han entrenado
Una versión interna
Que es muy bueno
A programación competitiva
Entonces lo que estamos viendo aquí
Es la integración
De uno de los trabajos
Que tenemos pidido
Aquí en el canal
Que era la de
Alpha Code
Si no recuerdo mal
Porque luego me lío
Con Alpha Dev
Alpha Code
Que es una versión
Que en su momento
Entrenó DeepMind
Para ser muy buena
A la hora de hacer
Competencias de programación
Las típicas competencias
De programación
Donde ya no solo es
Saber hacer buen código
Escribir buen código
Que se ejecute
Sino que tienes que saber
De estructuras de datos
Tienes que saber
De patrones de diseño
Tienes que saber
De un montón de cosas
Para resolver bien
Y generar un código
Que esté optimizado
Que sea ejecutable
Bajo los criterios
Que a lo mejor
En estas competiciones
De programación
Te suelen poner
Entonces vamos a ver
Ahora, ¿por qué nos importa
De programación competitiva?
Bueno, es uno
De los testes de litmus
De algoritmos
Coding
Abilidades
Así que tenemos
Tienes miles de programadores
Talentes
De todo el mundo
Que vienen
Para competir
Y tratar de resolver
Un problema
Incrédulos
Que requieren
No solo
Coding
Pero también
Más
Y razón
Chico, te doy la información
Mascada
Chicos
Hace dos años
Ya
Madre mía
Tenéis vídeo en el canal
Está muy guay
Para entender un poco
Dónde viene todo esto
Vámonos
No me lo esperaba
Vale, vale
Alpha Code 2
Basado en Gemini
Ojito a esto
Resuelve el doble
De problemas
¿Vale?
Alpha Code
Fijaos que
A veces cuando
Me pongo a hablar
Del tema
De la IA
Que programa
Y todas estas cosas
Cuando
La gente
Me suele decir
No, pero es que
La IA a día de hoy
Todavía no está
Al nivel
De programación
De ciertas cosas
Y tal
Me acuerdo mucho
De Alpha Code
Que nunca salió
Como un producto real
Ni nada
Siempre hemos tenido
Los ejemplos de Codex
Y similar
Pero siempre me acuerdo
Mucho de Alpha Code
Porque Alpha Code
Iba más allá
En las capacidades
De programación
De la IA
Y ahora están sacando
Una versión
Alpha Code 2
Y esta sintiendo
Que va a estar disponible
De alguna forma
Que resuelve
El doble de problemas
¿No?
Pues bastante interesante
Comparado con
Humanos
En estas competiciones
Alpha Code
Lograba estar
En mitad de tabla
Es decir
Competía
Y quedaba
En una puntuación
Pues
A mitad
¿No?
Era mejor
Que la mayoría
O sea
Era mejor
Que la mitad
De los humanos
Que participaban
Y ahora
Alpha Code 2
Llega al 85%
Es decir
Si eres un 15%
Si estás en
El 15%
Que mejor programa
En estas competiciones
Todavía estás bien
¿Vale?
Un problema donde
Los que participaron
Solo un 0,2%
Lo consiguieron resolver
Es decir
No es muy abstracto
So I can't get into
Too many details
But the basic gist
Of it
Is that
We are tasked
With computing
Aggregate statistics
That account for
What appears to be
An impossibly large
Amount of random arrays
The really cool thing
Is that to solve it
Alpha Code 2
Makes use
Of dynamic programming
¿Vale?
Dynamic programming
Is an advanced
Algorithmic technique
Which basically
Simplifies a complicated problem
By breaking it down
Into easier subproblems
Again and again
Vale, bueno
Estaba hablando
De que le han planteado
Un problema
De estas competiciones
Que es bastante complicado
Y que lo interesante
Es que haya sabido resolverlo
Utilizando programación dinámica
Que para los que participéis
O hagáis programación
Sabéis que es
Junto a la recursividad
Algo
O sea, ciertamente
En estas competiciones
Es como que
Suelen hacerse mucho hincapié
En este tipo de técnicas
Entonces tampoco me parece
Tan impresionante
Que la IA lo resuelva
Lo guapo es que lo ha hecho bien
¿No?
Que ha conseguido
Plantear este problema
Como un problema
De programación dinámica
Y que lo ha resuelto bien
Exacto, ¿no?
Que no solo ha sido capaz
De resolver bien el problema
A través de programación dinámica
Sino que ha sabido
Cómo utilizarla correctamente
Cuándo utilizarla correctamente
Y que está guay
Aquí estamos viendo
Una cosa súper interesante
Que creo que es importante
Que nos paremos a analizar
Con la IA
Siempre se ha hecho
Esta distinción entre
Qué es la programación
Y cada uno tiene su definición
Y podemos hablar aquí
Largo y tendido
Sobre este tema
Pero es cierto
Que si podemos analizar
Algunos de los aspectos
Importantes
¿No?
De los grandes bastiones
De lo que sería programar
Pues tenemos la parte
De codificar
Saber manejarte
Con un lenguaje de programación
Entender la sintaxis de Python
Entender la sintaxis de JavaScript
De lo que sea
Saber
Cómo traducir
Lo que tú tienes
La lógica de programación
Cómo convertirla a código
Esto sabemos que ya
Los sistemas LLM
Que tenemos hasta ahora
Han sido capaces
De hacerlo sin mayor problema
Esto
Saber Python
JavaScript
Transcribirte un código a otro
Hace cuatro años
Eran incapaces de hacerlo
Pero ahora a día de hoy
En 2022-2023
Son perfectamente capaces
De hacerlo
Luego hay otras dos
Dos cosas que se me ocurren
Puede haber más seguramente
Que es todo el tema de
La lógica de programación
Cómo descomponer el problema
Que quieres resolver
Cómo convertirlo en
Modularizarlo
Dividirlo en diferentes
Unidades lógicas de ejecución
Que se van a interconectar
Y que tienen que escalar
Y que tienen un sentido lógico
La parte matemática
La parte de optimización
También hay que tenerla en cuenta
Pues que
Lo que se está ejecutando
Se ejecuta en tiempos razonables
Según vaya escalando el sistema
Mantenimiento
Etcé, etc, etc
Estos son como los
Los grandes pesos
Y lo que estamos viendo
Es la entrada de la IA a eso
¿Vale?
Parece que
No nos
No hemos tocado un muro
No hemos tocado un techo
En el ámbito de la IA
Programando
Solo en IA
Que codifican
Sino que está entrando
Más allá
Está entrando la parte algorítmica
En desarrollar
Pues resolver problemas
Que requieren de conocimiento
Avanzado de
A lo mejor matemáticas
O de entender
Cómo hacer estos patrones
Etcétera
Y esto es súper potente
Y súper interesante
Porque
Esleva el nivel
De lo que serán
Las herramientas de futuro
A la hora de programar
Parece que me voy adelantando
A lo que dicen ellos
Pero es justo esto
Parece que a día de hoy
Los sistemas
Están en este nivel
Perfectamente
Lo de implementar
El código
Vale
Sabemos lo que queremos montar
Vamos a ejecutarlo
Y esto es lo que siempre se dice
Si tú
Eres un buen programador
Sabes darle bien
Las instrucciones al sistema
Porque el sistema
Al final está
Resolviendo las instrucciones
Que tú le das
Aunque sea con lenguaje natural
Parece que
Alphacode Gemini 2
O como le quieran llamar
Sube un par de peldaños más
Y hace cosas
Que los otros modelos
No eran capaces
Diseñar el sistema
Entender los requisitos
Analizar los requisitos
Y sobre esto
Diseñar el sistema
Todo este flujo de trabajo
Parece que Gemini
Pues es capaz de cumplirlo
Y esto es súper potente
La implementación
Para resolver el problema
Y hace todo eso
En problemas
Que nunca se ha visto
Antes
Otra cosa
Que es genial
En Alphacode
Es que
Se hace mejor
Cuando se colaboran
Con los coders
Que pueden proveer
Grounding
Básicamente
Los desarrolladores
Pueden especificar
Propiedades
Que los samples
Tienen que obedecer
Y cuando hacemos eso
Vemos que la performance
Increíble
Significamente
Nosotros pensamos
De esta interacción
Entre programadores
Y AI
Como el futuro
De programar
Y efectivamente
DeepMind
Como no
Si tienen la visión
Ellos viven en 2080
Pues ven
Este tipo de herramientas
Como la integración
Entre el futuro
De la inteligencia artificial
Y la programación
Carlos
¿Significa esto
Que los programadores
Están acabados?
No
Significa que
Estas son las nuevas herramientas
Que se ponen sobre la mesa
Y que esto va a generar
Una transformación muy fuerte
En la forma
De diseñar software
A futuro
De construir software
A futuro
Y seguramente
Haya
Una perturbación
Del mercado laboral
Donde se contraiga
O se expanda
Porque no sabemos
Que efectos
Y que dobles derivadas
Podrá tener todo esto
Pero donde seguramente
Las horas de trabajo
Dedicadas a tareas
A días de hoy
Va a cambiar radicalmente
Frente a las horas de trabajo
Que haga el profesional
Del futuro
Que se etiquete
Como programador
Esa sería la cuestión
De lo que está
Producido
Podrán no solo
Dar instrucciones
Pero en realidad
Colaborar
Con los modelos
Que pueden
Reasonar
De sus problemas
Que pueden
Proponer
Code
Designs
Y que pueden
A ayudar
Con la implementación
AlphaCAD 2
Se construyó
Para programar competitivo
Pero estamos
Ya trabajando
En bringing
De sus habilidades
Unímpicas
En los modelos
De general
De Gemini
Como primer
Paso
Para hacer
Este nuevo
Paradigm
Available
Para todos
Ok
Parece que este
AlphaCAD 2
Que seguramente
También tendrá
Su paper
Y que habrá
Que analizar
En profundidad
Joder
Cada vídeo
Es una
Se ha adelantado
La navidad
Chavales
Eso
Pues nada
Que AlphaCAD 2
Parece que es
Como un proyecto
De investigación
De ellos
Y que intentará
Meter estas capacidades
Dentro del sistema
Gemini
Final
Vale
Vamos con
Procesamiento
Y entendimiento
Del audio
Esto si que es nuevo
Esto si que no lo hemos visto
En ChatGPT
Más allá de los modelos
Whisper
Una cosa
Un inciso
Chapó
No solo por el trabajo
Que han hecho
Con Gemini
Que se ve que es bastante
Sino es la forma
De presentarlo
Me está encantando
O sea
Información de calidad
Mucha
Y de golpe
Como a mí me gusta
Lo que comentábamos antes
Los sistemas
Los sistemas
Los sistemas actuales
Que existen
Que te hablan
De que son multimodales
Porque generan audio
O porque entienden audio
Lo que hacen es acoplar modelos
De text to speech
O speech to text
Es decir
Modelos que
Funcionan muy bien
Como sería
Whisper
Whisper V3
Que te coge un audio
Te saca un texto perfecto
Y que luego se lo inyectas
A ChatGPT
Y ahí
Bueno
Pues perfecto
En este caso
Ellos lo que han entrenado
Es la versión multimodal
Donde todo esto funciona
Dentro de un mismo modelo
El modelo
Tiene ahí un
Un embudo gigante
Donde tú le tiras datos de audio
Y los entiende como tal
Y esto
Es muy potente
Y me interesa mucho ver
Si más allá de entender
El contenido del texto
Tiene capacidad
De comprender
Más
¿Vale?
Hay modelos como
Clap
Creo que se llama uno de ellos
De comprensión
De audio
Sobre el que puedes
O modelos fundacionales
Creo que Spotify
También saca un trabajo
Súper interesante
Donde tú le pasas un audio
Y el modelo es capaz
De entender un montón
De características
De ese audio
Pues a lo mejor
Los beats por minuto
A lo mejor te entiende
La melodía
El estilo de música
Canciones parecidas
Y con eso
Pues puedes hacer
Un montón de cositas
Vamos a ver
Qué es este modelo
¿Vale?
¿Le va a subir un archivo de audio?
¿Cómo pronunciar
La palabra
Lunar January
En chino?
Option A
Zheng Yue
Option B
Zheng Yue
¿Cuál es correcto?
¿Cuál es correcto
Para el primer personaje?
Vale
Pues ha grabado un audio
Y directamente
Le ha hecho un examen
De pronunciación
En chino
Option A
Vale
Pues ha respondido
Con su voz y tal
Me resulta curioso
Que la voz
No es súper
Súper natural
¿No?
Para los trabajos
Que tiene Google
De sintetización
Del habla
No es que sea
La mejor voz
Que tengan
Pero bueno
Option A
Que quizás
Hasta lo agradezco
Que no sea tan natural
Para no confundirme
To diferenciar
The two ways
Of pronouncing
The word
To make sure
It was correct
In that clip
There was only one speaker
Let's look at this example
Where there is more than one person speaking
Hi Gemini
I don't understand this podcast
Can you please summarize it
For me
In English
Vale
The podcast
Is about the colors
That are in fashion
This season
The colors
That are in fashion
This season
Are canary yellow
And scarlet red
The color
That is not in fashion
This season
Is night blue
Vale
Pues en este caso
La ha subido dos audios
Y ha hecho bien la tarea
De entender ambos audios
With Gemini multimodal capabilities
It can understand
The conversation content
Making it
Not only a transcription model
But a model
That has much more nuanced
Understanding of the environment
Let's take it a bit further
Gemini works natively
Across vision
Audio
And text
Meaning it can properly
Make sense of them together
Let's look at one final example
What's the first step
To make a veggie omelet
With these ingredients
Crack the eggs
Into a bowl
And whisk them
Thank you for the instructions
I've started making my omelet
Does it look ready now?
It looks like it's almost ready
You can flip it over
To cook the other side
Why is it not ready?
It's not ready
Because the eggs are still running
Vale
Fijaos aquí
A ver
No nos quedemos
Con que la dinámica
Bastante engorrosa
Porque es como
Subo archivos
Pop up
Grabo audio
Pop up
Se lo mando
Pop up
Sino que pensemos
Que este flujo
Pues como pasa
Con la aplicación móvil
De ChatGPT
En un futuro
Será
En tiempo real
¿Vale?
Vamos a pensar un poco
En ese aspecto
Un sistema
Google Glasses
Que van a revivir
O sea
Ya existen
Ya Google Glasses
Están desarrollándose
Con Gemini Ultra
Dentro
Pues pensar de eso
Un sistema
Donde tú vas
Con unas cámaras
Vas sacando las fotos
O el flujo de vídeo
Como hemos visto al principio
Y donde este audio
Constante
Pues va a hacerte
La interacción
Me hace gracia
Que las respuestas
De Gemini
Además son como
Muy cortitas
Como muy directas
Y cortas
No está lista
La tortilla
Los huevos están crudos
Bátelos
What about now?
Vale, pues muy bien
Pues ok
Madre mía
Pero cuántas
Cuántas cajitas
Sorpresas tenemos
A ver
Razonamiento matemático
Y físicas
Vámonos para este
Este charco
Me gusta
Me gusta
Un montón de cosas
Madre mía
Dejadme un momento
Lo pongo en español
Para que todo el mundo
Esté disfrutando
Como
Los que tenéis
El B2
De inglés
A ver
Siempre me lío
Contrando el Spanish
Vale
He entendido esto
A ver
Vale, vale, vale
Vale
Vale
Ok
Es como que de repente
Nos han mostrado aquí
Que con Gemini
Tenemos un Toggle
Arriba
Donde podemos
Haber
O sea
Habilitar y deshabilitar
Lo que sería
El System Prompt
Que es como este
Pre-Prompt
Que se suele acoplar
Para sacarle más rendimiento
Al modelo
Entonces vemos que
Han creado una interfaz
Para resolver problemas matemáticos
Y le han metido un prompt
Que tela
Tela marinera
Con el prompt
Vale
Eres un tutor
Ayudante
Vas a chatear
Con un estudiante
Sobre un problema
Que se le ha planteado
Vale
Es como
Es un prompt
Bastante currado
Lo cual me hace ver
Esto
Que todavía
Al menos estos sistemas
Requieren de un prompt
Fino
Para poder sacarle
El máximo partido
Como se sigue comprobando
We can really leverage
Gemini's math
Reasoning
And multimodal capabilities
To learn
A subject like physics
With Gemini
You can upload a photo
Of handwritten answers
On a worksheet
Not only can Gemini
Solve these problems
But this is the amazing part
It can read the answers
And understand
What was right
And what was wrong
And explain the concepts
That need more clarification
Ok
Mira
Ha subido
El chaval
No han hecho
Con el prompt
Este
Han hecho
Como un tutor
Que va a corregir
Los ejercicios
Del chaval
Entonces
Le han sacado
Una foto
A los ejercicios
Fijaos que hay
Texto pues
Mecanografiado
Texto con
Una fuente típica
Pero luego también
Hay texto escrito
A mano
Y el sistema
Ha sido capaz
De entender
Hacer el OCR
Correctamente
Entiendo
Entender
Si el ejercicio
Está bien hecho
Y si está bien o mal
Luego va a poder
Responderle
Para decirle
Mira
Este está bien
Este está mal
Este está mal
Por esto
Y guiarle
En la respuesta
Y lo que no he entendido
Es si
Ha creado
También la interfaz
O sea
Los recuadros
Con los checks
Y correcciones
Yo no sé
Si es parte
De la herramienta
Esta que han creado
Usando Gemini
De fondo
Pero tiene pinta
¿No?
Porque luego ha clicado
Y te permite
Entrar en cada una
De estas respuestas
Vale
Entonces aquí es como
¿Dónde has podido
Tener un error?
Y entonces Gemini
Ha cogido la foto
O sea
Ha hecho captura
De la imagen
Que tenía
Y le ha hecho
Un recuadro
Donde posiblemente
Está el error
Y te dice
Tu respuesta no es correcta
Porque ha habido
Un error calculando
El cambio de la altura
El cambio de la altura
Es 50
No 6 metros
Vale
Que sería la respuesta
De 300 entre 50
Sería 6
Vale
Entonces aquí estaría
Como el error
A la hora de plantear
Esta fórmula
Entonces dice
¿Por qué 50?
Y si el cambio de la altura
Es una distancia vertical
Desde el alto
Y se lo explica
Y ahora le dice
Guíame
Paso a paso
En la resolución
Del problema
A ver
Vale
Entonces le da como
Una respuesta
Pensaba por un momento
Que estaba como
Sacándole ahí
Fórmulas en plan
Rollo súper complejas
Pero no, no
Es como la energía potencial
Y kinetic energy
Y todo esto
Vale
Y ahora es como
Générame un problema
Générame un problema
Para practicar
Sobre el error
Que he cometido
Fijaos que lo de la izquierda
O sea
No entiendo muy bien
Qué es
Si es como una interfaz
Concreta
Si son imágenes
Que va generando
Gemini
No lo tengo muy claro
Pero le acaba
De generar un problema
Tipo test
Toma ya
Plataformas de curso
Pues ahora
Potenciadas con IA
Ok
Muy bien
Pero estos son demos
Que han creado
Con Gemini
Vale
O sea
No significa que sea
Que Gemini
Te va a dar todo esto
Y toda esta historia
Pero bueno
Razonar
Sobre la intención
Del usuario
A la hora de generar
Bespoke experiences
A ver
Os lo pongo en español
Qué lata
Tener que hacer
Todo esto
Con cada vídeo
Pero bueno
Ahí está
Spanish
Vamos para allá
Estamos en este tipo de
Fijaos
Esta es una interfaz real
Que aquí pone arriba
En la esquina
No se ve muy bien
Porque es tan pequeñito
Pero pone debug
Y estamos en uno de estos casos
Como los que ha presentado
A veces Microsoft
En los que da un poco de cringe
Porque son
Padres no sabiendo
Hacer de padres
Y acudiéndole a ella
Para resolver sus dudas
No rollo
Tengo que escribir
Una carta emotiva
A mi hija
Por su boda
Chat GPT
Házmelo
En este caso
Es como
Dame ideas
Para el cumpleaños
De mi hija
Vale a ver un momentito
Vale a ver un momentito
O sea
Esto puede responder un poco
A las dudas
Que teníamos
Antes
Con el tema
De que la ha creado
Como una interfaz
Tipo chat
Para poder resolverla
Que ha pasado ahí
Y en este caso
Lo que nos están demostrando
Es que Gemini
Lo que es capaz de hacer
Dentro de esta herramienta
Que han creado
Que es Bespoke UI
Es ser capaz
De crearte una interfaz
O sea
Que a través
De sus capacidades
De código
Entiendo que es capaz
De generarte
Una interfaz
Dinámica
Frente a lo que
Le estés planteando
Pues en este caso
Te ha generado
Todos estos menús
Todo lo que veis aquí
Lo ha generado
La propia ella
Como respuesta
A la pregunta
Que tú le has planteado
A dormir
Now, none of this
Was coded up
It was all generated
By Gemini
Gemini uses
A series of reasoning steps
Going from broad decisions
To increasingly
Higher resolution
Of reasoning
Finally getting to
Code and data
First, Gemini considers
Does it even need
A UI?
Is a text prompt
Best?
Okay
This is a complex request
That needs
Lots of information
To be presented
In an organized way
Gemini then tries
To understand
If it knows enough
To help
There is a lot
Of ambiguity
I didn't see
What my daughter's
Interests are
Or what kind
Of a party I wanted
So it had asked
A clarifying question
When I said
We're thinking
About an outdoor party
And my daughter
Loves animals
Gemini reasoned
It had enough
Information to proceed
But it made a note
That there was still
Ambiguity
About what kind
Of animals
Vale, fijaos
Esto es como una especie
De
Nos están explicando
Dentro de esta interfaz
Que no sé si
Vendrá dada
Con Gemini
O que es
Hay como mucha
Información mezclada
Parece que es una interfaz
Que acomete
Diferentes pasos
A la hora
De hacer
En este caso
Esta interfaz
Que han creado
De
De lo que se llamaba
Metaprompting
O metacognition
De la propia
IA
Reflexionando
Sobre si cuenta
Con información suficiente
Para tal
Si
O sea
De cara a la tarea
Que quiere hacer
De evaluar el propio
La información
Que tiene
O la certeza
Que tiene
Sobre la información
Que cuenta
No sé
Vamos a ver
Un poco más
What kind
Of animals
And this
Is important
And what kind
Of outdoor party
Next
Is a critical step
Gemini writes
The Product Requirement
Document
Or PRD
It contains
The plan
For the kinds
Of functionality
The experience
Will have
For instance
It should show
Different possible
Party themes
Some activities
And food options
For them
Now
Based on this
PRD
Gemini tries
To design
The best experience
For the user's journey
It thinks
That the user
Will like to
Explore a list
Of options
But will also
Exacto
Es un proceso
De autocrítica
Y razonamiento
Y generación
De fases intermedias
Para construir
Esta interfaz
Que responda
A la petición
Del usuario
Ojito
Que esto está
Bastante guapardo
También
To details
It uses this
To design
A less
Detail layout
That we saw
Earlier
With this design
It writes
The flutter code
To compose
The interface
Out of widgets
And write
Any functionality
Needed
Finally
It generates
And retrieves
The data needed
To render
The experience
You can see
It filling in
Content
And images
For the different
Sections
Ah
Farm animals
She would like
That
Clicking on the interface
Regenerates the data
To be rendered
By the coded route
Pensemos que lo que
Están haciendo aquí
Es crear una interfaz
Que responda
A la petición
Del usuario
De forma dinámica
Es decir
Aquí no es que haya
Una preprogramación
De vale
Cuando el usuario
Responda
Vamos a crear
Esta ventana
No, no
Eso lo ha creado
La propia idea
También como parte
Del proceso
Vale
Y entonces
Wow, wow
Qué guapo
Le ha pedido
Ha seleccionado un texto
Y digo
Quiero que me des
Paso por paso
De cómo hacer
Justo esto
Que era cocinar
Una tarta
Entonces
Te ha creado
Una nueva interfaz
Fijaos
Como además
Aquí se está
Creando
Un flujo
De interfaces
Pues aquí
Ha creado
Una nueva interfaz
Con todos los pasitos
Bien visualizado
Bien maquetado
De cómo responder
A esta petición
Wow, qué guapo
Tío
Vale, le ha pedido
Quiero que me des
Pastelitos
Con toppings
De diferentes
Con formas
De diferentes animales
Y entonces
Ha generado
Como un drop down
Con imágenes
Generadas por la IA
Donde además
Te pone
Diferentes tipos
De animales
Ha entendido
Que a lo mejor
Quieres ver
Diferentes opciones
De animales
Con diferentes materiales
Y en cada una
Tienes como
Una galería
De imágenes
Tío, esto está muy guapo
Esto está muy guapo
Porque sí representa
Mucho
El concepto
De uso
De herramientas
O diseño
De herramientas
En tiempo real
Por parte de la IA
El cómo
Ya no programaremos
Interfaces de usuarios
Como tal
Sino que la IA
De forma
Proactiva
Y personalizada
Irá creando
Cada uno de estos menús
Guapísimo
Qué majete
Qué majete
Quería saltar su frase
Vale, hemos pasado
Por estos vídeos
De ejemplo
De lo que puede hacer
Gemini
Bastante chulo
También
¿Qué más tenemos
Por aquí?
A ver
Construyendo
Y desplegando
A Gemini
De forma responsable
Esto es algo
Que sabemos
Que el momento
Safety
A Google
Le interesa bastante
Vamos a ponerlo
También
Puedo abrirlo
En Google
Ya que me está diciendo
Que lo ponga
En pantalla completa
Lo ponemos
A un minuto y medio
Esto
Yo estoy muy emocionado
De Gemini
Porque es
Probable
El sistema
El sistema
El sistema
Que hemos desarrollado
Pero la seguridad
Y responsabilidad
De ser
Enseñada
Desde el principio
Y en Google
DeepMind
Eso es lo que
Hemos hecho
En Gemini
As estos sistemas
Become more capable
Especially
The multimodality
Images, audio, video
All of those capabilities
Also raise new questions
Going from image to text
That introduces new contextual challenges
Because an image
Might be innocuous on its own
Or text might be innocuous on its own
But the combination
Could be offensive or hurtful
We develop proactive policies
And adapt those
To the unique considerations
Of multimodal capabilities
And that allows us
To test for new risks
Like cybersecurity
And considerations
Like bias and toxicity
Video que toca
Video que toca
¿No?
El
Ah Gemini
Podrá ser un problema
Para la ciberseguridad
Bueno
Pues que lo evalúen
Y que se compruebe
Si sí
Si no
Que nos protejan
Tiene sesgos
Toxicidad
Está guay
Tener evaluaciones
Not only internal evaluations
But also external evaluations
This can look like
External red teaming
To bring in
Different experts
To give us their perspectives
On how the model is performing
But it also involves
Getting their advice
So we're working
With organizations
Like ML Commons
To develop
Extensive benchmarks
That we can use
Both to test models
Within Google
And across the industry
And we're also creating
Cross-industry collaborations
Via frameworks like SAFE
The Secure AI Framework
Is an incredible way
To learn from the industry
Learn from other experts
And build that into
How we're approaching
Responsibility at Google
It can mean
That our models
Our products
Are better for people
And better for society
Bueno, sí
Lo de siempre
Si no entran ni siquiera
En detalles
A explicar
Que tan bien
Funcionan sus salvaguardas
Y todo este tipo de cosas
Pues tampoco es que sea
Muy interesante
Vale, vamos a entender
Un poco
Dónde podemos probar
Gemini
Y cómo se puede probar
Y si está disponible
Y cuánto cuesta
Y todas estas cosas
Gemini
Pro
La versión intermedia
Del modelo
A Bart
Vale, a partir de ahora
Bart
Parece ser
Y la pregunta es
Se irá siendo gratis
Parece que Bart
Acaba de actualizarse
Ver actualización
No, pero esto no se acaba
De actualizar
Esto es de octubre
Qué susto
Claro, es que yo entro
Muy poco a Bart
Hola
¿Eres Gemini?
No, no soy Gemini
Soy un modelo
De lenguaje grande
También conocido
Como IA Conversacional
Chatbot
Entrenado para ser
Informativo completo
Vale
Diría que todavía
No tienen la actualización
Porque si no
Lo pondrían más ahí
En grande
Y más a lo bestia
Pero bueno
Es interesante
Sabemos que
Posiblemente
Entiendo que en estos días
La versión intermedia
Del modelo
Que habrá que comprobar
Sus evaluaciones
Qué tan bueno es
Frente a
GPT-4
Y GPT-3.5
Que sería
Un poco la comparación
Honesta
Si nos van a dejar
Bart
De forma gratuita
La versión gratis
De Bart
Pues habría que compararla
Con ChatGPT-3.5
Pero bueno
Veremos
Y luego
Build with Gemini
Coming soon
Integrate Gemini
Models into your applications
With Google
AI Studio
And
Disponible
El 13
De diciembre
En la API
¿Vale?
Es decir
Van a darnos acceso
Al modelo
Gemini
A través de
Del sistema
Google
AI Studio
Y Google
Cloud
Vertex
Que es como todo
Esta
Escaparate
De modelos
De Google
Disponibles
Y ya está
¿Vale?
Y poco más
Sabemos de esto
Porque
Esto es
¿En cuánto tiempo?
Estamos hablando
En 7 días
¿No?
Y luego tenemos
Más cosas que
Gemini puede
Hacer
Entonces por lo que
Entiendo es
Tenemos un nuevo
Modelo
Gemini Ultra
Super potente
Con un montón
De capacidades
Que por ahora
Van a estar disponibles
Solamente a través
De una API
No parece que vaya
A haber una aplicación
Bart
De pago
Donde podamos
Usar
Gemini Ultra
Por lo que estoy
Entendiendo
A lo mejor
Me equivoco
Y habrá que ver
Que también funciona
Este sistema
Gemini Pro
¿Vale?
Si este nos da
Todas las capacidades
Que hemos ido viendo
Hasta ahora
Pero es bastante
Bastante
Impresionante
Un poco de resumen
Para los que hayan
Ido viniendo
Más tarde
Y ahora vamos a ver
Más ejemplos
Para mí la característica
Importante
De lo que hemos visto
Es esto
¿No?
El multimodal
Pleno
Que tiene
Este sistema
Que mejora
A GPT-4
Pero no solo en
Ser más inteligente
Sino en sus capacidades
El poder aceptar
Audios
Vídeos
Código
Imágenes
Texto
Y que te pueda generar
Imágenes
Audios
Vídeos
No lo hemos visto
Este
To anything
Esto
Lo de los vídeos
No lo hemos visto
Entonces vamos a ver
Si hay algún ejemplo más
Que podamos evaluar
Bueno aquí hay unos cuantos ejemplos más
Vamos a echarle un vistacillo
¿Puede Gemini
Convertir imágenes en código?
Vamos a ver
Vale
Le ha pedido
Esta imagen
¿Me la puedes convertir
A una imagen vectorial?
Ok
A ver
O sea
Sí
O sea
Ha entendido
En la imagen hay un árbol
Hago un árbol con SVG
No es que sea el árbol más loco del mundo
Demo en Javascript
Gemini está en bar en inglés
Ahora voy
Ahora voy
Ahora voy
Ahora voy
Tranquilos
Que os leo
Leo
Vale
Podemos representar este árbol usando HTML y Javascript
Código de HTML y Javascript
Un algoritmo común para esto es usar Fractal Trees
Que te va a dibujar así como el árbol en forma fractal
Y te hace esto
Vale
Incluso nota código funcional con un slider que podemos mover
Y que mueve el ángulo del fractal
Vale
Pues este es un caso de uso
Vale
¿Qué más?
¿Puede encontrar similaridades entre dos imágenes?
Pues seguramente sí
La conexión entre estas dos imágenes
Que hay agua o la forma en ola
Podría ser, ¿no?
Sí, la forma en ola
Curved and organic composition
The building is more refined
And the second image is more fluid
Yeah, that worked
Okay, let's try another one using the moon
And this golf ball on my webcam
Vale
Then I'll run the same prompt
Okay, let's see
In 1971, the Apollo 14 crew hit two golf balls on the lunar surface
Wow, that's pretty good
Okay, then one more just for fun
Who wore it better?
The zebra
Oh, I like this
Vale, la he preguntado
¿Quién lo viste mejor, no?
Por así decirlo
¿Quién lo viste mejor, las líneas?
Dice, la cebra
La cebra ha estado llevando líneas por millones de años
Tu amiga está llevando una camiseta con líneas
Con rayas
Y las rayas de la cebra son naturales
Y se mezclan con el entorno
Mientras que las de tu amiga son artificiales
Y resaltan más
Okay, vale
Bueno, aquí hay como varios ejemplos
Puede Gemini entender emojis inusuales
Vale, lo que voy a hacer es un momento
Porque es cierto lo que me estáis diciendo
Que seguramente algunos sí estáis pudiendo acceder
Pero por una cuestión muy graciosa
Y es en Europa
Entonces el sonido que acabáis de escuchar
Es que estoy abriendo Opera
Que tiene una VPN integrada
Y me vais a permitir que eche un vistazo
A ver si entrando a BART
Desde Estados Unidos, por ejemplo
Con la VPN que tiene esto
Podemos acceder
Si podemos acceder lo probamos
Y listo
Vamos a ver
Creo que estoy con la VPN activada
Vale, experimenta con BART
Me meto por aquí
Un momentito
Vale
Lo puedo traer esto por acá
Sí
Vamos a ver si hay suerte
Claro, me tengo que loguear
Esperad un momento
Esas son las cosas de
Bueno
De la
Legislación en Europa
Que hace que estos sistemas
No puedan salir desde el día 1
Porque se tengan que adaptar
Pues a cosas como la GDPR
Y cositas similares
Vamos a ver
Me estoy logueando
Que follón
Un momentito
El Chupas
Ah, bueno
Me ha pedido
Vale
Vale
Estoy mirando
A ver si tenemos suerte
O no tenemos suerte
¿Cómo habéis sabido que
BART
Tiene Gemini?
Vale
Solo ponerlo en inglés
Y ya funciona
En este caso
Lo tenemos en inglés
¿Cómo sabéis que es?
Esta es la versión
De Gemini
A mí BART me dice
Que funciona
Sin VPN
Ni nada
Mmm
Hmm
Hi
Are you
Gemini
Igualmente ya haremos pruebas
En el canal
Más a fondo y tal
Me ha respondido
Desafortunadamente
No tiene signo del zodiaco
Vale
No me refería a esto
Eh
Revisa el chain log
Esto es
La actividad
Aquí
No sé
Es que a mí me aparecía como
No
Esto no es
Oh sí
A ver
Espérate
Aquí en la actividad
De BART
Si a veces suele aparecer
Como el modelo que utiliza
No
Nope
Nope
Eh
Help
Privacy
Updates
Vamos a ver
Vale
Vale
Vale
Vale
Vale
Vale
Sí
Sí
Sí
Sí
Sí
Pero como siempre
Tío
Google
Es que
Pasó igual cuando sacaron
Palm 2
Que no sabíamos si lo estábamos utilizando
Si no lo estábamos utilizando
Si estábamos con el sistema Lambda
Si estábamos con Palm 2
Dice
BART is getting the biggest update yet with Gemini Pro
What?
Starting today
Introducimos a Gemini Pro en BART
Para
Eh
Para una de sus mayores actualizaciones
Eh
Hemos
Hemos específicamente
Ajustado a Gemini Pro en BART
Para ser más capaz de hacer
Eh
Cosas como
Eh
Entendimiento y
Resúmenes
Razonamiento
Código y planificación
Puedes utilizar BART con Gemini Pro
Para eh
Prompt pasados en texto
Que eso pues
Eh
Con soporte para
Más modalidades
Viniendo pronto
Que esto es una pena
Porque esto es lo que más me interesa probar realmente
Ahora mismo
Pero bueno
Eh
Estará disponible en inglés
En más de 170 países y territorios para empezar
Y vendrá en más lenguajes y lugares
Eh
Como Europa
En el futuro cercano
¿Veis?
No lo tenemos por ahora en Europa
Guay
Eh
Porque hoy Google ha introducido
Dos Gemini su modelo más tal
No lo entiendo tío
No entiendo uno que
El modelo como tal
No salga de partida
Multidioma
O sea
Puedo entender
Vale
Que no me lo saques en Europa
Por tema de legal y todo esto
Pero que
Gemini Pro
No tenga
De partida
Más idiomas que el inglés
Se me hace bastante
Se me hace bastante
Un poco loco
Eh
Entonces la verdad que no
Sabría cómo testearlo ahora
Mmm
A ver
Y la voz
Era un texto
Speech
Vale
Vale
¿Alguna forma de saber
Si realmente estamos usando
Gemini?
Eh
Where is the
Eh
Part
That powers you
Vale
¿Cuál es el LM que te
Que te hace funcionar?
Vamos a ver
¿Ves?
Pero por ejemplo
Aquí me dice
Basado en la información
Que habrá buscado en internet
Que a lo mejor no está actualizada
Que está utilizando
Palm 2
I heard
About
A new
Model
Called
Gemini
Bueno no sé por qué
Le he puesto la interrogación
Vale
That's right
Gemini is compromising
Eh
Es un modelo prometedor
Eh
Desarrollado por Google DeepMind
Está diseñado para ser significante
Capacidades multimodal
No pero de nuevo
Esto
Por ejemplo
Lo de AlphaGo Techniques
Esto era algo que me interesaba un montón
Y que no he escuchado por ningún lado
Y esto era algo que Demis Hassabis
Había comentado en algunas entrevistas
Que internamente
Eh
Gemini iba a tener capacidades
Tipo
AlphaGo
No sé dónde ha quedado eso
Mmm
La parte de reinforcement learning
Más allá del típico
Reinforcement learning
For human feedback
Y tal
No sé dónde ha quedado
Pero
Pero esto
De nuevo
Es información que está sacando
De artículos
¿Vale?
De artículos
No actuales
No es información actual
Entonces bueno
Mmm
Sí
Puede ser que esto use el Gemini Pro
Pero no es lo que más nos interesa
Porque ni es la versión más potente
Ni es la versión en español
Ni es la versión multimodal
Entonces por ahora
Esto lo voy a dejar pendiente
Para echarle yo un vistazo más
A fondo por mi lado
Y
Y quiero explorar un poquito más
A ver qué más novedades hay
Si hay alguna más
Porque yo por ejemplo
Aquí en el canal de Google
Veo muchos más vídeos
Que no sé si
Si están todos vistos
Este sí
Este sí
Este sí
A ver
Mark Rober
A ver
¿Por qué?
¿Por qué a mí no me han llamado
Para probar?
O sea
Después de un año
Después de un año
Hateando a Google
Y a Bard
No me llaman
Maldita sea
A ver
De repente
Hola soy MrBeast
Y te voy a hacer
Una IA más potente
Que tal
Bueno pero esto es con Gemini Pro
Vamos a verlo rápido
Sí sí
Tengo la VPN en USA
Me aparecía bajo la IPE
Y tal
Esto me parece
Demasiado
Marketing
Para mi gusto
Ahora
No
Hay un vídeo
Que me llama mucho la atención
Por aquí
Que es este
Que tiene como
El diagrama del modelo
Pero no es como
Un resumen de 90 segundos
Vale
Creo que lo tenemos
Creo que tenemos
Bastante visto por aquí
Qué fuerte
Tío que hayan sacado Gemini
A ver
Si este vídeo
También lo hemos visto antes
¿Can Gemini find similarity?
Vale
Sí
Todos estos son los vídeos
Que están en la web
Con lo cual yo creo
Que por aquí
No hay nada más nuevo
¿Qué información nos falta?
Pues nos faltaría saber
Si va a haber una versión
Ultra
Disponible
Para todos
Como tenemos
ChatGPT
De pago
Si vamos a tener
Una versión como tal
O si no han sido capaces
De reducir costes
Recordemos que hay una parte
En todo esto
Donde Google
Había afirmado
Que
Que es Gemini
Bueno había rumores
Y tal
De que Gemini
Se pasaba al primer quarter
De 2024
Que lo estaban retrasando
Que les estaba costando
Tal no sé qué
No sé cuánto
Yo no tengo claro
Si realmente
Aquí ha habido presiones
A ver
Esto obviamente está muy preparado
Con lo cual
Ha llevado semanas de trabajo
Esto no es algo
Que improvisas en una tarde
Pero ciertamente
Claro
Yo esperaba
Que una salida
De este tipo
Yo creo que uno
De los éxitos
Que tuvo
ChatGPT
Cuando salió
Fue poner
En las manos
De los usuarios
Una herramienta
Con la que empezar
A trabajar
Desde el día cero
En este caso
Lo que nos prometen
Es un acceso
A Gemini Ultra
A través de la API
Donde poder construir
Herramientas
Y cosas
Y tal
A partir del día
13 de diciembre
No es una fecha
Muy lejana
Está guay
Me da tiempo
Para descansar
Y tomármelo con calma
Pero
No sé
Es como que me falta
Un poco eso
El hands on
De lo que me has enseñado
No me puedes estar enseñando
Vídeos espectaculares
De webcams
De una cámara
Grabando una mesa
Donde pasan un montón
De cosas
Con la multimodalidad
De cómo crea razonamientos
Cómo te hace interfaces
Y tal
Y luego lo único que me dejo
Es la versión media
A través de BART
Limitado a Estados Unidos
Si le hablo en inglés
Vamos a gestionarlo bien
Google
Vamos a llevarnos bien
Pero bueno
Más allá de eso
Bastante interesante
El avance del modelo
O sea
El modelo
Ciertamente
Es una bestia parda
Y es un punto de partida
Lo que tenemos que entender
Es que
Gemini
Para Google
Representa
Un modelo de nueva generación
Que ahora se va a seguir entrenando
Que van a seguir refinando
Que van a seguir mejorando
Y que va a potenciar
Muchas de sus investigaciones
A nivel interno
Eso va a estar
Muy muy guapo
Es decir
El poder cogerte
Lo que hemos dicho antes
Al Gemini Ultra
Y meterlo dentro de un robot
Y ver cómo funcionan
Los Vision Language Model
Art Language Model
Y todo esto
Para el razonamiento del robot
Pues es algo bastante
Bastante
Que quiero ver
¿Vale?
Y mira que
Google DeepMind
Tiene trabajos muy guapos
De este estilo
Vamos a meternos un momento
En el Technical Report
Vamos a abrirlo
Por un lado
Quiero saber vuestras impresiones
Que casi nunca
Casi nunca os hablo
En estos directos
Pero quiero saber un poco
De vosotros
Abro el report
Y al mismo tiempo
Me meto a Twitter
Porque tiene que estar
Interesante la cosa
Oriol Viñals
Investigador de DeepMind
Nos dice
Tiempos excitantes
Damos la bienvenida
Gemini
Que consigue
En el Benchmark
MMLU
Más de 90
State of the art
En 30 de 32 Benchmarks
En texto
Todo esto lo sabemos
Vale
Dice
Los mayores retos
En los modelos de lenguaje
Son más allá
De triviales
Y obvios
La evaluación de datos
Y datos
O sea la evaluación
Y datos
Vale
Nada
Pensaba que estaba hablando aquí
Que iba a meterlo
Del tema de AlphaGo
Y tal
Vale
Vamos a
A darle aquí
Ah bueno
Espérate
No hemos visto el blog
Tampoco de Google
Que han sacado
Lo estoy probando en español
Confirmo
Gemini reconoce imágenes
Y hace código
Twitter está lleno
De opiniones
Sobre la comparación
Con GPT-4
A ver
Los que los estáis probando
¿Dónde los estáis probando?
Porque
Porque me interesa
A ver
A ver
A ver
No
Es que me sale el feed
Me sale el feed
De mi gente
Que sigo
Eric
Eric
Yang
Que comentas
Every single demo
In this video
Blows my mind
Eric Yang
Que estuvo trabajando
En su época
Si no me equivoco
Creo que estuvo en Google
Y que ahora trabaja
Metido en robótica
Pues entiendo que este vídeo
Le flipará bastante
Hace cuatro años
Jamás me hubiera imaginado
Este nivel de capacidades
Es que esto es cierto
Estamos un poco ya entrando
En esta batalla comercial
Entre OpenAI
Y Google
Y tal
Y quiero que no dejemos
De olvidar lo más obvio
Y es que la inteligencia artificial
Ahora mismo
Ha llegado a un estado de madurez
Que hace cuatro años
Era impensable
Me suelo centrar mucho
En hablar de modelos generativos
De imágenes
Y vídeos
Y todo esto
Porque es como la forma
Más evidente
De
De contaros
De mostraros
Como hace cuatro años
Teníamos una imagen
Que era horrorosa
Y hoy tenemos una imagen
Espectacular
Y hacer la extrapolación
A que eso mismo
Está pasando en
Predicción meteorológica
Predicción de nuevos materiales
Generación de proteínas
Tal
O sea
Hay un montón de campos
Que os tendría que presentar
Datos numéricos
Que a lo mejor
No son tan visuales
Pero tenemos que entender
Que el ritmo de progreso
Que estamos viendo
Es increíble
O sea
Es increíble
Y que todo esto
Está habilitando
Un montón de cosas
Que no estamos siendo capaces
De asimilar
O sea
El problema que tenemos
Ahora mismo como humanos
Es asimilar
Todas las novedades que hay
Porque hay modelos
Que salieron en mayo
En junio
Que a día de hoy
Que pueden aportar
Un montón de valor
Pero es que
Han pasado desapercibidos
Porque cada día
Tenemos un titular nuevo
Y cada día
Abandonamos una herramienta
Que empezamos a probar
Para empezar con otra
Y no somos capaces
De lidiar con todo esto
Entonces
Hay mucho potencial
Puesto sobre la mesa
Y hay muchas expectativas
Y hay gente que dice
Que esto es hype
De lo que la IA puede hacer
Y tal
Y el problema no es tanto
De que la IA
No esté entregando
Capacidades
Que sí
Que muchos de vosotros
La usáis en el día a día
Pero
Hay mucho más
Ahí
Que no estamos sabiendo aprovechar
Por lo rápido
Que estamos avanzando
¿Vale?
¿Qué tan chulo me parece
El modelo?
Me parece una barbaridad
O sea
Me parece
Bastante
Bastante guapo
Pero hay que probarlo
¿Vale?
Hay que probarlo
No me vale solo con
No me vale solo con
Con que me muestren
Vídeos y demos
Sino que quiero que la gente
Empiece a testearla
A ver un momentito
Dejadme que haga aquí
Mis búsquedas
Un momentito
Vamos a ver
¿Qué dice la gente
De Gemini?
La era Gemini
Está aquí
Estamos anunciando
Además ojo
La han llamado Gemini 1.0
Están jugando un poco
A lo que ha representado
GPT-2
GPT-3
GPT-4
Pues aquí también tenemos
Gemini 1.0
Nuestro modelo más capaz
Y ta ta ta
Toda la información aquí
Son Darpichai
Sin some
Question
On what
Gemini is
Más allá del Zodíaco
Es curioso el nombre
¿No?
La han llamado
Como un
Signo
Zodíacal
La mejor forma
De entender Gemini
Es viendo este vídeo
Que es el vídeo
Que hemos visto antes
Vídeo bastante
Bastante
Guapo
Vale
Nada
Novedades
Ah vale
Qué susto
Me sale que no seguí
Aurel
Vale
Mi tweet
Vale
Los memes
A ver
Now Gemini Pro
Is coming today
In Bart's
Biggest
Biggest update yet
Vale
En inglés
In 170 countries
Con más
Capacidades
De razonamiento
Lo que hemos visto
¿No?
Tenemos Bart
Actualizado
Con Gemini
Y habrá que hacer
Habrá que hacer
Pruebas
Más a fondo
Vale
Y lo típico
¿No?
La gente preguntándole
A lo que hemos hecho
Nosotros
Preguntándole al modelo
Si realmente
Qué modelo utiliza
Pero el modelo
Busca en internet
Con lo cual
No está actualizado
Y no lo sabemos
En principio
En principio
Debería estar
Debería estar
Actualizado
Seguramente
A ver
A ver si esa me ha dicho algo
Nada
No ha dicho nada
Siguen con los corazones
Y con sus cosas
Es que antes
He visto un tweet
De alguien
De OpenAI
Y me ha parecido
Muy interesante
Que decía
Que
Que cuando sube la marea
Como que
Sube el nivel
Para todos
O algo así
¿No?
Que era una forma
De decir
Que está guay
Que aparezca un modelo
Que sea más potente
Porque eso
Como que beneficia a todos
Y obliga a todos
Ser más competitivos
O sacar cosas más potentes
Eso está guay
Habrá que ver
Gemini
Frente a GPT-5
¿No?
Esto es un poquito
También
La gran duda
¿Cuándo saldrá GPT-5?
Nah
GPT-5 se espera
Para 2025
Amigos
Vale
Os sigo leyendo
Por el chat
Nah
OpenAI
Should be afraid
Bueno
Ahora tenemos que esperar
Todos los tweets
De RIP
GPT-4
OpenAI
Is dead
No sé que
No sé cuántos
Sigue estos 10 consejos
Para no sé cuántos
Veremos todos los cursos
De Gemini
Prompt Engineer
Y todas estas cosas
A ver
Al César
Lo que es del César
Le reconocemos a Google
Que han hecho bien
Ya por fin
El trabajo de
Anunciar el sistema
Ya tocaba
O sea
A mí esto de que lo iban a mover
Para 2024
Me preocupaba
Porque
Realmente estaban moviendo
Como a futuro
El lanzamiento de un modelo
Que tiene que sorprender
Por sus capacidades
Creo que han hecho bien
O sea
Creo que lo que han presentado hoy
Nos ha sorprendido
Está guay
Pero
Pero si se hubieran
Seguido retrasando
Es que se estaban acercando
A que OpenAI
Siguiera sacando cosas
Y OpenAI
Esto
Internamente
Lo sabían
No lo esperaban
Porque toda la aceleración
Todo el
Pizar el acelerador
Que han hecho
Durante esta etapa
Final del año
En septiembre
Octubre
Noviembre
De sacarnos
GPT4V
Meter DALI 3
Meter todas las novedades
Que vimos en el Devday
Echar al SEO
No, eso no
Todo eso
Pues responde un poco
A que
Hoy se vea más
Igualado
Frente a Gemini
Lo que es ChatGPT
Si hubiéramos tenido
La versión de ChatGPT
De agosto
Vale
También meterlo de la voz
Meter el Whisper
Si hubiéramos tenido
El ChatGPT
Que teníamos en agosto
Hoy Gemini
Se hubiera visto
Como algo
Mucho más impresionante
Creo que ChatGPT
Está por detrás
Por lo que han presentado
Con los números
Sobre la mesa
Y todo esto
Creo que ChatGPT
Se queda por detrás
Pero no muy por detrás
Entonces está bien
Está bien
Corresponde bien
A la cronología
De los hechos
El modelo
Que más tarde ha salido
Parece ser el más potente
Y ahora tenemos que ver
Si eventualmente
Tenemos una respuesta
De OpenAI
Un OpenAI
Que lo vamos a decir
Que aquí
Que aquí no hay favoritismos
Entre unas empresas
Y otras
Yo no sé
Qué está pasando
Internamente en OpenAI
Pero ciertamente
El deterioro de ChatGPT
Es una cosa
Comentar
¿Vale?
GPT4 Turbo
Creo que tiene
Unos cuantos
Problemas que resolver
Por decir algunos
El Premium
Lo tiene encapado
O sea
Si tú te das de baja
Hoy como usuario
Usuario Premium
No te puedes volver
A dar de alta
Gente que nunca
Haya aprobado
A GPT4
Todavía no puede acceder
Porque lo cerraron
Hace cosas de dos meses
Y no lo han vuelto a abrir
Yo no sé
Qué está pasando
Internamente
Yo no sé si
Toda la movida
Que hubo con
Samalman saliendo
Y todo esto
Tiene que ver
Entre otras cosas
Con falta de recursos
Para ejecutar
Todos los sistemas
Que tienen
Pero algo está pasando
Porque lo tienen
Encapado
Y lo tienen
Encapado
Luego está el rendimiento
De GPT4 Turbo
Que mucha gente
Dice que está
Que se ha empeorado
Yo sí veo
Que se ha empeorado
En ciertas cosas
Y una que es interesante
Comentar
Y lo leí en un tweet
Y me pareció
Bastante correcto
Es algo que se prometía
Como muy guapo
Que era la unificación
De todos los modelos
No está muy bien hecha
¿Vale?
Antes
Cuando tú tenías modelos
Como GPT4 Classic
El Code Interpreter
Dalit3
Y todo esto por separado
El Web Browsing
Y todo esto por separado
¿Sabías qué pedirle
A cada modelo?
Y con eso
Cada modelo funcionaba
Como tocaba
Bien
Ahora lo que me encuentro
Muchas veces
Es que yo le pido
A ChatGPT
Oye quiero que me hagas
Un análisis de sentimiento
De todas estas opiniones
Por ejemplo
Y sobre eso
El modelo
En vez de decir
Tío soy un modelo
De lenguaje
Sé analizar perfectamente
Como modelo de lenguaje
El sentimiento
De si esta opinión
Es positiva o negativa
Lo que activa
Es el Code Interpreter
Para hacer
Llamo a una librería clásica
De análisis de sentimiento
Y me hace el código
Y luego falla
Porque además
No puedes cargar
Los modelos de internet
Me encuentro un montón
De errores de esto
De routing
De redirigir
La tarea
Que le estoy pidiendo
A la parte correcta
Del modelo
Y esto creo que es un problema
Que si OpenA
No lo resuelve
Va a generar muchas fricciones
En muchos usuarios
Porque
No muchos de vosotros
Tenéis que saber
Que si le pides
Un análisis de sentimiento
El modelo de lenguaje
No está haciendo
Un análisis de sentimiento
Sino que se lo está mandando
El Code Interpreter
Eso a nadie le tiene que interesar
Eso debería ser algo interno
Del propio modelo
Y la IA tiene que darte
El mejor resultado
Y si una persona se acerca
Paga el premium
Si consigue algún día pagarlo
Y de repente se encuentra
Con que el modelo
No te responde
Como tú esperas
Pues tu respuesta
Es más natural
Es decir
Vaya puta mierda
¿Vale?
Pues
OpenAI
Está teniendo ahí
Unas movidas curiosas
Dignas de analizar
Y creo que
Gemini
Ha llegado en el momento
De mayor debilidad
De GPT-4
Que además lo estaba pensando
Esta mañana
Creo que estamos en un punto
Donde ChatGPT a día de hoy
Resuelve cosas
Sigue siendo muy útil
Es una herramienta muy útil
Pero
Hay una percepción general
De que el sistema
Va mal
¿Vale?
Va mal
A esto le sumamos errores
De conexión
De respuestas
Que se quedan incompletas
Y de repente
Se te
Tal
O sea
Hay cosas
Que tienen que solucionar
Y que se tienen que poner
Las pilas
Porque
Ahora ya
La competición es real
¿Ok?
No son errores
Es descargar a la GPU
Bueno
Hay de todo
Hay de todo
Pero aún así
Hay errores
O sea
Si el modelo
En vez de activar
El camino A
Me activa el B
Ahí hay un error
¿Vale?
Nada
A ver
¿Qué más tenemos por aquí?
Me interesa leer
Esto
De
Este artículo
¿Vale?
Vamos a traducirlo así
Para no estar haciendo
Como
Chapurreando
Me salto a la parte
De Sundae
Del SEO
Porque va a ser como
Más
Burocrática
Y me salto a la opinión
De Demis Hassabis
Director ejecutivo
Y cofundador
De Google DeepMind
Dice
La IA ha sido
El centro de trabajo
De mi vida
Al igual que el de muchos
De mis colegas de investigación
Desde que programé
La IA para juegos
De computadora
Cuando era adolescente
Y a lo largo de mis años
Como investigador
De neurociencia
Tratando de comprender
El funcionamiento
Del cerebro
Siempre he creído
Que si pudiéramos
Construir máquinas
Más inteligentes
Podríamos aprovecharlas
Para beneficiar
A la humanidad
De manera increíble
Maneras
Esta promesa
De un mundo potenciado
Responsablemente
Por la IA
Continúa
Impulsando nuestro trabajo
En Google DeepMind
Durante mucho tiempo
Hemos querido construir
Una nueva generación
De modelos de IA
Inspirados en la forma
En la que las personas
Entienden el mundo
E interactúan con él
IA que se siente menos
Como un software inteligente
Y más como algo útil
E intuitivo
Un ayudante
O asistente experto
Hoy estamos un paso
Más cerca de esta visión
Al presentar Gemini
Me gusta esto
Me gusta que no presenten
A Gemini como
La IA
Sino como
Es el primer paso
Hacia
Algo que ellos
Visionan
Y que
Nos estamos moviendo
Cada vez más cerca
El modelo más capaz
Y general
Que jamás
Hayamos construido
Gemini
Es el resultado
De esfuerzos
De colaboración
A gran escala
Por parte de equipos
De Google
Incluido nuestros
Colegas de Google Research
Fue construido
Desde cero
Para ser multimodal
Lo que significa
Que puede generalizar
Y comprender
Operar
Y combinar
Sin problemas
Diferentes tipos
De información
Incluido texto
Código
Y tal
Esto lo sabemos
También nuestro modelo
Más flexible
Hemos optimizado
Gemini 1.0
Con estas versiones
Ok
Rendimiento de última generación
Vale
Estos son los datos
Que hemos visto antes
Aquí no hay nada nuevo
Se está haciendo una exploración
Muy rápida
Porque quiero que me hablen
Algo de la parte
De Alpha Zero
Y todo esto
Que no sé si
Lo van a incluir o no
Comprender texto de imágenes
Todo esto lo hemos visto
Nos hemos hecho un buen
Lo de Alpha Code 2
Este ojito
Vale
Tenemos un Technical Report
También de Alpha Code 2
Súper interesante
También lo echaré
Un ojo en profundidad
A ver
Aquí como lo integran
Lo de Gemini
En el diagrama
Nada
O sea son como versión
Ah aquí
Gemini Pro
Vale
Usando Gemini Pro
Que curioso
Que curioso
Esto es muy fuerte
O sea esto
Ojito
Ojito
Ojito
Ojito
A ver cuando sacan
Este modelo
Pero
Lo de Alpha Code 2
Superando al modelo
Alpha Code
Que de nuevo
Os invito a ver
El vídeo que tenemos
En el canal
A ver
Let's see
Alpha Code
Porque es un vídeo
Bastante explicativo
De cómo funciona
Hola que tal
De hace dos años
Un vídeo bastante
Xulesco
Con sus animaciones
Y sus cositas útiles
Y que explica muy bien
Cómo funcionan
Estos sistemas
Alpha Code
Pero ahora tenéis que pensarlo
Como una versión avanzada
Donde han usado
Al modelo Gemini
Nuevo
Vale
Eso por un lado
Y
Vale
Alpha Code 2
Esto lo habíamos visto
Blablabla
85% frente al 50%
Vale
Más confiable
Escalable
Y eficiente
Vale
Esto es nuevo
Esto sí que me interesa
Entrenamos Gemini 1.0
A escala
En nuestra infraestructura
Optimizada
Para ir utilizando
Las unidades de procesamiento
Tensorial
Las TPUs
V4
Y V5e
Diseñadas internamente
Por Google
Y lo diseñamos
Para que sea nuestro modelo
Más confiable
Y escalable
Para capacitar
Y el más eficiente
Para brindar servicios
En los TPUs
Gemini corre significativamente
Más rápido
Que los modelos anteriores
Más pequeños
Y con menos capacidades
Claro
Pensad aquí
Que a diferencia de
OpenAI
A través de la infraestructura
De Microsoft
Y todo lo que estamos viendo
Con el resto de empresas
Aquí Google
Tiene sus propios chips
De procesamiento tensorial
Es decir
Chips especializados
Para la ejecución
De inteligencia artificial
Y esta es la gran ventaja
Que se le
Que se le reconoce
A Google
Respecto a su competencia
Y es que ellos
Tienen este dominio
De la infraestructura
Y tienen un montón
De TPUs
Y tienen su infraestructura
Interna
Para poder ir escalando
Todos estos modelos
Y hacer cada vez
Entrenamientos más masivos
Entonces mola
Mola que estén
Hablando un poquito
De esto
Estos aceleradores
De IA
Diseñados a medida
Han estado en el corazón
De los productos
Impulsados por IA
De Google
Que prestan servicios
A miles de millones
De usuarios
Como Search
YouTube
Gmail
Google Maps
Google Play
Y Android
También han permitido
A empresas de todo el mundo
Entrenar modelos de IA
A gran escala
De forma rentable
Me estoy acordando
Hace una semana
Estuve en un evento
Interno de estos
De YouTube
Que se organizan y tal
Que hablando con gente
De YouTube
Interna
Que al final
No dejé de ser Google
Me decían
Ojito al 2024
Ojito al 2024
Yo no sé si ya sabían
Lo que se venía
Tenía que haber preguntado
Tenía que haberles preguntado
Oye Gemini
¿Qué?
A ver si veía alguna sonrisilla
En la comisura de los labios
Hoy anunciamos el sistema TPU
Más potente
Eficiente
Y escalable
Hasta la última fecha
CloudTipU
Ah bueno
Este anuncio
Me lo he perdido
Diseñado para entrenar
Modelos de IA
De última generación
Esta TPU
De próxima generación
Acelerará
El desarrollo de Gemini
Y ayudará a los desarrolladores
Y clientes empresariales
A entrenar modelos de IA
Generativa
A gran escala
Más rápidamente
Vale han sacado
Como una nueva versión
De las TPUs
Que la última
Que yo tenía presente
Era la E
Que era como más eficiente
Si no recuerdo mal
Ahora han sacado
Las TPU P
Vale
Han sacado un montón
De cositas hoy
A ver
Vamos a vernos esto
Esa es como la cronología
De las TPUs
Estos son los cerebros
Que bombean
Y que generan
Y que entrenan
A estas inteligencias artificiales
Tan potentes
En este caso
Las TPUs
Vale
Bueno bueno bueno bueno
Hay Google diciendo
Ey que también hacemos cosas
Chavales
Aquí el
El golpe que tiene que dar Google
Sobre la mesa
No es solo para usuarios
Generales
Tienen que
Volver a ser atractivo
Todo su infraestructura
Y todo el servicio
De cloud
Que es uno de los modelos
De negocio que tienen
Que es muy lucrativo
Para ellos
Y que ahora mismo
Mucha gente estaba viendo
Que se lo estaba llevando
Microsoft
Por ejemplo
Con el sistema
De Azure
Y todo esto
Al final
Toda la imagen de marca
Que genera ser el líder
En inteligencia artificial
Impacta mucho
De tus verticales
De negocio
También esto
Estaba pasando
Con Google Educación
Estaba pasando
Con el sistema
De
Google
¿Cómo se llama?
El Google Docs
El Google Slides
Y todo esto
Las herramientas de ofimática
Todo esto
Al final
Se ve perjudicado
De esta visión
Que hemos tenido
De Google
Durante todo este 2023
De estar quedándose
Atrás en toda esta revolución
De la idea
Entonces
Todo esto de Gemini
Va a empezar a llegar
Vamos a ver un montón
De anuncios estos días
De Gemini
En todas las cosas
De Google
Obviamente
Qué bonito
Aquí amigos
Aquí
Aquí es donde
Se está desarrollando
La conciencia
Que Geoffrey Hinton
Percibe
Que tienen estos enormes modelos
Ah
Conciencia no dicho
Pero si capacidad
De entender
Cositas
Vale
Muy bien
Bueno
Infraestructura
Muy bien
Muy guay
Todo correcto
Diseñado para entrenar
Modelos de IA
De última generación
Esta es TPU
De próxima generación
Acelerar el desarrollo
De Gemini
Blablabla
Ok
Construido con responsabilidad
De seguridad
Desde el centro
Ok
Poner a Gemini
A disposición del mundo
Gemini 1.0
Ahora se está implementando
En una variedad
De productos
Y plataformas
Gemini
Gemini Pro
En los productos
De Google
Estamos acercando Gemini
A miles de millones
De personas
A través de los productos
De Google
A partir de hoy
Bart utilizará una versión
Mejorada de Gemini Pro
Para un razonamiento
Planificación
Comprensión más avanzado
Y más
Esta es la mayor actualización
De Bart
Desde sus lanzamientos
Estará disponible en inglés
En más de 100
Vale esto lo sabemos
También llevaremos Gemini
A Pixel
Vale
Vale
Este es el anuncio
Del Pixel
Vale
Este es el anuncio
Del Pixel
Pero es un artículo
De
Curioso eh
Ah no vale
6 de diciembre
Pero a ver
El artículo
De las TPU
No sé si estaba puesto
Como para 7 de diciembre
No sé
Me he liado con las fechas
Vale si
Efectivamente han sacado
También
Artículos
Sobre
¿Cómo?
Espérate
Espérate
A new phone
No lo veo
Even me
Wow que guapa esta canción
Que va a tener el copyright
Y que me va a joder
Toda la monetización
Del directo
Vale
Bueno todo esto
A ver lo que dicen aquí
Es que
Se viene una actualización
De diciembre
Donde Gemini
La versión nano
Llegará al móvil
Móvil es
Como este
Que es el
Pro
O sea el
Si el Google Pro 8
Y
Y está guay
Bueno vale ok
Que servirá pues para
Cosas como esta
Yo esto lo uso bastante
Además es una cosa que me gusta hacer
Como en las charlas
De demostrar el potencial
Que tiene
Transcribir
Grandes fuentes de audio
Y hacer transcripciones
Y llevártelas a uno de estos enormes modelos
Eso lo hago con la grabadora
Esta boy que ahora por defecto
Va a tener el botón summary
Que va a usar a Gemini
En
Directamente en el móvil
Que es la versión ultra
Vale es la versión
Bueno
Perdón
La versión nano
No la versión ultra
Si fuera la ultra
Sería una locura
Que también habrá que ver
Benchmarks
De como rinde esto
Comparado con los otros modelos
Vale
Para Gemini ultra
Actualmente estamos completando
Exhaustivas comprobaciones
Vale vale vale vale
Esto es lo que quería saber
Gemini ultra próximamente
Para Gemini ultra
Actualmente estamos completando
Exhaustivas comprobaciones
De confianza y seguridad
Incluida la formación
De equipos rojos
Red teaming
Que se dice en inglés
Por parte de partes externas
Confiables
Y refinando aún más
El modelo mediante ajustes
Y aprendizaje reforzado
A partir de
Comentarios humanos
El reinforcement learning
From human feedback
Antes de que esté disponible
Ampliamente
Como parte de este proceso
Pondremos Gemini ultra
A disposición de clientes
Desarrolladores
Socios y expertos
En seguridad
Y responsabilidad
Seleccionados
Para una experimentación temprana
Y comentarios
Antes de implementarlo
Para desarrolladores
Y clientes empresariales
A principios del próximo año
Esto es
Esto es lo que estaba buscando
Vale
Gemini ultra
La versión más potente
Se retrasa
A principios de 2024
Y esto encaja
Con el rumor
Que habíamos escuchado
Vale
Que habíamos escuchado
Todavía están en proceso
De refinamiento
Y de
Hacer este proceso
De reinforcement learning
From human feedback
Que te da
La versión más
Chat GPT
De GPT4
Por así decirlo
La versión más asistente
Que responde
A unas pautas concretas
Entrenadas para tal
Entonces
Esa es la cosa
Todavía no estaba
100% cocinado el modelo
Nos han enseñado
Qué puede hacer
Qué capacidades tiene
La multimodalidad
Pero están haciendo
Una
Presentación temprana
Del modelo
Ok
Y esto era interesante
Ver escrito esto
Vale
Leo los superchats
Leo los superchats
Os leo
Os leo
Os leo
Os leo
Pero no veo
Ningún superchat
A ver
Un momentito
Sí
Tengo
Cuando creo
Que tardará
En llegar
La AGI
Y qué crees
Que se necesita
Para llegar a ella
Pues la AGI
Entendida bajo la definición
De OpenAI
Que es un modelo
Capaz de hacer
La mayoría de tareas
Productivas
De las que los humanos
Podemos hacer
Pues todavía queda
Queda bastante
No
A ver
Bastante
Me refiero
Queda mucho menos
De lo que se esperaría
Hace 5 años
Pero no creo
Que vaya a ser algo inminente
Como están diciendo
Mucha gente
No creo que vaya a ser
Algo de 1
2
3
4 años
Va a ser
Más largo
Yo creo
Y creo que van a ser
Falta todavía
Subir escalones
Tan grandes
Como los que hemos subido
En los años atrás
O sea
Creo que tenemos que encontrar
Todavía
Aciertos
Y habrá que ver
O sea
A lo mejor
OpenAI internamente
Con lo de
Q, Estrella
Y todas estas historias
Y Gemini
Cuando lo saquen
Full
Full version
A lo mejor
Encuentran cosas
Pero todavía
Falta mucho
Y creo que falta mucho
No solo de
Tener
Músculo cerebral
De tener estos cerebros
Potentes
Capaces de hacer
Un montón de cosas
Sino
De lo otro
Que han demostrado
¿Sabes?
El tema
De coger a estos modelos
Y que sean capaces
De crearte una interfaz
De usuario
Que respondan
A las peticiones
Del usuario
Y cosas así
Son cosas
Que no tienen
Tanto que ver
Con
Qué tan inteligente
Es el modelo
Sino de sacarle
Partido
Sacarle rendimiento
A este modelo
De crear flujos
De trabajo
Que tengan más sentidos
¿No?
Otro ejemplo sería
Si ChatGPTT
Puede programar código
Guay
Pero no es hasta
Que lo metes
En un entorno
De programación
Como es Cursor
Y le metes sistemas
RAG
Y le refinas los prompts
Y le haces
Metaprompting
Y todas estas cosas
Que no empiezas
A sacarle un rendimiento
Real
Que puede empezar
A hacerte útil
En entornos de trabajos
Reales
Entonces creo que
Falta mucho
De ese trabajo
Y mucho de ese trabajo
Depende
Tenemos un cuello
De botella
Que es el que comentaba antes
Primero
Estamos peleándonos
Por a ver
Quien saca la IA
Más potente
Lo cual está guay
Es un camino
Que hay que seguir
Pero faltan otras cosas
Falta que estos modelos
Sean más eficientes
Que sean
Que estén más integrados
En herramientas
Falta investigar
Cosas
Necesarias
Para que estos modelos
Se puedan desplegar
En entornos profesionales
Reales
Pues temas de privacidad
Temas de
Prompting
Inyección
Bueno
Inyección de prompts
Que te hacen
Que a lo mejor
Se filtren datos
O que a lo mejor
El rendimiento del modelo
No sea el que
Te gustaría
Si quieres hacer
Una aplicación bancaria
Donde la reputación
De tu banco
Se tiene que respetar
Es decir
Estos son cosas
Que en entornos
Profesionales reales
Se están teniendo en cuenta
A la hora de decir
Vamos a esperar un poco
Antes de desplegar
Estos modelos
Entonces
Todo esto
Todo esto
Se tiene que resolver
Y son problemas
No de producto
Son problemas
Científicos
Abiertos
Todavía el tema
De que el modelo
No filtre información
O que no se salte
Las salvaguardas
Que se le imponen
Con el reinforcement
Learning from human feedback
Son problemas abiertos
A nivel científico
Entonces hasta que eso
No se resuelva
No se van a dar pasos
Para que estos sistemas
De esta generación
Se empiecen a integrar
En todos los entornos
Profesionales
Y por tanto
Menos aún
Podemos hablar
De una AGI
Una inteligencia artificial general
Capaz de hacerlo todo
Además que
Que una IA
General sea capaz
De hacerlo todo
Implica también
Sectores productivos
Como la
La robótica
Y la robótica
Todavía está en pañales
La robótica
No solo tiene que resolver
Problemas de
Que el robot
Sea capaz de moverse
De forma inteligente
Y tal
Sino que también
Tiene que haber cosas
De resistencia
De los materiales
Que conforman al robot
Para que si se te cae
El suelo
En una labor
Doméstica
De limpieza
Vamos a pensar
Que es una actividad
Productiva
No se te rompa
¿Vale?
Y que tenga entonces
Un sentido
O sea
Hay muchas cosas
Que el modelo
Actual de sociedad
Que tenemos
No nos permite
Decir que la AGI
Vaya a estar en dos años
Porque eso significaría
Que todos estuviéramos
Trabajando
Para que esa AGI
Fuera real
Y eso no implica
Que solo
O sea
Y eso no supone
Que solo los modelos
Sean más inteligentes
Y más generales
Hace falta más cosas
¿Vale?
Hace falta más cosas
Que podemos entrar
En un loop positivo
Donde lo que estas AGI
Hoy nos ofrecen
Nos permitan descubrir
Cosas más eficientes
Y materiales más tal
O baterías más tal
Bueno
Puede ser
Pero en dos años
Créedme que vamos a estar
Bueno
No digo igual
No digo igual
Porque en uno
Han cambiado muchas cosas
Y muchos sectores productivos
Se están transformando
Pero no vamos a estar
Tan diferentes
A como estamos
En 2023
¿Vale?
Me alegra ver
Que Google por fin
Ha empezado a enseñar
La multimodalidad
Con video
Abre tal cantidad
De casos de uso
Eso sí está
Bastante guay
¿Vale?
Funciona preguntar
Is Bart integrated
With Google Gemini
Y preguntar en inglés
Para empezar a probar
No lo sé
No creo
No creo que
O sea que
Cuando tú le haces esa pregunta
El modelo te puede responder
Cualquier cosa
Y te va a responder
Con las fuentes
Que busca de internet
Y eso no es una seguridad
De que el modelo
Realmente esté utilizando
Gemini o no
Que seguramente
Lo esté utilizando
Pero es que
Para estar hablándole
En inglés
Y estar haciendo pruebas
Que no puedo comparar
Con la versión de Bart
Anterior
Porque tampoco
Es que la haya probado mucho
Pues prefiero hacerlo
Con calma
Y sacar unos benchmarks
Que tengan rigurosidad
Y ya los traeré
En un vídeo
Aquí actualizado
En el canal
A principios del próximo año
También lanzaremos
Bart advanced
Ojo
Es que aquí hay un montón
De anuncios
A ver
Vale
Este es el vídeo
De Mark Rober
Vale
Look out for
Gemini Ultra
In advanced version
Of Bart
Early next year
Gemini Ultra
Y software
Lo estoy leyendo en inglés
Espérate
Vale
Gemini Ultra
Es nuestro modelo
Más grande y más capaz
Diseñado para tareas
Altamente complejas
Y diseñado para comprender
Y actuar rápidamente
Sobre diferentes tipos
De información
Una de las primeras formas
En que podrás probar
Gemini Ultra
Es a través de Bart advanced
Una nueva experiencia
De inteligencia artificial
De vanguardia
En Bart
Que le brinda acceso
A nuestros mejores modelos
Vale
Este es el chat GPT Pro
Vale
Este será el chat GPT Pro
Y será de pago
Seguramente
Actualmente estamos completando
Pruebas exhaustivas
Con profesionales de seguridad
Vale
Esto se alinea
Con el enfoque audaz
Y responsable
Que hemos adoptado
Desde el lanzamiento de Bart
Hemos incorporado seguridad
A Bart
Vale
Un momentito
Con Gemini
Estamos un paso más cerca
A nuestra visión
De hacer Bart
El mejor colaborador
Pues efectivamente
Gemini Pro
Está disponible
Ya en Bart
Pero la versión Ultra
Que es la versión
Que más nos interesa
Con la multimodalidad
Estará disponible
En una versión advanced
Que será de pago
Seguramente
Y que competirá
Y que competirá directamente
Con Chat GPT
Ahí en ese momento
Es cuando haremos
El vídeo de
Chat GPT Pro
O Plus
Chat GPT Plus
Frente a Bart Advanced
Muy bien
Muy bien
Muy bien
Muy bien
Muy bien
Muy bien
Pues yo creo que lo tenemos
Casi todo cubierto
Aquí en este blog
Están saliendo unas cosas
Que ciertamente
Lo habíamos visto
En otro lado
Este es un hito importante
En el desarrollo de la IA
Y el comienzo
De una nueva era
Para nosotros
En Google
A medida que continuamos
Innovando
Hemos logrado
Grandes avances
En Gemini hasta ahora
Y estamos trabajando
Actuamente
Para ampliar aún más
Sus capacidades
Para versiones futuras
Incluidos avances
En planificación
Y memoria
Esto
Esto
Es lo que me falta
Esto de aquí
Incluido avances
En planificación
Y memoria
Eso
Es lo que
Demis Hasabis
Nos prometió
En una entrevista
Que dijo
No
Estamos metiéndole
Capacidades
Tipo AlphaGo
A nuestro sistema
Bla bla bla
Y eso
Son las capacidades
De planificación
Que tienen que ver
Con el reinforcement learning
Que os hablé
En el vídeo
Del pasado
Presente
Y futuro
De la inteligencia artificial
Ese futuro
Todavía no lo tenemos
Entre manos
Porque yo
Os puse como fecha
O como hito
La salida de Gemini
Para empezar a ver
Un poco de ese futuro
Porque pensaba
Que lo que iban a sacar
Directamente era ya
Una versión
Que tuviera estas capacidades
Eso se va a quedar guardado
Para lo que será
La versión 3.0
Del deep learning
¿Vale?
Seguimos
Si recordáis
De aquel vídeo
Yo os hablaba
De la versión
1.0
2.0
Y 3.0
Y en la etapa
Deep learning
2.0
Una de las cosas
Que yo hacía
Encapié
Recordemos que ese vídeo
Salió en septiembre
Todavía no había salido
Nada de lo de
ChatGPT
Os hablaba
Del tema de la multimodalidad
Como parte importante
El uso de datos
El uso de datos sintéticos
Como algo importante
Del deep learning
Deep learning 2.0
Eso
Esto si os dais
Cuenta lo estamos
Lo estamos recorriendo
Muy rápido
Ya hablamos
De estos sistemas
De estos sistemas multimodales
Todos los grandes modelos
En cuestión de un año
Han pasado a ser solo
LLMs
A
No sé cuál es
Large
LLMs
Era
Large multimodal models
Entonces todo este recorrido
Lo estamos haciendo
Estamos consumiendo
La etapa
Del deep learning 2.0
Pero la interesante
Es la siguiente
La interesante
Es la que
Usando estos modelos
Como base
Este deep learning 2.0
Empezamos también
A meterle
Todas estas técnicas
De búsqueda
De razonamiento
Más allá
De tu dataset
Y
Hablamos de planificación
Hablamos de memoria
Hablamos de ciertas capacidades
Que es
Todo este juego
Sistema 1
Sistema 2
Basado en
Todo lo de Kahneman
Todo esto
Que hemos escuchado
Estas últimas semanas
Con toda la parafernalia
De Q estrella
Seguramente
GPT-5
Va a ser eso
Va a ser una mezcla
Un híbrido
Entre LLMs
O LMM
Sistemas multimodales
Y sistemas
De reinforcement learning
Que sepan
Usar estas herramientas
Sepa
Trabajar
Con este cerebro artificial
Como si fuera
Una herramienta más
Y ahí vamos a tener
Los algoritmos
De aprendizaje
Por refuerzo
Actuando por encima
Eso es lo que
También Google
Seguirá trabajando
Internamente
Y será el
Gemini 2.0
Que sacarán
Eventualmente
Esa es la hoja
De ruta
GPT-5
Frente a Gemini 2.0
Y mientras tanto
Pues tendremos
Estos sistemas
Que son súper potentes
Y que nos dan
Un montón de funcionalidades
Que es
Gemini Ultra
Que lo tendremos
Disponible
A partir del Q1
A partir del Q1
Del año que viene
Joder
Que bien me ha quedado
Esto
Para cerrar
Aquí el vídeo
El directo
Este
Que os ha gustado
Os ha parecido
Interesante
Os he traído
Información
De calidad
Como intento hacer
La mayoría de veces
Cuando puedo
Ha sido un directo
Improvisado
Obviamente
Pero creo que ha salido
Bastante
Bastante chulo
Me dejo pendiente
El artículo
Que sé que lo he abierto
Aquí
El de Gemini
El Technical Report
Pero es que me lo quiero
Leer con calma
¿Vale?
Me lo quiero leer
Con calma
Quiero
Ver muchos
De estos ejemplos
Y seguramente
Preparo un vídeo
Similar al que hice
De GPT-4V
Pues un vídeo
Analizando muchos
De los ejemplos
Y comparando un poquito
Con lo que
Ya hemos visto
Que puede ser GPT-4
Y comparando
Con Gemini
¿Vale?
Chicos, chicas
Pues ya
La batalla
Está servida
OpenAI
Frente a
Gemini
Y ahora pues toca
Trabajar
Para ver
Como
Como rinden estos sistemas
Muchas gracias
Por pasar a este directo
Creo que hemos estado
Casi dos horas
Dos horas
O más
Y la verdad
Que yo me lo he gozado mucho
Porque llevaba mucho tiempo
Esperando a que esto
Ocurriera
Y la verdad
Que ha sido un susto
Me ha trastocado
El mes de diciembre
Y la planificación
De vídeos
Como siempre
Es que la IA
No puedo tener
Un vídeo planificado
Que de repente
Llega la IA
Y me dice
Carlos
¿Qué?
Organizado tú
Venga
Un traspié
Ala
Gemini
A jugar
Dalí 3
Pum
Pa' tu cara
GPT-4V
Ja
Te pensabas
Que te ibas a organizar
Nada
Imposible
Así que nada
Chicos
Me voy a seguir trabajando
Voy a consumirme
Todo esto
Me lo voy a liar
Y me lo voy a fumar
Fuertemente
Este paper
Y poco más
Chicos
Chicas
Muchas gracias
Por estar aquí
Como siempre
Compartid este directo
Si os ha parecido interesante
Si tiene información
Relevante
Para compartirlos
Con vuestros amigos
Echadle un vistazo
Al último vídeo
Que sé que ha gustado muchísimo
Sobre la inteligencia artificial
Generativa
Interactiva
Que también
Está trayendo un montón
De cosas muy guapas
En la parte de generación
De contenido multimedia
Y así
Y adiós
Como diría Marti
Ala
Un besito
Los quiero
Chao
Chao
Chao