This graph shows how many times the word ______ has been mentioned throughout the history of the program.
Te planteo un reto sencillo.
Imagínate que te muestro la siguiente imagen y te pregunto,
oye, ¿de qué color es el reloj que aparece en ella?
Tras unos segundos observando, quizás ya tengas la respuesta o quizás no,
pero aquí lo importante es cómo has resuelto este problema.
Probablemente lo que no has hecho ha sido ir escaneando la imagen paso a paso
en cada una de las regiones buscando el reloj.
Eso sería bastante agotador.
No, posiblemente tú aquí ya has tenido una visión global de la imagen
y tu cerebro rápidamente la ha comprendido.
Y también habrá comprendido la pregunta que te he hecho.
Estamos buscando un reloj.
¿Tiene sentido que esté en la carretera?
Pues probablemente no.
Así que, ¿qué sentido tiene buscar en esta zona?
¿Tiene sentido que esté por aquí?
Bueno, podría ser un reloj de pared, pero si estamos en la calle eso sería algo extraño.
Posible, pero improbable.
Entonces, ¿por dónde empezar a buscar?
Bueno, pues una zona bastante probable podría ser en ese escaparate repleto de objetos.
Y si nos acercamos y buscamos bien, ajá, lo hemos encontrado.
Aquí está el reloj y la respuesta a nuestra pregunta.
El reloj es verde.
Esto que acabamos de hacer es un ejercicio de búsqueda informativa.
Y es un mecanismo que hace mucho más eficiente e inteligente a nuestra capacidad de ver.
Y algo que la inteligencia artificial debería aprender.
Y es que a día de hoy, incluso los modelos de visión más potentes a los que tenemos acceso,
no son capaces de ejecutar correctamente tareas de este tipo.
Por ejemplo, a GPT-4V, si le damos acceso a esta misma imagen y le hacemos la misma pregunta,
falla.
¿Qué ha pasado aquí?
¿Quizás se ha precipitado en responder y no ha buscado el tiempo suficiente?
Hoy vamos a hablar de este problema y de una de sus posibles soluciones.
Vamos a hablar de meta-arquitecturas.
Y de V estrella, un nuevo algoritmo, una nueva técnica que aplicada a modelos de visión
más pequeños, en teoría menos potentes, consigue potenciar a estos modelos de visión
incluso superando y por bastante a GPT-4V, el rey de la pista.
Y vamos a hablar de todo esto porque sí, esto es un paso importante dentro del mundo
de la visión por computador, pero más importante todavía porque creo que este trabajo abre
un camino interesante hacia un futuro cercano donde podamos contar con inteligencias artificiales
mucho más potentes.
Vamos a verlo.
Y antes, ya que estamos hablando de prestar atención, atentos a esto.
Y es que si uno de tus propósitos de año nuevo fue abrirte a internet y crear por fin
ese porfolio que te ronda la cabeza desde hace tiempo, crear una web para tu negocio o tu
proyecto, Hostinger, el patrocinador de este vídeo, te va a ayudar a cumplir tu propósito
y llevar esa idea a la red.
Y es que con los servicios que te ofrece Hostinger podrás abrir tu página web sin dificultad
en muy pocos minutos.
Con ellos podrás desde registrar tu propio dominio hasta configurar paso a paso cómo
quieres que se vea tu página web final.
Y además, como ya sabéis, Hostinger cuenta con un montón de herramientas de inteligencia
artificial que os van a ayudar a hacer este proceso mucho más sencillo.
Desde un creador automático de webs que con un prompt te va a poder generar toda la plantilla
inicial, hasta creación de contenido optimizada para SEO e incluso, y esta está muy relacionada
con el vídeo de hoy, la posibilidad de predecir dónde el usuario podría prestar más atención
sobre el diseño que tú hayas configurado.
Todas estas funcionalidades y servicios de Hostinger las tendréis con un gran descuento
que podéis aprovechar hasta mediados de febrero.
Es una oferta de comienzo de año para que podáis cumplir este propósito que tenéis
ahí sobrevolando en vuestra cabeza.
Os dejo todos los detalles abajo en la caja de descripción.
Echadle un ojo.
Y hablando de echarle un ojo, pues vamos al tema del vídeo.
Ya lo has visto, a un humano como tú y como yo, cuando se le muestra una imagen como esta
y se le pregunta, hey, ¿dónde está este elemento?
Lo que hace habitualmente es buscar, recopilar aquella información que le pueda suponer útil
ya sea para resolver una tarea dada o simplemente para entender qué estamos viendo.
Nosotros buscamos.
Y es de esta capacidad de búsqueda de lo que la mayoría de los sistemas de inteligencia
artificiales actuales que utilizamos carecen.
Por ejemplo, muchos de los modelos de visión actuales, pues lo que hacen es zamparse las
imágenes al completo y aunque sí pueden prestar atención a unas zonas u otras, realmente
esto está ocurriendo en un único pase de inferencia, del cual luego la IA emite un resultado que
puede estar bien o mal.
Y que cumple un poco bien esa frase de la IA que todo lo sabe y si no, se lo inventa.
Realmente a muchos de estos sistemas, si no se lo pides con estrategias de prompting un
poquito más sofisticadas, pues no te van a decir, hey, lo siento.
No lo sé.
No, simplemente generan una respuesta.
Y esto es así porque así están diseñadas.
En su funcionamiento no encontramos una capacidad que es muy importante que nosotros sí tenemos
y es la capacidad de pararse a buscar.
Y la necesidad de búsqueda también está ligada con otro aspecto limitante de este tipo
de herramientas.
Y es que muchos de los ojos artificiales actuales pues perciben las imágenes de esta forma,
en baja resolución.
Y es que aumentar el número de píxeles de una imagen hace que la computación necesaria
para analizarla vaya escalando dramáticamente.
Y de ahí que muchos de estos servicios pues obviamente te vayan cobrando en función de ello.
Claro, si por ahorrar costes de computación en vez de ver la imagen así, la tienes que
ver así, pues intentar deducir dónde está el reloj se vuelve una tarea imposible.
Una tarea imposible que, insisto de nuevo, aplicando una estrategia inteligente de búsqueda
podríamos hacer más eficiente solo procesando y analizando con detalle aquellas regiones de
la imagen que creamos que son interesantes.
Algo similar a cuando tú estás viendo una imagen y algo te llama la atención y haces
zoom para intentar ver con más detalle y poder analizarlo en mayor profundidad.
Una capacidad que ahora sí podemos implementar en nuestras inteligencias artificiales a través
del proyecto del que vamos a hablar hoy.
El trabajo se llama V estrella, donde se presenta una técnica que lo que propone es no usar
a los potentes modelos multimodales actuales como un todo, sino utilizarlos como una parte
más de un sistema más complejo.
Es decir, según sus palabras, lo que están proponiendo es una meta-arquitectura de inteligencia
artificial.
Mirad, la idea es la siguiente.
Ya hemos visto que para una imagen en alta resolución, con muchos detalles, si queremos
mantener el costa raya, solo tenemos dos alternativas.
O bajar la resolución de la imagen, lo cual nos hace perder información valiosa, o descomponer
la imagen en alta calidad en diferentes trozos a procesar independientemente.
Lo cual, como toda estrategia de fuerza bruta, sería costoso.
Pero claro, un punto a favor de muchos de estos enormes modelos multimodales tipo chat
GPT es su capacidad de aglutinar mucha información del mundo que nos rodea, y esto puede ser un
valor que podemos aprovechar.
Es decir, si para esta imagen la pregunta era, oye, ¿de qué evento, de qué conferencia
es la tasa negra?
A una IA como GPT-4V le podríamos dar la imagen completa que va a analizar en baja resolución
y preguntarle algo como, oye, ¿dónde es más probable que haya una tasa en esta imagen?
Es decir, que nos facilite información de dónde empezar a buscar.
Y con ello, GPT-4V nos podría indicar que la mesa, pues, es un buen lugar donde empezar
a buscar.
Tiene sentido, ¿no?
Podemos utilizar estos enormes modelos para guiar nuestra búsqueda.
Y entendiendo esto ahora, pues veréis que la estrategia que han diseñado mola bastante.
Para una imagen dada y una pregunta formulada, podemos analizar toda la imagen al completo
para encontrar una respuesta.
Oye, ¿de qué color es el líquido que está dentro del vaso?
Y para comenzar, podemos dejar que la IA intente responder esta pregunta.
¿El modelo tiene alta certeza de haber encontrado la respuesta?
Pues, tarea resuelta.
Se acabó.
Ah, que no, que tiene mucha incertidumbre, la certeza baja y no ha encontrado información
para poder responder de qué color es el líquido del vaso.
Toca buscar.
Y el proceso de búsqueda se realizará así.
Utilizaremos a uno de estos modelos del lenguaje multimodal que tienen este conocimiento
del mundo para preguntarle qué información necesitamos para resolver nuestra tarea.
Y por ejemplo, el modelo nos podrá decir que si estamos buscando un vaso en esta imagen,
pues buscar sobre la mesa podría ser una buena idea.
Así que, vamos a buscar en la mesa.
Claro, esto no significa que el resto de opciones se estén descartando.
A lo mejor el vaso está escondido en el suelo y no sobre la mesa.
Pero bueno, usaremos el sentido común, si se puede decir, del modelo para dar prioridad
a la búsqueda.
Y si no, bueno, pues ya buscaremos en otras regiones más adelante.
Pero nos ha dicho que el vaso probablemente esté sobre la superficie de una mesa.
Así que tenemos que buscar mesas en la imagen.
Y para esto, pues podemos calcular mapa de atención que nos indique en qué región
de esta imagen aparece una mesa.
Y ahora podemos usar la cantidad de presencia de mesa en estos mapa de atención para priorizar
sobre qué región buscar primero.
Aquí hay más mesas que aquí o aquí.
Así que vamos a empezar por este lugar.
Y fijaos que con esto ya hemos hecho zoom.
Y ahora podríamos estar más cerca de nuestro objetivo.
Toca repetir el proceso.
¿Podemos responder a la pregunta original de qué color es el líquido del vaso?
No, todavía no.
Pues volvemos a preguntar.
Para esta imagen, ¿dónde es más probable que esté la taza?
Y con esto repetiremos el proceso iterativamente hasta dar con el objeto que estamos buscando.
Cuando hayamos hecho zoom suficiente y hayamos localizado el objeto, ahora lo único que nos
quedaría sería responder a la pregunta original.
Ver, buscar y acertar.
¿Y funciona?
Hombre, le estoy dedicando un vídeo.
Ya podría funcionar.
Pero sí, cuando esta estrategia se aplica a sistemas de visión, el resultado es que
sus capacidades de búsqueda mejoran notablemente.
Si por ejemplo GPT-4V, el modelo de visión más avanzado hasta la fecha, logra un 55% de
acierto.
Resolviendo estos problemas de búsqueda, la solución presentada por este equipo, usando
modelos de lenguaje y de visión más sencillos, acaba alcanzando una tasa de acierto del 75%.
Una tasa de acierto que se acerca mucho más al 99% logrado por humanos.
Y una estrategia que se hace indispensable cuando lo que hay que analizar son imágenes en alta
resolución y que sabemos que son difíciles de procesar por los sistemas de visión actuales.
V, estrella, mola.
Es un trabajo muy guay, muy chulo, pero no es el punto importante de este vídeo.
El punto importante aquí es la búsqueda.
Y es que si lo pensáis, la inteligencia artificial fabricada por los sistemas de deep learning modernos
realmente se basan en dos ideas.
La primera es la compresión.
Compresión de comprimir, no de comprender.
Y es que cuando cogemos enormes datasets y dejamos que las redes neuronales aprendan de ello,
muchas veces lo que estamos haciendo es obligarlas a comprimir toda esta información
para que se vayan deshaciendo de aquellos detalles superfluos que no son necesarios para resolver la tarea.
Obligamos a la información a ser comprimida para poder abstraer de ellos aquellos patrones generales.
Así que sí, en parte la inteligencia pues depende de la compresión.
Pero luego, por otra parte, en la última década, pues también hemos visto muy buenos ejemplos
de inteligencia artificial que dependían de buscar.
Una búsqueda que suele estar ligada al saber explorar el espacio de opciones ante un problema presentado.
Muchas veces hemos escuchado esa frase de
este problema tiene más combinaciones que átomos en el universo.
Y claro, en un entorno de recursos finitos, pues no tenemos capacidad computacional
para explorar todas las ramificaciones de un problema.
Saber elegir bien el camino, saber buscar bien dentro de este espacio de posibilidades,
también es un signo de inteligencia.
Durante la última década hemos visto muchos casos de éxito
tanto en algoritmos de Deep Learning comprimiendo y abstrayendo patrones de los datos suministrados
como en técnicas de búsqueda de información.
Y mi apuesta, ya sabéis, es que el futuro de la siguiente generación de grandes modelos
y posiblemente el futuro del Deep Learning pase por la combinación de ambos mundos.
De hecho, de este trabajo, V estrella, me gusta mucho la inspiración que han tomado para su nombre.
V, evidentemente, de Vendetta, no.
V de Visión y estrella de A estrella.
Un algoritmo clásico de búsqueda que típicamente se ha utilizado para muchos problemas,
como por ejemplo, pues para búsqueda de caminos.
Imaginaos un robotito que se tiene que mover por la sala y encontrar el camino óptimo para llegar a su objetivo.
Este es un algoritmo súper, súper típico y para el que lo haya estudiado en la Facultad de Informática,
pues recordaréis que un elemento importante para realizar esta búsqueda era elegir una buena heurística.
Una estrategia que, si bien sabemos que no es matemáticamente la óptima,
pues sí podemos prever que es lo suficientemente buena como para permitirnos cumplir esta tarea.
Por ejemplo, en el caso de A estrella, una heurística típica es la de seguir el camino de menor distancia.
Una línea recta hasta el objetivo, siempre que sea posible, claro.
Y esta heurística es una estrategia que a veces funciona mejor, a veces peor,
pero que es mucho más eficiente que ir buscando el camino de forma aleatoria,
o por fuerza bruta buscando todas las combinaciones.
Es una estrategia más inteligente.
Y ahora lo que nos presentan con V estrella, pues sería una idea similar.
Una estrategia de búsqueda, pero en este caso aplicada imágenes,
donde la heurística utilizar, pues sería todo ese conocimiento general que un enorme modelo multimodal puede ofrecer.
Usar ese sentido común, si le podemos llamar de esta forma,
para ir guiando a la búsqueda y con esto poder crear sistemas de inteligencia artificial más potentes y eficientes.
En mi opinión creo que es de la combinación de estas técnicas de búsqueda que se apoyen y utilicen estos enormes modelos
que comprimen información del mundo, de lo que vamos a estar viendo durante este año,
pues diseños como el que hemos visto hoy, pero cada vez más avanzados.
De hecho, confío en que muchos de los enormes modelos de última generación que puedan llegar en 2024,
pues GPT-5 si es que llega a salir este año,
pues posiblemente sean modelos que se apoyen en técnicas de este tipo.
Y es que hablando de una técnica llamada V estrella, pues no se me escapa el comentar algo que muchos estaréis pensando.
Y es que tras la crisis de OpenAI el pasado mes de diciembre,
cuando decidieron que Samalman se tenía que tomar el fin de semana libre,
pues pocos días más tarde se filtró información de un proyecto interno en el que OpenAI estaría trabajando,
y que podría ser una de las líneas de investigación que estaría desarrollando la compañía.
Según lo que se filtró, pues bueno, esto podría ser un camino prometedor hacia futuras inteligencias artificiales más potentes
que sería lo que en un futuro OpenAI nos podría presentar, el camino a lo mejor a la AGI, ¿vale?
Pero bueno, como este tema ya se especuló bastante y hay muy poquita información real de la que nos podamos basar,
más allá de todo el humo y ruido que se generó en redes sociales y medios de comunicación,
pues lo vamos a dejar de lado, pero no quiero dejar pasar la oportunidad de mencionar cómo se llamaba este proyecto,
Qestrella, un nombre que nos permite, lo digo, especular con la idea de que OpenAI podría estar trabajando en este combo
de usar algoritmos de búsqueda tipo Aestrella o QLearning,
algoritmo también clásico del campo del aprendizaje por refuerzo,
que se suele utilizar para buscar políticas óptimas en el proceso de toma de decisiones por parte de agentes autónomos.
Suena interesante, suena prometedor, pero más allá de la especulación, el tiempo dirá.
Pero volvamos a aterrizar en el proyecto de hoy para decir que, sí,
V Estrella es un trabajo relevante y seguramente, pues sigamos viendo muchos proyectos similares
que vayan surgiendo en este año, que vayan profundizando en esta idea de meta-arquitecturas
que combinen búsqueda con otros sistemas potentes.
Y en lo positivo, pues creo que este tipo de técnicas van a tener una muy buena acogida,
como es de esperar, en todos aquellos campos donde la visión por computador, pues sea importante.
Campos como la robótica, donde saber buscar de forma eficiente, pues puede ser útil para potenciar
las capacidades de muchos de los robots que se están diseñando a día de hoy.
Y en lo negativo, esta tecnología, pues pone ciertas dudas en, bueno, sistemas que a día de hoy
utilizamos para identificarnos a nosotros.
Y es que, bueno, yo he empezado el vídeo diciendo lo siguiente.
Ya lo has visto.
A un humano como tú y como yo.
Pero claro, si tú o alguna página web quisieras verificar que yo verdaderamente soy humano,
¿qué utilizaríamos?
Bueno, pues, CAPTCHAs.
Una tecnología que, como todos sabéis, pues típicamente está basada en poner una prueba
que, bueno, debería de ser fácil de resolver para un humano y difícil para una máquina.
Pruebas como buscar y verificar si en una imagen aparece un objeto.
Creo que ya sabéis por dónde voy.
Pues justo esto es lo que quiero probar y experimentar esta próxima semana en el Dot CSV Lab,
en el otro canal donde experimentamos y probamos toda esta tecnología.
Porque sí, chicos y chicas, este modelo, buena noticia, es Open Source.
Lo podéis descargar, lo podéis utilizar en vuestros proyectos y eso es lo que vamos a estar haciendo en el Lab.
Y por aquí, pues, poca cosa más.
Este vídeo ya está liquidado, ya llegamos al final.
Espero que os haya gustado el primer vídeo del año.
Un tema súper, súper chulo.
Y, bueno, ¿qué hemos aprendido, no?
Moraleja final.
Pues que antes de opinar con la información que te entre por los ojos,
lo mejor que podéis hacer es parar, pararse, pararse y reflexionar y pensar.
Eso, que nos deja la IA, una moraleja final.
Gracias por estar aquí y a los patrocinadores y a vosotros.
Si queréis apoyar el contenido en Patreon, pues podéis hacerlo.
Podéis dejar abajo un comentario también a ver si os ha gustado el vídeo.
Y por aquí tenéis un par de contenidos más.
Son del 2023, yo creo que todavía no ha caducado.
La cosa va a un ritmo, pero creo que todavía están vigentes.
Echadle un ojo que os va a gustar.
Y ala, nos vemos con más IA todo este año.
Estamos empezando.
Chau.
Chau.