logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Ahora que la Inteligencia Artificial ha llegado al Photoshop y está todo el mundo usándola
y flipándola a partes iguales, ya podemos decir que la IA es mainstream.
Muchos usuarios y profesionales están dando cuenta de cómo estas herramientas les permiten
agilizar su flujo de trabajo o aumentan sus capacidades para lograr cosas más impresionantes.
Bueno sí, también poder hacer mejores memes, eso también.
Y como Canal de Inteligencia Artificial que ya desde 2020 veníamos avisando de cómo
todas estas herramientas iban a evolucionar,
Todo esto son herramientas que están llegando, herramientas pasadas en Inteligencia Artificial.
La buena noticia y lo que me tiene bastante contento es que este es el comienzo.
Adobe está apostando por esta tecnología y eso es una muy buena noticia, con lo cual no sería
para nada descabellado ver que esto aparezca en el Photoshop 2025 o algo por el estilo.
Aunque bueno, dije 2025 y ahí evidentemente me equivoqué, todo ha ocurrido más rápido.
Pues al igual que hace tres años nos adelantamos al futuro de la edición digital,
hoy me veo en la responsabilidad no solicitada de contaros todos los nuevos avances que están
ocurriendo y todas las nuevas tecnologías que están apareciendo que están transformando todas
las herramientas con las que tanto vosotros como yo estamos trabajando para producir contenido digital.
Empecemos por GEN 1 y GEN 2.
Muchos ya conoceréis las herramientas del equipo de Runway, que en los últimos meses han estado
trabajando con mucho esfuerzo en el desarrollo de su propio generador de vídeo a partir de texto.
Para el que no lo recuerde, Runway es la empresa que está atrás, el paper que permitió el desarrollo
de stable diffusion. Y una vez conquistada la generación de imágenes a partir de texto,
pues ahora se están moviendo a la generación de vídeo. Y ciertamente sus modelos no han sido
los primeros en demostrar que esto era posible. Ya el año pasado vimos unos cuantos ejemplos tanto
por parte de Google como por parte de Meta. Pero sí es cierto que los modelos de Runway son de los
primeros que están disponibles para su uso comercial y posiblemente uno de los mejores en
cuanto a calidad visual. Con la primera generación, con GEN 1, usando un vídeo de base lo que se
puede hacer es estilizarlo con un prompt o con una imagen para conseguir resultados como estos.
Una herramienta creativa que ofrece posibilidades para jugar y crear de formas novedosas y que en
buenas manos pues ya tiene a gente logrando cosas como estas. Y luego tenemos GEN 2,
que está abierto al público desde hace un par de semanas en la página de Runway,
podéis ir a probarlo y que directamente aquí sí te permite generar un vídeo de la nada. Es decir,
a partir de solo un prompt de texto, puedes generar metraje que nunca ha sido grabado por
una cámara. Tú escribes y la guía genera. Además, como comentaba, Runway no es la única
trabajando en este reto y ya hay varios modelos mostrando capacidades similares. Por comparar,
para un mismo prompt, un monstruo de globos caminando por la playa, esto es lo que otras
alternativas ya son capaces de hacer. Herramientas que poco a poco van avanzando y mejorando en sus
capacidades de generar vídeo más y más realista. La pregunta es, ¿es esta la herramienta
definitiva que cambiará la industria del cine? Bueno, pues no. Falta resolución, falta calidad,
falta que el prompt que tú escribes se traduzca a lo que realmente se genera, que todavía esto
falla bastante. Pero es que esto solo es GEN 2 y llegarán GEN 3 y GEN 4 y versiones futuras,
que ahí sí poco a poco irá mejorando en todos estos aspectos, tal y como hemos visto que ha
sucedido en cosa de un año con las sillas de generación de imágenes. Y hablando de imágenes,
dejadme que os comente sobre Style Drop. Recordáis cómo hace cosa de medio año se popularizó esto de
poder personalizar a modelos como Stable Diffusion usando solo unas pocas imágenes? Con técnicas
como Dreambooth podías coger unas pocas fotos tuyas y enseñarle a la inteligencia artificial
el concepto visual de ti. Y con esto ahora poder generar infinitas imágenes con tu cara. Pues
similar a esta idea ahora aparece Style Drop, que lo que permite es hacer esto mismo, pero en este
caso con el estilo de una imagen. Este trabajo me ha gustado particularmente por la calidad de
los resultados, donde solo utilizando una imagen de referencia, la inteligencia artificial es capaz
de entender su estilo y transferirlos a otros conceptos con una calidad visual sorprendente.
Podéis comprobar aquí cómo el concepto de pingüino, de plátano o de vaca es capaz de
ser representado por la IA en cualquier estilo sin grandes dificultades. Sin importar si el
estilo de referencia es tallado en madera, si es 3D, si es pintado con acuarela, Style Drop es
capaz de ejecutarlo a la perfección. Y a los impacientes que ya queréis echarle la mano a
este trabajo, pues tengo que deciros que tratándose de un trabajo de Google, pues como nos acostumbran,
esto es solamente un paper donde nos muestran ejemplos, pero que todavía no podemos utilizar.
Confiamos en la comunidad open source para que implementen algo parecido, o en las grandes
empresas de diseño que se están moviendo ahora muy rápido para integrar todas estas herramientas
en sus productos. Pero la idea es esta, y es que podemos imaginarnos un futuro Photoshop,
donde solamente usando una imagen con un estilo de referencia y los prompts de texto que quieras
utilizar para describir que quieres generar, y ya solo con esto en cuestión de minutos podrás
aplicar una identidad visual coherente a todos tus elementos. Más cosas, ya que estamos hablando
de imágenes quiero que veáis este trabajo de aquí. Un trabajo que lo que logra es en exploración de
los modelos de difusión que actualmente se usan para muchos de los generadores de imágenes más
potentes que todos estáis utilizando, es encontrar la correspondencia existente entre los patrones
visuales que conforman a diferentes imágenes. Y tu amigo o amiga te preguntarás, Carlos,
¿por qué esto es importante? Y yo te respondo que por esto mismo. Porque es muy interesante
que la IA haga esto. No, mi cara no, me refiero a esto. Si yo te pregunto, de esta imagen de aquí,
¿este patrón a qué equivale en estas otras dos fotos? Pues tú, sin mayor problema, me dirías que
a esta región de trazos de pintura de aquí y a esta burbuja de acá. Claro, si lo pensamos,
estrictamente no son la misma cosa. En uno tenemos píxeles en una foto, en otro trazo de pintura y
en otro una burbuja. Pero sin embargo tú sabes detectar la estructura subyacente de estas imágenes
donde realmente lo que se conforma es una cara, independientemente del estilo en cada caso. Y
sabes entender que lo que estamos señalando es un ojo. Pues tan sencillo como esto es lo que
propone este trabajo, el poder encontrar la correspondencia de ciertos patrones en imágenes
de diferente tipo. Por ejemplo, esta IA no tendría ningún problema en entender que el
pico del pato que vemos en esta imagen, pues está relacionado con estos otros elementos de
estas imágenes de aquí. O algo más general incluso, la oreja del oso que vemos en esta imagen,
esta inteligencia artificial la podría encontrar sin dificultad en el resto de imágenes aún
tratándose de otros animales. Mola, pero todavía no tienes ni idea de por qué esto serviría para
la creación digital. Pues muy sencillo. Con IA con capacidades visuales como esta,
pues ahora podemos simplificar enormemente la ejecución de ediciones en imágenes o en videos
en un futuro. Porque por ejemplo, puedes coger una imagen como esta para editarla,
poniéndole unos ojos altones y una lengua en la boca. Y ahora la inteligencia artificial en su
capacidad de entender el resto de imágenes podría ejecutar esta misma transformación de
forma automática, con la seguridad de que siempre sabré identificar dónde están los ojos y dónde
está la boca. Pero la cosa no se queda solo ahí, ya que si hablamos de manipular imágenes,
tenemos que hablar de DRAG GAN. Este impresionante trabajo de aquí que se hizo muy viral en redes
sociales hace unas semanas por lo impresionante de sus resultados, el poder controlar de forma
interactiva los resultados generados por la IA. En este caso, además, la interacción es super
intuitiva y está muy relacionada con el trabajo anterior, ya que en este caso estamos guiando
la inteligencia artificial sobre cómo queremos que sea el resultado final a partir de marcar
puntos iniciales y finales de dónde queremos que se encuentre el elemento identificado. Pues por
ejemplo, quiero que la mandíbula superior e inferior del león ahora se encuentren aquí. Y con esto,
la IA sabe inferir que lo que queremos es que abra la boca. La demo de esta herramienta está
disponible para usar a partir de esta semana. Y os voy a dejar un enlace abajo en la caja de
descripción a un Google Collab para que vosotros también tengáis una muestra de lo que serán las
futuras herramientas de edición de imágenes. Sin embargo, el poder de la IA no se queda acotado
solo al mundo del 2D, sino que también estamos viendo aparecer trabajos muy interesantes en la
generación de 3D a partir de texto, trabajos como Prolific Dreamer. Y de nuevo, este no es el primer
trabajo que presenta resultados donde, a partir de un prompt, se puede crear un modelo 3D. Pero
para mí sí es el primero que muestra resultados de una calidad que empieza a ser práctica,
que podríamos empezar a utilizar en proyectos reales. Y desde donde sabemos que la cosa va a
seguir mejorando cada vez más y más. Si en octubre del año pasado estábamos alucinando con
resultados como estos, ahora la inteligencia artificial puede generar resultados de esta
calidad. Es que para que tomemos perspectiva de todo esto, hace un año estábamos alucinando con
esta imagen de aquí. Era una imagen que Google nos enseñó y que nos voló la cabeza por la
calidad y resolución que conseguía. Y ahora, cosa de un año después, con el mismo prompt podemos
generar la misma imagen pero en tres dimensiones. Algo verdaderamente impresionante. Así que sí,
al igual que tú en el Photoshop ahora puedes seleccionar una región de tu canvas y generar
aquello que quieras con texto. Pues en un futuro cercano algo similar podrás hacer en tu software
de edición 3D. Seleccionar una región de la escena, generar contexto y listo. Un nuevo objeto
con el que poder seguir diseñando y componiendo. Pero, siempre hay un pero, hay un problema ya que
tenemos que solventar. Y es que este último paper que acabamos de ver, el Prolific Dreamer,
para poder funcionar trabaja sobre la tecnología NERF. Tecnología de la que ya hemos hablado con
anterioridad varias veces en este canal y que, como sabéis, pues no nos crea esas típicas mallas
tridimensionales con las que se suele trabajar en los software de edición. Sino que de aquí lo que
se obtiene son volúmenes tridimensionales que de alguna forma tenemos que convertir a este formato.
Y en honor a la verdad del trabajo anterior sí demuestran, como podéis ver aquí, cómo han convertido
estos volúmenes 3D en mallas tridimensionales texturizadas que sí se pueden utilizar en
software tradicional. Pero aún así, un trabajo reciente de NVIDIA nos trae mejoras en este sentido.
Mejoras en la calidad al reconstruir superficies tridimensionales a partir de un vídeo utilizando
la renderización neural. Este trabajo se llama Neural Angeloy. Como el Miguel Ángelo de antaño,
pues su tarea es esculpir a partir de un vídeo que nosotros le demos como input un modelo de
malla 3D y que en este caso lo logra sacando mucho detalle fino que con técnicas anteriores
pues se perdía. Este trabajo de NVIDIA y su futuro desarrollo simplificarán enormemente la
captura tridimensional de escenas. En este caso usando simplemente el móvil que todos llevamos
en el bolsillo, donde antes hacía falta equipos técnicos mucho más avanzados de fotogrametría.
Lo bueno es que muchas de estas tecnologías son papers técnicos que nos traen demos en
algunos casos, en otros no, pero que luego sirven de inspiración para que muchas otras
aplicaciones comerciales empiecen a implementarlo y nos lo puedan ofrecer como un producto. Este
es el caso de Luma AI que ya te ofrecen muchas de estas tecnologías de nerf que estamos comentando
aquí en el canal para poder hacer esto de forma gratuita al alcance de tu móvil. Aparte de esto,
la tecnología nerf ya se está demostrando muy útil en otras áreas de la producción audiovisual,
por ejemplo en la estabilización de vídeo. Profesionales como los de Corridor Digital ya
demostraron a comienzos de este año cómo utilizando la tecnología nerf se podían lograr
estabilizaciones de gran calidad solamente con tomas grabadas a mano alzada. Al final,
la tecnología nerf lo que hace es reconstruir una escena 3D a partir de un vídeo. Y claro,
a partir de esto es mucho más fácil el poder corregir movimientos erráticos de la cámara.
Y este trabajo de aquí lo demuestra. Donde hemos podido ver resultados bastante impresionantes,
donde a partir de un vídeo como este se ha podido estabilizar la cámara para conseguir un vídeo
como este de aquí. Pasar de un vídeo como este a este de aquí usando solo la inteligencia
artificial. De hecho, la reconstrucción 3D a partir de poca información como un vídeo o una imagen,
en algunos casos se está llevando al extremo. Ojo. Ojo, ojo, ojo, literal. Ojo con este trabajo
que es capaz de recuperar en cierta manera la información 3D que una persona estaba viendo a
partir del reflejo que se produce en sus ojos. Y podríamos seguir el repaso hablando de muchísimos
más papers impresionantes que no dejan de salir día tras día. Y es que de hecho mucho del contenido
que habéis visto en este vídeo, pues son publicaciones que han aparecido en el último
mes. De hecho, a todo lo que hemos visto habría que sumar también las actualizaciones anunciadas
por el equipo de Stability.ia, que ya nos han dicho que están próximos a liberar su modelo
Stable Diffusion XL. Un modelo que ofrece una calidad superior a los modelos de Stable Diffusion
actuales y que como ya sabéis, cuando caiga en manos de la comunidad, pues va a traer una
oleada de actualizaciones en muchas herramientas. O también podríamos hablar de las novedades de
Mid Journey, que con la nueva versión 5.2 pues siguen perfeccionando la calidad de sus modelos
y también incorporando nuevas funcionalidades para uso y disfrute de muchos de sus usuarios.
Esto no para, y en el mundo de la IA se sigue desarrollando todo muy rápido.
Pero la conclusión de este vídeo que quiero que os llevéis con vosotros es que si nos impresionan
las herramientas que estamos viendo hoy en día de inteligencia artificial, pues tenemos que entender
que esto es solo el comienzo y que queda mucho más por llegar. Que todavía podemos soñar con
muchísimas más herramientas que llegarán en un futuro cercano. Y es que ya hoy estamos viendo esto,
desde trabajos que nos ofrecen creaciones espontáneas de música, de vídeos, de 3D,
a otros muchos papers técnicos que lo que introducen son técnicas que servirán de
base para crear otras herramientas más avanzadas. Herramientas que hasta hace muy poquito pues
parecían sacadas de películas de ciencia ficción. Una industria entera, la de la inteligencia
artificial aplicado, la audiovisual, se está construyendo ante nuestros ojos con todas estas
tecnologías. Y un ejemplo de ello es el robot que habéis visto al principio y que también habéis
visto en otras ocasiones en vídeos de este canal. Me habéis preguntado mucho y sí os lo cuento,
se hace con Wonder Dynamics, una aplicación que todavía no está abierta al público,
todavía no podéis utilizarla, pero que cuando lo esté pues lo único que tendrás que hacer será
subir un clip de vídeo y ellos se encargará de hacer todo el procesamiento necesario para
conseguir este resultado de aquí. Un trabajo que si todavía no se puede utilizar en un contexto
100% profesional, para muchos otros proyectos pues ya es suficiente. Y donde se hubiera tenido
que invertir un gran número de horas, donde aquí solo es una máquina trabajando y tú esperando
al resultado final. ¿Y qué es lo interesante de este ejemplo de Wonder Dynamics? Bueno,
pues que demuestra muy bien esta idea de de aquellos papers estas aplicaciones. Ya en 2020
en este canal, con vídeos como el que estamos haciendo hoy, pues ya os traía trabajos donde
se hablaba que, bueno, con las técnicas de deep learning se estaba agilizando muchísimo la captura
de movimiento a partir de vídeo. O también recordaréis un vídeo como este donde os contaba
que bueno, que con deep learning se estaba empezando a lograr el eliminar elementos de
una escena de vídeo de forma automática con resultados que parecían magia. Bueno,
pues si os dais cuenta esos papers de antaño son ahora los pasos que están ejecutando herramientas
como Wonder Dynamics. Son los pasos necesarios para lograr cada vez herramientas más complejas
que poco a poco van llegando al público general, que en este caso soy vosotros. Eso es lo bonito
de la etapa que estamos viviendo ahora. Muchos de aquellos trabajos de inteligencia artificial
ahora están cristalizando en herramientas reales que poco a poco van llegando a nuestra vida y que
no nos dejan de sorprender. Que llegarán a vuestras manos para amplificar vuestras capacidades de
crear. Chicos, chicas, nos vemos con más contenido sobre inteligencia artificial aquí en DOTS SV.
Mientras podéis echar un vistazo a estos dos vídeos de aquí, alguno de ellos seguro que os interesa.
El de arriba está, está guay, el de abajo está muy bien. Este de aquí,
echadle un ojo porque está muy bien. No tengo ni idea de cuál es.