This graph shows how many times the word ______ has been mentioned throughout the history of the program.
Si te hablo de la creación de mundos virtuales hiperrealistas,
seguramente ya estás pensando en algún tipo de escenario 3D
donde algún artista digital ha ido creando al milímetro
todos los detalles, texturas y polígonos.
A lo mejor incluso estás pensando en estos impresionantes escenarios
que motores gráficos como el Unreal Engine 5
son capaces de renderizar actualmente y de los que ya hablaremos
a nivel técnico en un futuro vídeo.
En resumen, seguramente lo que estás pensando son en mundos tridimensionales
cuyas superficies están creadas con mallas geométricas poligonales.
Pero en este canal de YouTube conocemos un secreto que no mucha gente sabe
y es que desde 2020 existe una nueva tecnología
que mediante el uso de inteligencia artificial
nos está permitiendo capturar la realidad con todos sus detalles,
haciendo uso únicamente para crear dicho escenario
un conjunto de fotografías en dos dimensiones.
Tú solo te tienes que preocupar de tomar unas cuantas imágenes
del entorno que quieras capturar y boom, la inteligencia artificial
será la que aprenda a reconstruir toda la geometría y detalles
de iluminación de la escena automáticamente.
Y de todo esto hablaremos en el vídeo de hoy, un vídeo
que está patrocinado por la nueva edición del máster de inteligencia
artificial que organiza el IEA.
Todos los detalles lo daré al final del vídeo para no estar parando ahora,
pero simplemente deciros que tenéis una nueva oportunidad de aprender
con todos los profesionales que organizan este máster
y que, como siempre, vais a tener un código de descuento impulsado
por este canal.
Todos los detalles al final del vídeo.
Pero bueno, primero vamos a hablar de todo esto del 3D
porque te tengo que advertir de una cosa.
No, si estás pensando que esto de crear escenarios 3D realistas
en base a fotografías es lo que se conoce como fotogrametría,
te tengo que decir que no, que esto es completamente diferente.
Ok, vale, con la fotogrametría también podemos usar imágenes
para inferir cuál es la geometría tridimensional de un objeto o escenario.
Típicamente representado con una malla 3D.
Pero en el caso de Nerf, la cosa cambia por completo.
Y es que aquí no se infiere cuál es la malla poligonal de un objeto.
No, aquí lo que se infiere es el volumen 3D al completo.
En una escena capturada con fotogrametría,
si tú te acercas mucho al objeto y atraviesas la malla,
te encuentras con que el objeto está hueco por dentro.
La superficie es solo una fachada,
pero en una escena tridimensional volumétrica como las que captura Nerf,
lo que se busca es aprender toda la información lumínica
que un objeto o escena en todo su volumen 3D puede emitir.
Lo ves? En este caso,
sistemas como Nerf se estarían basando en lo que se conoce como renderización
volumétrica frente a las técnicas de fotogrametría clásicas
que se basan en la renderización por superficie.
No es lo mismo.
Y qué conseguimos con todo esto?
Pues bueno, ya lo veremos en este vídeo,
pero con sistemas tipo Nerf basados en renderización volumétrica,
somos capaces de capturar escenarios 3D con mayor detalle
y con efectos lumínicos que por lo general a los sistemas
basados en fotogrametría se les suele atragantar efectos
como por ejemplo transparencias o reflejos.
Así que en resumen, Nerf es una nueva técnica de renderización
que desde el 2020 compite con las técnicas clásicas de fotogrametría
para que, haciendo uso de varias imágenes en dos dimensiones,
pueda ser capaz de reconstruir una escena tridimensional hiperrealista
de un lugar u objeto que podamos explorar, donde incluso podemos mover
la cámara hacia perspectivas que no estuvieran incluidas
en las imágenes de entrenamiento originales.
Una auténtica locura.
Y lo mejor es que todo esto no ha parado de evolucionar.
Aquí en el canal os lo he ido contando.
A los pocos meses ya teníamos a Nerf in the wild,
que era capaz de capturar escenarios enteros donde ahora las imágenes
de entrenamiento podían tener variaciones lumínicas
y distintos estilos fotográficos.
Lo bueno de esto es que ahora la inteligencia artificial
no solo era capaz de juntar toda esta información
para recrear el escenario a la perfección,
sino que también te permitía modificar al gusto el estilo de iluminación
con el que poder visualizarla.
O también vimos a The Nerf, un paper del que también hicimos vídeo
y donde os contaba cómo podíais capturar tridimensionalmente a,
bueno, pues a vosotros mismos,
una captura basada en esta técnica de Nerf para obtener
así una especie de selfie en tres dimensiones que los autores
denominaron Nerfis.
Estos son solo dos de los ejemplos que aquí en el canal
hemos ido contando de toda esta evolución que la tecnología
Nerf ha ido teniendo desde el año 2020.
Una tecnología que esconde un gran potencial,
pero que también tiene algunas limitaciones.
Una de ellas, la más importante en este caso sería el tiempo.
Y es que desde que tú le das a la inteligencia artificial
las imágenes capturadas hasta que Nerf te genera una escena 3D
que puedas explorar, el proceso de entrenamiento
puede llegar a tardar horas e incluso días.
Pero si hoy estoy hablando de todo esto es porque la cosa ha mejorado.
Sí, como lo oyes.
De hecho, esto que has visto aquí ha sido el proceso de entrenamiento
necesario para conseguir una escena tridimensional como esta.
Wow. La cosa está en cuestión de segundos.
Y lo mejor es que podemos y vamos a probarlo.
De hecho, vamos a probarlo con la primera escena.
Es una grabación que he hecho del salón de mi casa
y donde no me he preocupado de que la grabación esté bien.
Al final, yo quiero probar qué tan robusto es este sistema
para vídeos sacados, pues así, no a mano alzada, un poco
sin tener en cuenta que tengo que capturar la mayor parte
de información posible para que la reconstrucción sea lo mejor posible.
Pero bueno, queremos comparar un poco fotogrametría
versus renderización volumétrica neuronal.
Vamos a llamarle.
Entonces, bueno, el vídeo es este de aquí.
Vamos a ver qué tan bien funciona con el sistema.
Y lo que quiero que evaluemos ahora no solamente es la calidad gráfica
de lo que podamos generar, sino que también vamos a evaluar
qué tan rápido se entrena este sistema, que al final es el valor
que añade el trabajo de hoy.
Entonces vamos a verlo.
Se me abre en esta pantalla, lo muevo rápidamente para acá
y empezamos a ver cómo se va generando una especie de
pues eso, no de volumen, de humo.
Toda esta historia me recuerda un poco al rollo de Harry Potter,
del pensador de Dumbledore, cuando se iba generando una escena
a través de sus recuerdos y había como humo y todo se generaba por humo.
Esto lo veo más o menos igual y vosotros no lo tenéis que saber,
pero yo ya estoy empezando a reconocer las formas que se genera
las formas que definen al salón de mi casa.
Esto que está aquí ahora mismo parece que no se reconoce la escena,
pero lo que pasa es que estamos viendo parte del ruido volumétrico
que está por delante de la escena.
Lo que tenemos que hacer es meternos dentro de ella.
En este caso sí podemos meternos para ver qué contiene dentro.
La escena estaría culpida en el interior de todo este volumen.
Entonces vamos a verlo mientras se sigue entrenando.
Me meto, me meto, me meto.
Esto de aquí es donde ha pasado justamente la cámara y cuando atravieso
esto, ahí está, wow, wow, wow, wow, wow, wow.
Ok, vale, vale, vale, vale, vale, vale, vale.
Efectivamente estamos viendo una reconstrucción.
Lo que podemos ver en la escena es que efectivamente el sistema
ha sabido reconstruir bastante bien el salón de mi casa
desde la perspectiva que yo le he dado con una toma de móvil a mano alzada.
Y claro, o sea, es un poco flipante porque la escena yo me paro así
y parece que lo que estoy viendo es una foto.
A ver, no se me escapa, tiene baja resolución, tiene ruido de alrededor,
pero pero bastante sorprendente, vale, es bastante, bastante sorprendente.
De hecho, si me alejo.
A ver, bueno, voy a parar un momento ya el entrenamiento,
aunque esto pueda seguir refinándose, pero lo voy a parar.
Vale, ahora sí me puedo mover y veis que va la cosa con un poco más de fluidez.
No? Y veis como si me muevo.
Fijaos sobre todo, quiero en el detalle de la mesa, vale?
Fijaos como la mesa efectivamente si está en 3D y yo con el móvil
nunca saqué la mesa a esta distancia.
Yo no tengo una perspectiva de cómo es la mesa a esta distancia.
Y sin embargo, el sistema en cuestión de menos de un minuto
ha sabido reconstruir toda la geometría de este salón.
Y sinceramente me gusta mucho el efecto de aquellas zonas que no entiende,
aquellas zonas de las que no tiene información.
Pues vamos a pensar, por ejemplo, el lado que está detrás de mí
cuando estoy grabando, que es toda esta parte de aquí.
Como no tiene información, es difuso y eso me gusta.
Es una buena forma de, por ejemplo, modelizar la incertidumbre
dentro de esta de esta representación.
Esto de aquí, como hemos dicho, es renderización volumétrica.
Aquí no hay una malla de superficie que esté modelizada,
que no hay texturas aplicadas a cada material, sino simplemente
pues se ha calculado cuál es la información lumínica
dentro de cada pixel tridimensional que ocuparía este volumen.
Por hacer la comparación, voy a utilizar una herramienta típica
de fotogrametría, una herramienta gratis que también podéis utilizar.
Se llama Meshroom.
Y lo que quiero hacer simplemente es pasarle el mismo input
para poder comparar ambos resultados.
Pues en este caso, el resultado es esto de aquí,
donde empiezo a encontrarme un poco también con patrones
que puedo reconocer del salón de mi casa.
A priori diría que la renderización no es mala,
no es una mala reconstrucción.
Tenemos la escena en 3D de lo que sería el salón de mi casa.
Quizás os podéis hacer una idea también de cómo sería
la geometría de mi casa de esta forma.
Pero si nos fijamos bien a los detalles, la cosa falla bastante.
Fijaos, por ejemplo, cómo la mesa no la reconstruye para nada,
cómo dentro del baño también la cosa falla, las luces, el televisor.
Y esto tiene que ver sobre todo con lo que comentaba,
con el hecho de que la fotogrametría clásica,
los algoritmos de fotogrametría fallan mucho a la hora de entender
cómo son las iluminaciones de la escena, los brillos, los destellos.
Al ser, por ejemplo, la mesa, una superficie donde se refleja
la luz de esta ventana de aquí, pues lo que sucede es que directamente
el sistema no entiende, no sabe cómo reconstruir la geometría
de este objeto.
Y teniendo en cuenta además que el tiempo de entrenamiento
para generar esta escena ha sido de 40 a 50 minutos,
donde Nerf ha tardado solamente uno, dos, tres minutos.
Pues de momento la partida la va ganando Nerf.
Vamos con otro experimento.
Para nuestro segundo experimento, vamos a estar utilizando este video de aquí.
En este caso, pues con la ayuda de nuestra amiga Sandra, la hiperactina,
estamos utilizando su libro, sus gafas y una vela.
Y básicamente esta escena lo que busca es experimentar
con los efectos de iluminación para ver qué tan buenos son
estos sistemas a la hora de poder capturarlos, de entender la escena
y cómo afecta la luz a los diferentes materiales.
Aquí en este caso tenemos transparencias, tenemos
lentes que distorsionan la luz, tenemos una vela.
Vamos a ver qué también consigue Nerf capturar toda esta escena.
Vale, de nuevo, le voy a dar a ejecutar y quiero que tengamos en cuenta
también cuánto tarda en entrenarse esta escena.
Aparece por la pantalla a la derecha, muevo la izquierda rápidamente, ras.
Vale, vale, siempre hay un punto de estar como buscando,
ahí está, vale, ya lo estoy viendo, de buscar el elemento,
es como una tarta o una escultura que se va creando delante de tus ojos,
pero que tienes que buscarla.
Por lo general se generan estos patrones por donde se suele mover la cámara,
lo cual es curioso, pero bueno, más allá de eso,
lo que voy a hacer es meterme ya dentro del pastel.
Voy a usar el teclado y ya empiezo a ver elementos reconocibles,
evidentemente, y es que de nuevo, es como estar soñando el vídeo
que acabamos de ver como input, vale, es como pues ya está,
pues ya está, aquí lo tenemos, de momento se está viendo mal
porque todavía la cosa se sigue entrenando,
pero ya podríamos pararlo aquí y ya tendríamos una reconstrucción
bastante válida de lo que sería el input que nosotros le hemos facilitado.
Vale, voy a parar el entrenamiento aquí para poder ya observar la escena,
me voy a acercar un poco y a lo mejor una de las cosas que os estáis preguntando
es por qué la resolución de la escena es tan baja,
en este caso estamos con una resolución de 266 por 139,
por eso se ve tan pixelado todo.
Pues aquí lo tenéis, en realidad tenemos activada una opción
que es resolución dinámica, que si la marcamos lo que nos permite
es bajar la resolución de la escena para poder obtener así
mayor interactividad, a menor resolución, menos le cuesta
la tarjeta gráfica renderizar cada fotograma y por tanto
podemos tener una mayor tasa de fotogramas por segundo.
El problema es que si yo desactivo esto, pues vamos a ver,
bueno, de hecho lo voy a hacer para que lo veáis,
vamos a poder ver la escena con mucho más detalle, ok,
pero el problema, ya casi se puede leer hasta el título del libro de Sandra
que puede salir mal, pero el problema es que ya no tenemos interactividad,
si yo ahora clicara esto iría bastante pausado,
estamos moviéndonos a 0,6 fotogramas por segundo
y mi tarjeta gráfica estaría gritando, llorándome,
diciéndome Carlos, para por favor, bueno, un desastre, ¿vale?
Entonces voy a intentar marcarlo de nuevo, cosa que no es fácil, ¿vale?
Y vamos a echar un vistazo a la escena, a aquellos elementos que a mí me interesaba.
Básicamente lo que estamos viendo aquí es una reconstrucción perfecta
de justamente lo que hemos grabado.
Tenemos, por ejemplo, el paso transparente, se ve perfectamente,
vemos la vela, vemos las gafas,
podemos ver incluso cómo aquello que se ve a través de las gafas,
pues efectivamente, sufre también una distorsión óptica
como debería ser normal, ¿vale?
Y con esta escena podemos ver un ejemplo de lo que sería
uno de los puntos fuertes del sistema Nerve
y que además define mucho su forma de funcionar.
Recordamos que aquí lo que tenemos es una red neuronal
que lo que está es a partir de una serie de variables que le damos como input,
pues prediciendo cuál es el color de cada punto tridimensional del espacio, ¿vale?
Estas variables que nosotros le damos como input son las coordenadas X, Y, Z,
pero no solo esto, también le estamos pasando cuál es la orientación de la cámara,
es decir, desde dónde estamos viendo ese punto tridimensional en el espacio.
Y esto es determinante para poder modelizar muchas de las interacciones
que hace la luz en la escena.
Porque, por ejemplo, si yo solamente le pasara a la red neuronal
la coordenada X, Y, Z de este punto de aquí,
la red neuronal me podría decir,
oye, sí, mira, perfecto, esto es, pues, de color morado, ¿vale?
Pero, claro, si yo solamente le paso X, Y, Z,
pues la red neuronal me va a devolver siempre el mismo color,
independientemente de dónde lo mire.
Pero, claro, es que a lo mejor este libro tiene una textura satinada
que sí refleja un poco la luz.
Y si yo, por ejemplo, lo observara desde este punto,
donde tenemos ahora una fuente de luz que estaría más o menos por aquí,
pues la luz vendría por aquí y ahora sí estaría rebotando
y nos estaría llegando parte de esa luz a nuestros ojos.
Fijaos como el mismo punto de antes ya no es morado,
sino que ahora es una combinación entre el morado
y la luz que está interactuando con ella.
Es por eso que a Nerf no se le puede pasar únicamente
las coordenadas X, Y, Z,
sino que de alguna forma también le tenemos que pasar información
de la orientación de la cámara.
Es la verdad una auténtica pasada, es como estar soñando
toda esta escena. Me encanta.
Qué fuerte, qué pasada.
Vamos a comparar esto con lo que haría ahora el sistema de fotogrametría
con el mismo input de vídeo.
Y aquí lo podemos ver claro, ¿vale?
Todo lo que estamos comentando de efectos de transparencias,
reflejos, destellos, todo esto,
un sistema de fotogrametría por lo general se le suele atragantar.
Y creo que el mejor ejemplo para comprobarlo sería
por una parte el vaso de cristal que desaparece por completo.
Es curioso, es casi como un truco de magia,
como nos ha dejado solo la acera de la vela.
Pero luego por otro lado, fijaos también que no está en las gafas.
Las gafas, lo poco que se ha quedado de ellas
es una especie de...
de donde estaban apoyadas
y es como que la textura ha acabado por aplanarse
sobre la superficie del libro.
El libro está más o menos bien, pero como siempre tiene esta superficie rugosa,
que sinceramente no se compara con la calidad visual
que nos estaba dando el sistema de renderización volumétrica.
Y nos queda un último experimento, el más importante,
de Final Boss, capturar mami, ¿vale?
Quería hacer mi propio nerf y quería capturarme de nuevo,
como ya hice en el pasado, pero ahora con este nuevo sistema.
Y para ello lo que ha hecho ha sido capturar toda la escena tridimensional
de yo sentado aquí en mi set de grabación
para que vosotros ahora podáis tener una versión nerfeada de DotCSV.
Ya no voy a estar tan op.
Entonces, esta es la escena.
Fijaos cómo poco a poco vamos capturando,
vamos registrando toda la información del objeto que queremos capturar
y luego vamos a dárselo a Nerf para que entrene.
Mientras sucede todo esto, primero déjame que te cuente ahora sí
algo que te va a interesar.
Y es que este tipo de tecnologías, además de impresionantes,
traen consigo un montón de oportunidades.
Y si queréis aprovecharlo y aprender por fin
cómo poder sacar partido a todas estas tecnologías,
pues os voy a dar una buena noticia.
Está a punto de comenzar una nueva edición del máster ejecutivo
en Inteligencia Artificial que organiza el IEA.
Esta es la cuarta edición y la tercera que promociono aquí en el canal
y no me cansaré de repetir el valor que tiene la propuesta que ellos hacen.
Este no es un máster técnico que busca enseñarte a programar
Inteligencia Artificial, matemáticas o los fundamentos de todo esto,
sino que es un máster que está enfocado a esa otra parte que casi nunca se enseña.
Y es, ¿cómo puedo integrar todas estas tecnologías en un proyecto real?
¿Cómo puedo crear valor e innovación en mi empresa
aprovechando todas estas oportunidades?
Preguntas que tienen sentido en un mundo que cada vez se acerca más a la Cuarta Revolución.
Todo esto además de la mano de auténticos profesionales
que tienen una amplia experiencia tanto en el mundo de las empresas
como de la academia y sobre todo del deep learning.
Además, una de las cosas que más valoro de este máster
es el pedazo de equipo de ponentes con los que podréis aprender y charlar
semana tras semana de muchas de las vertientes
en las que la Inteligencia Artificial impacta.
Arte, periodismo, inversión y empresa, divulgación.
Sí, aquí estoy yo, hola.
Un auténtico lujo.
Este máster no es solo una inversión en tu aprendizaje,
sino también una gran oportunidad de armar una buena red de contacto.
Si te estás preguntando si puedes participar desde tu país,
si puedes es 100% online,
excepto la cervecita de final de curso,
que espero que nos podamos ver todos físicamente,
y está abierto a todo el mundo.
Si te interesa este programa tienes que darte prisa
porque ya empiezan en febrero.
Te quedan muy pocos días para matricularte.
Y si lo vas a hacer, pues tienes que saber que con este código de aquí,
12CV300, pues tienes 300 euros de descuento sobre el precio de la matrícula.
Y de hecho, aprovecho para avisaros también
que este domingo se va a celebrar un directo muy especial aquí en el canal
con Andrés Torrubia, uno de los que organizan este máster,
pero bueno, una persona que siempre que habla hay que escucharla
y donde vamos a estar debatiendo sobre Inteligencia Artificial,
sobre qué podemos esperar de todo esto en este 2022,
cuál va a ser la evolución de todas estas tecnologías este año.
Si te gusta la Inteligencia Artificial, este directo no te lo puedes perder.
Y ahora sí, el resultado de 12CV nerfeado en 3D para todos vosotros
es este de aquí.
Vamos a verlo.
Y de nuevo, pensemos cuánto tarda en renderizarse,
empezamos a contar 1, 2, 3, 4, 5, Dios, empiezo a verme.
Ah, qué guapo.
Dios, qué maravilla.
Me encanta la tecnología.
Dios.
Vale, de momento hay mucho ruido.
Recordemos que toda esta parte de aquí nos está generando artefactos
que no nos permite ver la escena bien, pero bueno,
se intuye que efectivamente algo se ha generado bastante bien.
Y si yo vengo para acá, a ver, podemos observarlo por un lateral.
Vale, no, esto de aquí es como una especie de bloque de tarta
que no podemos ver, pero si nos metemos para adentro,
ahí está, ahí está.
Papá Dot con sus, no sé si se llega a apreciar,
pero son Papá Noeles.
Qué auténtica pasada.
Vale, esto ha tardado y, vamos, lo he parado a los 30 segundos
de entrenamiento, podría dejarlo cinco minutos y a lo mejor muchos
de los detalles seguirían refinados, pero me es suficiente.
O sea, para entretenerme con esta escena, para verla,
disfrutarla, un poco de ononismo digital y todas estas cosas.
Eh, Dios, decidme si el futuro no es apasionante.
Y además, pensad que todo esto capturado con un vídeo,
con un vídeo con el móvil, ¿vale?
A ver, podemos verlo desde arriba.
Dios, Dios, ¿quién me mira?
Claro, y además podemos cortar porque al final una escena
volumétrica lo podemos pensar como una darta.
Podemos seccionar esa darta a la altura que queramos.
Aquí teníamos unas herramientas para hacerlo, ¿vale?
Por ejemplo, lo podemos quitar por este eje.
Ahí podemos ver cómo, bueno, pues como la red, por suerte,
no me deja vacío, como hacía el otro tipo de renderización.
A ver si podemos cortar.
Mira, ya sabía yo que la inteligencia artificial me
haría perder la cabeza en algún momento.
Qué maravilla, qué auténtica pasada.
Bueno, y la comparación con la fotogrametría pues la tenéis
aquí.
Bueno, mientras se hunde este barco simplemente deciros que
si os ha gustado este tema, si os ha gustado este vídeo,
compartidlo porque sí, pues tiene muchos movimientos y veo
que os ha gustado.
Voy a preparar una segunda parte donde explicaré esto, ¿no?
El cómo se ha conseguido que Nerve ahora funcione solamente
en segundos cuando antes tardaba días.
Tenéis todas las informaciones de los proyectos abajo en la
caja de descripción y nos vemos con más inteligencia
artificial en el próximo vídeo.