logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Tengo una pregunta para ti. ¿Te habías parado a pensar alguna vez en la estrecha relación que existe entre el mundo de la realidad
aumentada y la inteligencia artificial?
No, ¿verdad? ¿Eh?
Ah, que sí, que la semana pasada cuando sin querer subí un tiktok al canal de youtube
mandando notificaciones a todo el mundo de que DotzSv había subido vídeos sobre realidad aumentada e inteligencia artificial, estuvisteis indagando más sobre el tema y...
Ya.
Ok boomer, ¿vale? Ok boomer para mí completamente, que la semana pasada me equivoqué y subí un vídeo, un tiktok al canal
mandando notificaciones a todo el mundo, ¿vale? Fue una una cagada, fue un error, pero que hoy vengo a solventar
porque sí, nueva norma del canal, notificación que se manda, vídeo que tenéis que recibir.
Una oportunidad perfecta para hoy poder cubrir un tema que en realidad llevo mucho tiempo queriendo tratar en el canal
y es como la inteligencia artificial está llevando la realidad aumentada a un nuevo nivel. Vamos a verlo.
Mi interés por la realidad aumentada y la realidad virtual vienen de largo. Haber tenido la oportunidad de probar las google glasses, las microsoft
hololens y una gran variedad de gafas de realidad virtual, me han hecho siempre creer que esta tecnología esconde un potencial real
que sólo será liberado cuando contemos con un hardware para su consumo, que por diseño, usabilidad y precio, se han aceptado por gran parte del mercado.
Cuando hablamos de realidad virtual nos estamos refiriendo a la posibilidad de, a través de una gafa de VR, poder estar inmersos en un mundo
completamente digital, con el cual podremos interactuar. Para esto el principal objetivo del casco es darte una visión
envolvente de dicho mundo y ser capaz de registrar los movimientos de tu cuerpo con la mayor precisión para trasladar estas acciones al mundo virtual.
Ahora, si damos un paso más allá, nos encontraremos con la realidad
aumentada, que mi opinión hace un ejercicio mayor que el de la realidad virtual, al buscar no sólo crear estos elementos
virtuales y hacerlos interactuar con tus movimientos,
sino también de integrarlos de manera realista con el mundo real que te rodea. Ojo, podría parecer una tarea
relativamente trivial, donde solamente tendríamos que superponer los objetos virtuales
encima de la imagen capturada por la cámara que estemos utilizando.
Pero cualquiera que alguna vez haya trabajado en la producción de efectos especiales,
sabrá que lograr esto requiere tener en cuenta muchísimos más detalles, que serán los que finalmente den ese aspecto de realismo a los elementos
virtuales, aumentando así nuestra realidad. Y creedme, detrás de esto hay muchísima inteligencia artificial
funcionando para hacer de esto algo posible.
Empecemos por lo evidente. En general, si no asumimos la utilización de ningún sensor
especial, más que los que un móvil estándar pueda tener, el problema de la realidad aumentada se basa en acelerómetros,
giroscopios y sobre todo la información espacial en dos dimensiones capturadas por una cámara
RGB. Será la combinación de todos estos inputs, la que utilicemos para extraer toda la información posible de nuestro entorno, para integrar así nuestros elementos
tridimensionales. Y, como ocurre en el mundo de los efectos especiales, cuando se intenta integrar un elemento 3D, lo primero que tenemos que hacer es
resolver la posición y el movimiento de la cámara, para que así podamos trasladar ese movimiento hacia la cámara virtual de la escena 3D y podamos
percibir que los objetos virtuales se mueven en consonancia con el resto de la realidad cuando se mueve el dispositivo.
Esto, que como te imaginarás es una tarea clave dentro de la realidad aumentada, se conoce como
localización y mapeo simultáneo, o SLAM por sus siglas en inglés.
Esta es la compleja tarea de un dispositivo de tener que ir localizando su posición tridimensional en un espacio del que simultáneamente
debe ir aprendiendo a construir un mapa. Algo que no solo se aplica para realidad aumentada,
sino que también juega un gran papel en otros campos como, por ejemplo, la robótica. Para conseguir esto, a través de la información visual
capturada por la cámara, se toman ciertos elementos que faciliten el trackeo, como esquinas o bordes contrastados, y con ello se computa el flujo óptico
de la escena entre fotogramas. Igualmente, en paralelo, también se puede hacer uso de la información
inercial de los giroscopios y acelerómetros del móvil para, en conjunto, hacer la mejor estimación posible de la posición del dispositivo. Un proceso de estimación
conjunta conocido como odometría visual inercial. Con esto ya se puede inferir el movimiento del dispositivo y se puede integrar mejor los elementos
tridimensionales. Parecería que tenemos resuelto gran parte de los problemas de la realidad aumentada. El objeto virtual ya está anclado en la realidad.
Tranquilos, esto no ha hecho más que empezar y es ahora cuando los algoritmos más modernos de deep learning entran en juego. Mira esto.
Esta es una de las presentaciones de Microsoft HoloLens y quiero que te fijes bien en el siguiente detalle. Quiero que rápidamente contabilices cuántas veces se va a cruzar la presentadora
por delante de los objetos virtuales que estamos viendo. ¿Preparados? ¿Listos? ¡Ya!
¿Qué? Te has dado cuenta, ¿verdad? No se cruzan ni una sola vez. Si lo piensas, el motivo es evidente. Al final, en un dispositivo como este, el objeto virtual siempre va a estar superpuesto a la realidad que estamos observando.
Siendo así, aunque virtualmente el objeto esté excepcional, el objeto virtual siempre va a estar superpuesto a la realidad que estamos observando.
Si lo piensas, el motivo es evidente. Al final, en un dispositivo como este, el objeto virtual siempre va a estar superpuesto a la realidad que estamos observando. Siendo así, aunque virtualmente el objeto esté colocado más al fondo, la realidad es que siempre se visualizará superpuesto a cualquier otro objeto que se cruce por delante, rompiendo de inmediato la ilusión.
Y es por eso que en este tipo de demos existe una coreografía perfecta entre el movimiento del presentador y el cámara que busca evitar que estos cruces se produzcan.
Pero entonces, ¿cómo lo solucionamos? Pues aquí es donde entra de lleno la inteligencia artificial y en concreto los modelos de segmentación de imágenes que año tras año han ido mejorando tanto en calidad como en rendimiento.
Un algoritmo de segmentación puede dibujar en segundos una máscara que indique cuál es el recorte de un objeto o persona determinado respecto a su fondo, tal y como sucede con los filtros que ahora vemos en todas las aplicaciones de videollamadas.
Claro, usando estos modelos podemos hacer el recorte de una persona y ahora podemos hacer uso de esta máscara para ocultar aquellas partes del objeto virtual que no se deban mostrar por su posición en el espacio, limpio y efectista.
Pero ojo porque la cosa avanza rápido y a día de hoy encontramos incluso mejores soluciones. Trabajar con mapas de segmentación te obliga a decidir qué objeto se encuentra adelante y cuál detrás.
Pero es que a día de hoy contamos con soluciones que directamente son capaces de computar este mapa de profundidad que te dará una visión de la propia geometría de la escena.
Si recuerdas, en el video del meme que entrenó a una inteligencia artificial ya hablamos de esto.
Computar mapas de profundidad de calidad normalmente requerido de hardware especializado para ello y técnicas que se han basado en la visión estereoscópica o en la reconstrucción de la estructura a través del movimiento percibido por la cámara.
Con resultados que aún no son de la calidad suficiente que se requiere para este tipo de aplicaciones. Pero en los últimos años la tendencia se ha movido hacia técnica basada directamente en el aprendizaje automático.
Porque al final, si yo te mostrar una imagen como esta, tú no necesitas una visión estereoscópica o ver el movimiento relativo de los objetos en la escena para entender cuáles están más cerca o más lejos.
Simplemente tú ya has aprendido previamente conceptos de perspectiva, geometría, que te van a permitir inferirlo viendo solamente la imagen.
De forma similar actúan técnicas como la siguiente, publicada este mismo año y que usando redes neuronales es capaz de predecir mapas de profundidad de alta calidad y que son consistentes en el tiempo.
Es decir, donde en la estimación no se producen parpadeos.
Con esto ya no solo tenemos un mecanismo ideal para hacer oclusiones de objetos, sino que contamos con la posibilidad de que nuestros objetos virtuales interactúen con toda la geometría del espacio.
Dando una herramienta a los desarrolladores para crear filtros e interacciones físicas que pueden llevar a la realidad aumentada al siguiente nivel.
Efectos especiales computados y generados instantáneamente ante nuestros ojos.
Y hey, como he dicho, fijaros que aquí no estamos usando ningún hardware especializado más que la información registrada por la cámara.
Pero actualmente en el mercado ya contamos con dispositivos que van más allá e integran en su hardware tecnología pensada para asistir a todos estos algoritmos de realidad aumentada.
Es el caso, por ejemplo, del nuevo iPad Pro, que incluye en su diseño de cámaras un LiDAR integrado.
Un dispositivo como el que encontraríamos encima de un coche autónomo, evidentemente no tan avanzado, que se encargará de lanzar pulsos de luz y medir el tiempo e intensidad de respuesta para obtener una medición de la geometría del espacio,
consiguiendo así mejores estimaciones en todo lo que hemos mencionado hasta ahora.
Pero podemos ir más allá. Con la geometría predicha ahora podemos alcanzar un nuevo grado de realismo si conseguimos igualar las condiciones lumínicas del mundo real y la del objeto integrado.
Es decir, lograr que todos los objetos, tanto reales como virtuales, se vean iluminados por el mismo punto de luz o se vean afectados por las sombras proyectadas de los objetos en escena será crucial para mejorar nuestros resultados.
En este sentido, de nuevo el Machine Learning nos puede ayudar bastante a la hora de percibir aquellas pistas que notarán una estimación de la iluminación real del escenario,
entendiendo los brillos, reflejos, zonas oscuras, proyecciones de sombras y llevando todas estas condiciones lumínicas al mundo virtual.
Un ejemplo de esto es el que nos muestra Ian Goodfellow en su uso de redes generativas adversarias para la creación de reflejos realistas.
Normalmente en el diseño 3D, para replicar los reflejos de un entorno real a un objeto virtual se hace uso de unas texturas 360 conocidas como mapas HDRI.
En ellas se recoge toda la información visual del entorno que podrá ser utilizada por aquellos objetos que presenten reflejos.
Claro, para contar con estos mapas normalmente se requeriría de hacer previamente la captura de este entorno en 360 grados.
Pero en este caso solamente contamos con la única información que ha sido percibida por las cámaras del dispositivo que estamos utilizando.
La solución en este caso será utilizar gran parte de la información capturada por las cámaras para ir recomponiendo un mapas HDRI.
¿Y qué pasa con aquellas zonas que no vemos, como por ejemplo el techo de la habitación en la que nos encontramos?
Pues no pasa nada, aquí se puede tirar de la potencia de los modelos generativos para que aquello que no conozcamos pues no lo inventemos.
Si más o menos he percibido que las paredes son de este color, pues lo más probable es que el techo sea un plano sólido con similares características.
Y el resultado, pues de nuevo elementos virtuales con una mejor integración en el mundo real.
Y así, entre más seguimos analizando, más estrecha se vuelve la relación entre el machine learning y la realidad aumentada.
Utilizamos algoritmos de trackeo de la pose de un sujeto para usarlo como interfaz de control del mundo virtual.
De forma similar a cómo se utilizan algoritmos de reconocimiento del habla para el control del dispositivo.
Podemos utilizar localización y reconocimiento de objetos para superponer información extra de lo que se está observando.
O para tener un mejor entendimiento de los objetos del mundo real y simular mejor sus físicas.
Que por ejemplo el rebote de un objeto en un sofá tenga mayor elasticidad que en una superficie sólida.
Y también encontramos machine learning a la hora de geolocalizar la nube de puntos registrados de otros servicios de mapas con la información capturada por la cámara.
Con el fin de localizar el dispositivo en espacios exteriores.
El machine learning juega un papel crucial dentro de la realidad aumentada.
Y esta cada vez es capaz de darnos más y mejores experiencias virtuales.
Cuando tengas la oportunidad de acceder a una herramienta formativa mucho más inmersiva.
Capaz de mostrarte entre dimensiones lo que antes quedaba atrapado en libros de texto.
Recuerda que detrás hay machine learning.
Cuando hagas uso de nuevas aplicaciones de entretenimiento que exploten dinámicas que entremezclen lo artificial con lo real.
Recuerda que detrás hay machine learning.
O cuando contemos con mejores herramientas de marketing que nos permitan integrar productos virtuales en nuestro salón.
O probarnos la ropa que vayamos a comprar.
O incluso llegar al punto en el que estos productos nunca lleguen a salir del plano virtual.
No te olvides que detrás hay actuando algoritmos de machine learning que hacen que todo eso sea posible.
Y muy importante, cuando toda esta realidad aumentada termine por llegar.
No te olvides que todo esto una vez te lo contaron aquí.
En dot c c v.
Ah bueno sí, también recordar que podéis apoyar el contenido del canal aquí a través de Patreon.
Tenéis el enlace en la descripción y con una pequeña aportación mensual.
Podéis hacer una gran ayuda a que todo este contenido siga estando disponible en YouTube para todos.
Si no, pues también podéis comentar, darle a me gusta, compartirlo por WhatsApp, por redes sociales, por foro de internet.
Lo tengo que apuntar, no sé por qué me sigo haciendo la chuleta si siempre repito lo mismo.
Pero bueno, nos vemos muy pronto con más Inteligencia Artificial.
Chau chau.