logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Hola chicos y chicas, bienvenidos a DotCSV, tu canal sobre Inteligencia Artificial que
te trae todas las noticias del mundo de la Inteligencia Artificial y el Machine Learning.
Lo sé, sé que el canal está un poquito a bajo nivel, ahora mismo no estoy subiendo
tanto vídeos como solía subir antes, pero avisé, esto lo avisé yo en el directo que
hice a mediados del mes de abril, les conté que ahora mismo estoy con temas de universidad,
temas de trabajo y me cuesta bastante llevar todo a la vez, con lo cual tengo que intentar
priorizar una cosa sobre otra y por eso el canal ahora mismo está un poco a velocidad
crucero vamos a decir. Pero aún así, al final les voy a contar un poco cómo va a continuar
el canal durante los próximos meses, así que sigan hasta el final para que se puedan
enterar de todo. Una vez dicho esto, ahora sí que sí, damos
comienzo a las mejores noticias sobre Inteligencia Artificial del metaabril. Comenzamos.
Comenzamos como el mes pasado hablando de datos y es que un proyecto conjunto entre
varias universidades trajo en abril el mayor dataset de vídeo grabados en primera persona
de sujetos interactuando en labores de hogar. Uno de los factores que limitan el desarrollo
de ciertas áreas del campo del Machine Learning es la falta de datos. Esto ocurre por ejemplo
en el área de la comprensión de vídeos, debido fundamentalmente a la dificultad de
generar datasets con anotaciones para aprendizaje supervisado. Por eso recibimos con emoción
este dataset llamado Epic Kitchen, un repertorio de 55 horas de vídeos de sujetos interactuando
y realizando diferentes acciones cotidianas en la cocina. A diferencia a otro dataset
en los que los vídeos son guionizados, este dataset muestra la rutina habitual de cada
uno de los participantes. En total han participado en la grabación de 32 personas de una 10
nacionalidades diferentes, suponiendo una variedad en el tipo de cocinas, modus de trabajos,
hábitos alimenticios y otros elementos. Además, este dataset cuenta con anotaciones
que describen las diferentes acciones realizadas durante el vídeo y también identifican y
localizan la posición de los objetos utilizados. Sin duda un gran recurso que permitirá desarrollar
mejores modelos con uso en detección de objetos, reconocimiento de actividades o análisis
de vídeo. Podremos esperar futuras aplicaciones en sistemas de cocinas robotizados para la
asistencia doméstica o también para la mejora de interfaces de realidad aumentada, en la que
una aplicación cuya captura se realiza en primera persona puede aportar información asistiendo a
las posibles futuras acciones del usuario. Quizás en un futuro cercano tu wearable te
podrá evitar más platos rotos. Deep Mimic es un sistema de aprendizaje reforzado que permite
que un personaje pueda aprender a resolver una tarea imitando un movimiento de referencias que
se le ha enseñado previamente, consiguiendo así unas dinámicas mucho más naturales y realistas.
Seguro que en algún momento te has cruzado con alguno de estos vídeos en los que vemos a un
personaje de estos resolviendo una tarea en una simulación. Estos vídeos suelen popularizarse
no solo por los avances en inteligencia artificial que muestran, sino por lo simpático de los
movimientos del personaje, que habitualmente suelen ser bastante erráticos. Estos vídeos son el
resultado de entrenar a estos personajes mediante aprendizaje reforzado a partir de cero a resolver
una tarea determinada. Aun cuando estos sistemas consiguen resolver dicha tarea, si quisiéramos
aplicarlos en ciertos contextos como la animación 3D o los videojuegos, necesitaríamos que estos
movimientos fueran más realistas. El sistema propuesto en este artículo consigue que un
personaje al que se le presenta una determinada tarea y un determinado movimiento, traqueado
previamente, pueda aprender a resolver dicha tarea haciendo uso de ese movimiento, interpolando
correctamente diferentes acciones y adaptándose a las diferentes perturbaciones externas. En este
ejemplo podemos ver cómo el personaje consigue resolver la tarea de golpear la bola verde haciendo
uso de la patada giratoria previamente aprendida, adaptándose incluso a las variaciones externas
que en este caso se producen por las diferentes localizaciones del objetivo y los impactos de
los cubos. La asistencia en el movimiento permite que el personaje pueda aprender a resolver las
tareas con mayor eficacia evitando comportamientos… digamos que extraños. ¡Guau, vaya salto,
amigo! ¿Y tú qué? ¿Eso es trampa? Sin duda un avance que permitirá mejoras tanto en el control
de personajes virtuales en animación y videojuegos como en la movilidad de robots en el mundo real.
Podéis encontrar en la descripción de este video un enlace a un artículo donde explican
las técnicas desarrolladas en este proyecto. Lo que no puedo crear, no lo entiendo. Con esta cita
de Richard Feynman comienza el artículo publicado por la Universidad Stanford y Google en el que han
presentado un sistema para la generación de imágenes completamente nuevas, simplemente a
partir de la descripción dada en forma de grafo de los elementos que queremos ver en esa imagen.
Un grafo de escena es una estructura de datos utilizada para definir los objetos de una escena
concreta y cuál es la relación lógica y espacial de dichos objetos. Por ejemplo,
este grafo de aquí vendría a describir una escena en la que un hombre está a la derecha
de otro hombre lanzando un frisbee y detrás un niño en el patio. Esta información estructurada,
representada como un grafo, es la introducida como input en la arquitectura presentada en
este artículo. A partir de este grafo, el sistema es capaz de sintetizar una imagen
completamente nueva donde se cumplen los requisitos de la descripción dada. Para hacer esto,
el sistema primero procesa el grafo de escena haciendo uso de una red neuronal convolucional
orientada a grafos. La información procesada por esta red es posteriormente utilizada para predecir
las posiciones de los objetos y su silueta en la imagen, que combinadas conformarán la plantilla
de la imagen. Con esto, el sistema usa las archiconocidas redes generativas adversarias
para sintetizar una imagen coherente con dicha plantilla. En este caso, la arquitectura de la
red adversaria utiliza dos redes discriminadoras, una encargada de controlar que de manera individual
cada objeto de la imagen tenga una forma reconocible, y otra encargada de que la imagen
en su conjunto tenga un aspecto realista. Con este sistema, podemos ver que para algunos grafos,
las imágenes sintetizadas consiguen mantener la relación que ha sido especificada entre sus
objetos, pudiendo incluso generar varios tipos de objetos de la misma clase. Este estudio,
en combinación con otros estudios que consiguen generar los grafos de escena a partir de una
descripción en texto, podría suponer el camino para contar en el futuro con herramientas que
nos permiten crear contenido novedoso bajo demanda. Espectacular. En una carta abierta
firmada por Various Scientificos se presentó una iniciativa para la creación del European
Lab for Learning and Intelligent Systems, ELIS por sus siglas, siendo este un laboratorio de
inteligencia artificial que busca ser equivalente a los desarrollos en este campo realizado por
otros países como son China o Estados Unidos. La carta comienza criticando la posición poco
competitiva de Europa en cuanto a la revolución de la inteligencia artificial que estamos viviendo,
donde la mayor parte de la inversión se encuentra localizada en Estados Unidos y China atrayendo a
estos focos y obligando a migrar a los investigadores formados en Europa. Por esto mismo proponen la
creación de un laboratorio de inteligencia artificial a nivel europeo equivalente a otros
proyectos como el laboratorio de física CERN o el laboratorio europeo de biología molecular. Para
conseguir esto proponen construir instalaciones punteras e infraestructura computacional
suficiente y fortalecer las conexiones entre los laboratorios actualmente existentes. Además,
en colaboración con diferentes universidades se implantará un programa de máster y doctorado
que estarán fuertemente ligados al entorno de ELIS. Se buscará también atraer a investigadores
permitiendo dividir sus jornadas entre ELIS y sus posiciones en la universidad data online
industria, así como habilitarán ofertas de empleo para talento en inteligencia artificial
para que formen parte de la institución. Una iniciativa que de materializarse en una realidad
puede situar Europa nuevamente dentro de la carrera por el avance científico y
tecnológico de la inteligencia artificial, una competencia que en cualquier caso es positiva
para el conjunto de la humanidad. El siguiente artículo se lo quiero agradecer a Carlos José
Díaz que me lo hizo llegar a través de Twitter y vaya locura de artículo. Se trata de nuevo
de un sistema de sintetización de imágenes y en este caso tenemos imágenes en los que aparece
un sujeto en una pose determinada y nosotros podemos definir una nueva pose objetivo. El
sistema aprenderá a crear una nueva imagen en el que el sujeto aparezca en dicha pose.
Sí, como lo oyes. Tomas una imagen de referencia, por ejemplo esta de aquí,
y luego la especificas cual quieres que sea la pose imitar y pum, el sistema es capaz de
generarte una nueva imagen bastante realista donde dicha persona aparece en esta nueva pose,
incluso manteniendo una consistencia en el resto de elementos de la imagen.
Para lograr esto, a diferencia de otras soluciones, el sistema presentado decide
dividir el problema en diferentes subtareas. Primero el sistema aprende a separar en dos
capas el fondo de la imagen y a la propia persona, después la figura de la persona
es dividida en diferentes partes correspondientes a brazos, piernas y otras partes del cuerpo,
para así poder reposicionar cada elemento a la pose buscada. Luego se sintetizan aquellos huecos
de la capa del fondo que han quedado a la vista tras mover los elementos del cuerpo,
y finalmente se combinan todas las partes para obtener la imagen final. Así de sencillo.
Todo este sistema que hemos descrito será el generador de esta arquitectura,
y que contará con la evaluación de una red discriminadora formando así nuevamente
una estructura en forma de red generativa adversaria. Con esto se consigue que los
resultados obtenidos cuenten con detalles más realistas y consistentes con la pose original.
Un proyecto muy interesante que podrá tener su aplicación en herramientas de diseño gráfico
de manipulación de imágenes y vídeos, y que como bien apunta Carlos José en su tweet,
esto, combinado con otros proyectos de sintetización de rostro y voz,
nos acerca a un futuro en el que no podremos saber cuando un vídeo de una
determinada persona será real o no. Mantendremos un ojo puesto a este proyecto,
ya que hay una pequeña posibilidad de que escuchemos más sobre él en el canal en un futuro próximo.
Estad atentos. Una nueva publicación del equipo de Google Research ha presentado
una solución basada en deep learning al problema de detectar y separar una señal de audio de una
pista en la que se encuentran varios audios mezclados, un efecto que los
humanos podemos hacer de forma natural y que se conoce como el efecto de la fiesta de cóctel.
Se conoce como efecto de fiesta de cóctel a la capacidad que tenemos los humanos de
poder focalizar nuestra atención auditiva a un punto de sonido determinado pudiendo
silenciar el resto de sonido ambiente. Esto lo practicamos constantemente,
aunque el ejemplo habitual suele ser el de encontrarnos en una fiesta y poder cambiar
tu atención a las diferentes conversaciones que se desarrollan a tu alrededor.
Aunque a nivel neurocientífico todavía no se tiene una idea clara de cómo este mecanismo
funciona, esto es un problema que a nivel computacional ya hemos resuelto desde hace varios años.
Sin embargo, lo interesante de este artículo es que a diferencia de soluciones pasadas basadas
únicamente en procesar la señal de audio para separar las diferentes fuentes,
en este caso se hace uso de la información acústica y visual.
Esto nos acerca a una solución más similar a la biológica, puesto que a nivel neurológico
sí se conoce que este efecto se ve potenciado cuando existe una percepción visual de la fuente.
El sistema desarrollado cuenta con una red neuronal a la que se le suministra
tanto los vídeos de los sujetos hablando como el audio mezclado,
y el sistema es capaz de aprender a separar y asociar cada una de las fuentes a las diferentes
personas en escena. El usuario únicamente tendrá que seleccionar el rostro de la persona que quiere
escuchar y puesto que los diferentes audios han sido separados en diferentes pistas,
podrá silenciar todos aquellos otros sonidos que puedan ser molestos.
Como se puede apreciar, los resultados obtenidos son notablemente precisos.
Podremos esperar el uso de esta técnica en aplicaciones de videollamadas o sistemas
de capturas de vídeo, donde se podrá silenciar completamente todo el ruido del entorno y escuchar
si implementa el interlocutor. Muy interesante. Un equipo de Google ha presentado un prototipo
de microscopio potenciado con realidad aumentada e inteligencia artificial para su aplicación en
la detección de cáncer en tiempo real. El prototipo presentado consiste en un
microscopio óptico en cuyo visor se proyecta en elementos digitales superpuestos sobre la
imagen percibida por el aparato a modo de pantalla de realidad aumentada.
Lo interesante es que estos modelos digitales se corresponden a la información obtenida de
aplicar modelos de redes neuronales sobre la imagen observada, todo esto en tiempo real a
una velocidad de 10 fotogramas por segundo. En este caso, el ejemplo presentado hacía uso
de modelos de redes neuronales para la detección de regiones tumorales en diferentes tipos de
tejidos. Una vez estas regiones eran detectadas, esta información era mostrada mediante realidad
aumentada, marcando el área correspondiente al tejido cancerígeno, haciendo mucho más sencillo
para el profesional el detectar estas áreas para su posible evaluación. Este prototipo sirve por
tanto como ejemplo de cómo combinar tecnologías ya existentes para desarrollar herramientas mucho
más potentes que nos puedan asistir en el trabajo y así aumentar nuestras capacidades.
Y hasta aquí las noticias que he seleccionado de este mes de abril que más me han parecido
interesantes para todos ustedes, pero todavía queda alguna última noticia, aunque es de clave
interna, es en clave del canal. Y es que hemos llegado ya a los 10.000 suscriptores en el canal
y bueno, aunque no deja de ser un número simbólico, me hace bastante ilusión que haya tanta gente que
se haya sumado a este proyecto y que día a día se sigan sumando y en parte me gusta porque significa
que les está gustando bastante pues todo el tema de la inteligencia artificial, le gusta cómo se lo
comunico y bueno pues que les gusta el proyecto que estoy haciendo. Creo que siempre digo las
mismas palabras pero en serio así es como lo siento y nada pues mucha gratitud a todos ustedes.
El canal va a seguir creciendo, como dije ya llevaba unas semanas que ha estado un poco más
parado pero ahora yo creo que ya me encuentro en situación de poder echar de nuevo carbón a las
calderas y poner la máxima velocidad con lo cual pueden esperar pues eso, que vuelva a ver videos
de forma más habitual. Dicho lo cual pues queda todavía una cosa que les quiero enseñar al final
del vídeo pero antes pues viene lo de siempre. Podéis seguirme en mis redes sociales, tengo aquí
Twitter donde todas estas noticias que he presentado hoy posiblemente las haya ido compartiendo durante
el mes y es que en Twitter es donde mejor pueden estar al día de todo lo que voy haciendo y de
todos los anses que van habiendo en inteligencia artificial porque ahí es donde más me comunico
actualmente así que les recomiendo que si también lo han hecho me sigan a través de Twitter a
www.arroba.csv. Aquí abajo tenemos la sección de comentarios y quiero que me dejen pues si ha
faltado alguna noticia que pueda ser relevante déjenla por aquí abajo le echaré un vistazo y
la haré subir y le daré corazón si veo que es muy interesante y que ha quedado fuera del vídeo y
también quiero saber cuál ha sido de todas las que hemos comentado hoy vuestra noticia favorita
para ir también haciendo un poco de tanteo de qué tipo de noticias les va a gustando les va
gustando más. Si les ha gustado este vídeo pues pueden dejar un like, un me gusta para que el
algoritmo de youtube me trate bien el vídeo y si les parece interesante pues pueden compartirlo
con vuestro grupo de amigos de trabajo de lo que sea en redes sociales también para que así pues
poquito a poco vayamos divulgando entre todos lo apasionante que es este mundo de la inteligencia
artificial. Dicho todo lo necesario que tengo que decir sobre el canal le dejo con un pequeño
spoiler de lo que va a ser el próximo vídeo. Por mi parte nada más nos vemos en el próximo vídeo.
Redes neuronales nales nales nales nales nales parte dos