logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Por fin está ocurriendo. ¿El qué Carlos? ¿El qué? Te preguntarás. Pues por fin está ocurriendo algo
que llevo mucho tiempo queriendo que pase y es que por fin estamos viendo cómo la inteligencia
artificial empieza a llegar a productos finales y pueden ser los usuarios normales que no están
quizás tan relacionados con el mundo tecnológico quienes pueden empezar a utilizarlo y a sorprenderse
por sus habilidades. Esto es gracias a una tecnología de la cual quiero empezar dando un
fuerte aplauso porque ha sido bastante impresionante. ¿Por qué no suenan mis aplausos?
Empezar dando un fuerte aplauso porque ha sido bastante impresionante.
¿Por qué no suenan mis aplausos? De esto es lo que vamos a hablar hoy. Vamos a hablar de
una tecnología que es impresionante. Se llama Nvidia RTX Voice y esto es una tecnología que
ha sacado Nvidia de la nada que lo que permite es, haciendo uso de algoritmos de inteligencia
artificial de deep learning, pues poder cancelar todo el ruido ambiente para que solamente sea
el audio de tu voz el que se escuche. He de reconocer que aún sabiendo lo que se puede
conseguir con la inteligencia artificial, esto ha sido una tecnología que me ha dejado impresionante.
O sea, puedo estar hablando y golpeando mi teclado ahora en tiempo real y seguiré escuchando mi voz
o pulsando aquí el ratón. Puedo estar haciendo ruidos con las manos. Puedo estar hablando y
golpeando mi teclado ahora en tiempo real y seguiré escuchando mi voz o pulsando aquí el ratón.
Puedo estar haciendo ruidos con las manos e incluso podría estar aquí con este cachivache que
realmente no sé para qué sirve. Si lo encendiera. Podría, podría tenerlo encendido y mientras tanto
seguir hablando y aunque casi me cuesta escucharme yo a mí. Podría, podría tenerlo encendido y
mientras tanto seguir hablando y aunque casi me cuesta escucharme yo a mí. Posiblemente ustedes,
si está funcionando esto correctamente, me estaréis escuchando digamos que bien. Sinceramente,
si estoy haciendo este vídeo porque estoy bastante impresionado por lo que esta tecnología logra
conseguir y es que en el campo de la inteligencia artificial llevamos bastantes años viendo avances
que son muy impresionantes en el campo de la imagen o el vídeo. Hemos visto por ejemplo cómo
podemos coger una imagen y cambiar su estilo o mejorarle el aspecto para que sea más visualmente
atractiva. Hemos visto cómo podemos restaurar una imagen pues dándole color o quitando el ruido o
regenerando una parte que estuviera ocultada, eliminando elementos que fueran molestos delante
de la escena o incluso cómo podemos generar de la nada una imagen que no existía antes. Algo que
a priori nos haría pensar que bueno si esto lo hemos conseguido con un tipo de dato como es una
imagen pues no debería ser tan complicado conseguirlo con un tipo de archivo como fuera
un audio y que por tanto deberíamos de estar viendo avances igual de impresionantes en este
campo. Porque sí hay ejemplos de transferencia de estilo aplicado a la música. Incluso en los
últimos años hemos visto avances bastante cualitativos a la hora de generar nuevas melodías
o sintetizar nuevos instrumentos. O también como ocurre cada vez que utilizamos nuestros
dispositivos móviles comprobamos que también hay algoritmos que son capaces de sintetizar voz
humana bastante realista. Pero claro cuando de repente grabo un vídeo y lo grabo en una sala
como esta que por ejemplo tiene mucha reverberación a mí me cuesta me cuesta bastante creer que no
pueda restaurarlo de ninguna manera y siempre está el típico que me sale y me dice no es que si ya
lo has grabado de partida con mala calidad cómo que no puedo recuperarlo con software o sea estoy
cogiendo esta imagen de aquí y estoy restaurándola y me vas a decir tú que no puede hacer lo mismo
con un archivo de música porque porque si hasta mi cerebro es capaz de entender qué resultado quiero
obtener de esto si soy capaz de imaginármelo y de hecho sé que no soy el único que piensa esto
porque ayer publiqué un tweet mostrando esta tecnología y rápidamente recibí un audio de
forfast que algunos conoceréis diciéndome exactamente esto me hizo mucha gracia así
que lo voy a poner. Y por ahí vamos a empezar porque ya mencionaba una vez que efectivamente
nuestro cerebro es capaz de hacer esto nosotros podemos estar por ejemplo en una fiesta y poder
focalizar nuestra atención a las diferentes conversaciones que están surgiendo y poder
eliminar el ruido ambiente y saber exactamente cada una de las fuentes que recibimos este es
un problema que históricamente se ha venido resolviendo a partir de instalar diferentes
fuentes de captura de audio diferentes micrófonos a distintas distancias con esto pues puedes
conseguir capturar diferentes intensidades de cada una de las fuentes de audio y que
algoritmicamente sea mucho más sencillo discriminar cuál es una de las fuentes y cuál es la otra cuál
es mi voz y cuál es el ruido ambiente pero claro no siempre vamos a tener la posibilidad de trabajar
con varios micrófonos y en realidad creo que tampoco es necesario porque mira fíjate si me
tapo el oído pues igualmente yo puedo saber discriminar si hay una conversación si hay un
sonido que reconozca o si hay ruido de fondo esto es algo similar a lo que vimos en el vídeo sobre
cómo inferir la profundidad en el que veíamos que sí que efectivamente tener dos ojos en nuestra
cara viene bastante bien para poder entender de manera estereoscópica cuál es la tridimensionalidad
de una escena pero si yo me tapo un ojo pues puedo seguir siendo capaz de entender que este
objeto está más cerca y aquel objeto está más lejano pues con nuestros oídos ocurre igual y
es que al final si esto funciona es porque internamente en nuestro cerebro tenemos una
serie de detectores de patrones una serie de modelos mentales que nos permiten reconocer
cuáles son los distintos sonidos que estamos escuchando y con esto pues podemos saber
discriminarlo de mejor manera entonces ahí está de alguna manera lo que tendríamos que hacer sería
encontrar estos patrones que modelarían la voz humana y cuáles son aquellos patrones que modelarían
el ruido de una habitación y con esto pues seríamos capaces de poder identificar y separar
cada una de las fuentes de manera mucho más sencilla pero claro hay un problema siempre hay
un problema y es que no todos los ruidos son iguales de hecho en el tipo de problema que
estamos solucionando hoy el que realmente nos afecta son aquellos ruidos denominados ruidos no
estacionarios estos serían ruidos que no estarían repitiéndose de manera constante en el tiempo y
realmente si nos vamos a una aplicación de videoconferencias habitual pues veremos cómo
este ruido estacionario si es capaz de filtrarlo de manera adaptativa por ejemplo
aquí vemos cómo pasado un tiempo el filtro es capaz de eliminar este ruido no ocurriría
lo mismo si este ruido fuera por ejemplo un golpe un aplauso o incluso el viento pero
cambiando de frecuencia hola hola hola hola hola hola hola hola hola hola hola hola hola hola
pero afortunadamente ya la vista de los resultados que arroja esta nueva tecnología de Nvidia pues
podemos ver cómo haciendo uso de las tecnologías correctas de deep learning de usando redes
neuronales pues podemos encontrar una solución a la eliminación de este ruido no estacional
y te preguntarás cómo funciona pues pues pues no lo sé y créedme que me he buscado en todos los
bajos fondos de internet intentando buscar a ver cómo funciona qué tipo de tecnología hay detrás
de esto he intentado ver qué equipos han trabajado en este nuevo desarrollo a ver si es un desarrollo
que se apoya en algo anterior y que por tanto pueda tirar del hilo para ver qué tecnología
utilizan he buscado los perfiles de quién podría trabajar en esto a lo mejor en github podía
encontrar algún repositorio o alguna publicación científica de esta gente no he encontrado nada
bueno sí de hecho he encontrado algo y ha sido curiosamente buscando en las charlas de la reciente
conferencia gtc 2020 donde van puesto todas las charlas online y pues he encontrado justamente
esta charla de aquí que habla de un sdk sobre audio en tiempo real donde haciendo uso de deep
learning se implementan diferentes efectos de audio entre ellos la cancelación de ruido así
que vamos a ver esta charla y vaya no está la han retirado así que de momento estamos en un callejón
sin salida sin saber cómo funciona así que bueno pues toca especular me acabo de dar cuenta que me
falta un café mal mal ahora vengo vale especulemos a este problema se le conoce como supresión de
sonido o mejora del habla que paradójico necesito mejorar mi habla mejora del habla y bueno como
suele ser habitual en el campo del deep learning y en casi todo pues para un solo problema encontramos
múltiples soluciones de hecho un problema como este ya lo habíamos visto resuelto en el canal
con este trabajo de google que se llama looking to listen a the cocktail party que básicamente
pues viene a conseguir separar las diferentes fuentes de audio de un vídeo pero claro en este
caso no solamente utilizando como input el audio tomando también como parámetro de entrada las
imágenes los fotogramas del vídeo y permitiendo así que la red pueda aprender estrategias como
pues mira cuando mueves toda esta masa de pixels que vamos a llamar boca pues será que esta persona
posiblemente sea la fuente de audio que estoy escuchando vale esta es una estrategia bastante
razonable porque es cierto que nosotros los humanos también no pasamos mucho en el input visual para
poder decodificar lo que otra persona nos está diciendo pero hoy queremos ir más allá y queremos
resolver este problema solamente utilizando como input el audio y bueno si vamos a trabajar con
audio tenemos que tomar la decisión de cómo queremos representarlo porque seguramente muchos
estemos acostumbrados a visualizar una onda de audio de la siguiente manera donde en el eje x lo
que tenemos es la dimensión temporal y en el eje y lo que tenemos es la amplitud de la onda de audio
claro el problema es que esta onda de aquí en realidad lo que viene a representar es la
agregación de múltiples señales que están ocurriendo al mismo tiempo ondas que están
agregadas y que vibran con diferente frecuencia y que tenemos todas acopladas en esta señal esto
es algo que podréis ver muy bien explicado en este vídeo de aquí de Jaime Altozano y Quantum
Fracture y también en este otro vídeo que a lo mejor es de un canal menos conocido pero que recomiendo
muchísimo que es Lemnis-Math echarle un vistazo dejó abajo en la descripción para que lo ojeéis
pero bueno si lo que queremos entonces es coger nuestra onda de audio y descomponerla por sus
frecuencias lo que podemos hacer es aplicar una operación matemática que se conoce como la
transformada de Fourier con esto lo que conseguiremos como resultado pues será esta especie de imagen
de aquí donde ahora en el eje x pues volvemos a tener la dimensión temporal pero en el eje y lo
que tenemos es un rango de frecuencias y donde la amplitud pasa a ser una tercera dimensión que
vamos a representar con un mapa de color esto es su espectrograma de frecuencias y esto es muy
interesante porque al convertir nuestro fichero de audio en algo semejante a una imagen de repente
podemos utilizar todas las herramientas que normalmente utilizamos para todo lo que sea
visual podemos trabajar con redes convolucionales con modelos hourglass con units con todo este
ecosistema y poder sacar todo ese potencial que estábamos viendo al principio del vídeo ¿Verdad?
De hecho si recordáis el verano pasado cuando saqué la competición de Pix2Pix que al final es
un modelo que podemos usar para transformar una imagen en otra imagen uno de los proyectos que
más me llamó la atención fue el de Héctor Martel que presentaba Timbre Transfer que era un modelo
que básicamente te cogía el audio de un instrumento y te lo convertía a otro esto lo hacía transformando
los espectrogramas como si se trataran de imágenes y el resultado la verdad que era bastante bueno y
esto al final es un ejemplo de cómo podríamos resolver este problema porque al final si lo
pensamos en el espectrograma lo que nos encontramos en la distribución de frecuencia de todos los
sonidos que suenan al mismo tiempo y nuestro trabajo será encontrar cuáles son aquellas
frecuencias relacionadas con el sonido de mi voz y cuál es el ruido ambiente o sea que al final
este problema es semejante al tratar un problema de segmentación sobre una imagen o sea que sí
que realmente este problema que estamos resolviendo es equivalente al que ocurre cuando estás con
tu aplicación de videoconferencia favorita y te pones a cambiar los fondos virtuales internamente
lo que hay es una red neuronal que en tiempo real está realizando una segmentación de tu persona con
respecto a todo lo que hay en el fondo algo que se parece bastante a lo que queremos resolver
hoy de hecho sobre aplicar units en audio es algo que ya hablé en el canal de jaime altosano cuando
presentamos esta ia de mux que era capaz de pues cogerte una canción y descomponerla por las
diferentes pistas de una cosa muy loca hay una inteligencia artificial que es capaz de separar
una canción por pistas y creo que vamos a ser capaces de utilizarla de sacar diferentes
instrumentos como el bajo la batería e incluso de ser capaz de sacar la pista del cantante algo
que se parece bastante al problema que queremos resolver hoy en el video altosano explicaba lo
siguiente en este caso de los dos modelos que se proponen en el paper de mux que es el que
mejor funciona cualitativamente funciona con redes neuronales sí pero en este caso con un
tipo muy especial de red neuronal que se llama unit este tipo de redes funciona a grandes racos
tomando los datos de entrada que en nuestro caso va a ser una canción y comprimiéndolas y
codificándolas para después aprender a decodificar la de la manera en la que nosotros queramos que en
este caso va a ser con las pistas separadas y será a partir de suministrarle muchos ejemplos de
entrada y de salida que la red irá aprendiendo a desarrollar su oído musical para así aprender
a discriminar los diferentes sonidos de la canción y esto es interesante porque normalmente este tipo
de redes las units suelen ser aplicadas en problemas con imágenes donde buscamos por ejemplo separar los
diferentes elementos que aparecen en ella como la persona en primer plano y el fondo pero claro si
lo piensas realmente esto no es tan diferente al problema que intentamos resolver sólo que en este
caso aplicándolo sobre audio con una diferencia y es que desde el punto de vista de los datos un
archivo de onda de audio no es exactamente lo mismo que una imagen en el sentido en el que aquí
tenemos una dimensión temporal muy importante a tener en cuenta y es por eso que la arquitectura
de esta red también se le ha añadido otro módulo que es especialista en modelar este tipo de datos
temporales vale soy carlos del futuro y vengo a aclarar que me acabo de dar cuenta viendo el
vídeo que de mux en realidad toma como entrada el propio audio con su forma de onda no está
trabajando a nivel de espectrograma y lo que hacen uso aquí de un tipo especial de unit que
se llama web unit que está pues adaptada para este tipo de datos es otra alternativa que parece que
funciona bien para este tipo de problemas así que tanto trabajar con la forma de onda como con el
espectrograma pues parecerían soluciones aceptables así que me apuestas esta que detrás de todo este
sistema lo que hay es una red de segmentación tipo unit o similar y que de alguna manera puede
que también se esté modelando la dependencia temporal y esto podría venir implementado con
una red lstm una red gru o a lo mejor algo basado en transform en cualquier caso si algún día
saliera más información pues lo actualizaré y les contaré si estábamos en lo cierto o no de
todos modos sospecho que puedo estar en lo correcto porque en la propia página web de envidia me he
encontrado un apartado donde tú puedes colaborar en este dataset donde tú puedes donar tu audio
de voz y también el ruido ambiente para que ellos puedan generar un mejor dataset con el cual entrenar
a este modelo lo curioso es que esto también está en paralelo con otro proyecto en el que están
utilizando la segmentación de vídeo que comentábamos antes el poder retirar el fondo con lo cual me
hace pensar que si estos dos proyectos están conjuntamente si se están implementando de manera
conjunta pues no he descabellado pensar que utilicen arquitecturas similares basadas en
segmentación basadas en units una units que cogerán tus imágenes o cogerán tus espectrogramas las
pasarán por la red y sacarán una máscara que te dirán pues qué partes tienes que descartar de la
imagen y cuáles no dentro del espectrograma aquellas partes que descartes serán muteadas
desaparecerán del sonido y aquellas con las que te quedará serán tu preciosa voz hay una última
cuestión que estoy dejando todavía en el aire y es que bueno pues si puedo convertir mi audio a
algo similar a una imagen porque no tenemos estos avances que hemos visto al principio aplicados
a audio porque no hemos visto tantos avances como ha ocurrido en el campo de las imágenes o los
vídeos pues la diferencia viene en que una imagen y un espectrograma no es exactamente lo mismo y
esto se hace evidente cuando comprobamos por ejemplo que las dimensiones de una imagen son
dos dimensiones espaciales y la de un espectrograma pues es una espacial pero otra temporal haciendo
que bueno que las herramientas con las que contamos para analizar imágenes pues no se
apliquen a la perfección para este tipo de dato pero más importante que esto es pensar que al
final en un espectrograma lo que estamos viendo es la agregación de diferentes señales lo que
vendría a significar que si yo analizo cada uno de los píxeles que estoy viendo en esta supuesta
imagen lo que estoy viendo en la agregación de intensidad es que cada uno de los sonidos está
realizando en ese píxel y esto para que lo entendáis sería el equivalente a intentar resolver un
problema de segmentación sobre una imagen donde todos los elementos fueran parcialmente transparentes
un cacao en cualquier caso para la herramienta de hoy si se utiliza y yo no puedo estar más
contento de tener esto en mi caja de herramientas porque como sabéis yo suelo visitar muchos centros
científicos para grabar blogs y para grabar las cosas y si hay una cosa que es común a todos
los laboratorios y a todos los centros científicos es el ruido estamos ahora en el detector sms
estos son los login notes aquí es donde se conectan los usuarios y de hecho tengo pendiente
editar un vídeo que grabe en el bsc de barcelona en febrero os prometo que he tenido pesadillas
pensando en este vídeo porque cuando estuve allí grabando había un ruido infernal o sea se escuchaba
estos son los login notes aquí es donde se conectan los usuarios pero es que de repente
con esta herramienta la cosa pasa a ser esto es donde se conectan los usuarios solo tienen
aquí y aquí están los monitoreos y aquí está la otra cosa y de repente yo puedo dormir tranquilo
pero antes tengo que anunciar una cosita que es muy importante y es que lanzo una nueva edición
de mi curso introducción a machine learning y data science que realizan colaboración con la
escuela de organización industrial y que ya está va a ser la cuarta edición es un curso
introductorio completamente gratuito que sirve para que puedas aprender todas estas arquitecturas
que estamos hablando de hecho este problema es uno de los problemas que uno de los equipos
estudiantes trabajó en su proyecto final o sea que trabajamos cosas de las que vemos aquí en el
canal y es un curso bastante potente bastante interesante si te quieres meter en el mundo del
machine learning ahora hay una cosa muy importante y quiero que escuchéis todas mis palabras porque
siempre lo repito lo repito y nunca me hacéis caso y me vais a ahorrar mucho trabajo si de verdad
no escucháis este como sabéis es un curso que yo hago normalmente presencial que finalmente por la
situación en la que nos encontramos hemos tenido que convertir a un curso virtual online y que es
un curso que está ligado a diferentes provincias regiones de españa he hecho una edición en
canarias he hecho una edición en madrid y esta edición la estamos preparando para castilla y león
es un curso online lo sé podría ser un curso en abierto pero no lo es por la propia estructura de
cómo se organizan estos cursos en un futuro ya habrá un curso abierto online para todo el mundo
pero de momento esto es un curso que está orientado para gente que resida en castilla y león que sea
menor de 30 años y que sea desempleada vale estos son los requisitos para que puedas estar
apuntado en el fondo de garantía juvenil que es el requisito indispensable para poder participar
si es tu caso o conoces a alguien que le puede interesar por favor hazle llegar el enlace que
dejo aquí abajo en la caja de descripción que es para poder preinscribirte en el curso es un
curso que está a punto de empezar en una o dos semanas y las plazas son muy limitadas si tenéis
alguna duda podéis preguntármelo por twitter por instagram por los comentarios de youtube incluso
en instagram y ahí son preguntas y respuestas y deje todo opinado aquí en una story que podéis
consultar si queréis saber más pero bueno eso tenéis en el enlace aquí abajo con toda la
información preinscribiros sólo por favor si cumplís con los requisitos el requisito está
registrado en el fondo garantía juvenil es algo sencillo que podéis conseguir de manera online en
poco días así que tramitad eso preinscribiros y con suerte pues podréis participar en este curso
y lo demás pues no veremos como digo en otro curso online y nada más espero que os haya
gustado este análisis de cómo podría funcionar el sistema os voy a dejar aquí abajo en la cajita
de descripción el enlace también a la página web donde lo podéis descargar y así si tenéis
una tarjeta gráfica compatible lo podéis probar sé que no hace falta tener una tarjeta rtx para
poder usarlo hay una especie de hack que te permite utilizarlo con tarjetas más antiguas lo dejo de
vuestra mano para que investigueis y lo probéis si podéis y nada más si os gusta este contenido si
queréis que esta voz que yo represento dentro de youtube se escuche por encima del ruido que hay ya
sabéis que podéis apoyarme a través de patreon y con las suscripciones gratuitas de twitch prime
nos vemos con más inteligencia artificial en el próximo vídeo muchas gracias