This graph shows how many times the word ______ has been mentioned throughout the history of the program.
En el vídeo de hoy no quiero explicaros un proyecto o un artículo en particular, sino
que quiero hablaros de una tendencia.
Una tendencia de la que todos quizás somos en mayor o menor medida conscientes, pero
de la que creo que muchos carecen de una visión completa de hasta qué punto estoy hasta
aquí y el gran impacto que puede acabar teniendo.
Estoy hablando de un futuro donde los avances en el algoritmo de Inteligencia Artificial
encargados de percibir y generar contenido realista habrán alcanzado tal grado de madures
que seremos capaces en cuestión de minutos de poder generar un avatar completamente realista
y funcional capaz de cumplir muchas de las tareas a las que hoy en día contamos con
humanos.
Un futuro donde necesariamente dudaremos de la persona que nos mira a través de una
pantalla y un futuro que entre más lo pienso reconozco, más incógnitas me genera.
¿Llegarán a ser realidad los avatares virtuales?
El spoiler del vídeo, sí, y hoy te voy a contar cómo se está consiguiendo.
El origen de mi interés por este tema se encuentra en este tweet de aquí, un tweet
de la compañía Sintesia en el que hacen una demostración de uno de sus últimos productos,
una solución basada en Inteligencia Artificial que es capaz de generarte un vídeo con una
presentadora locutando aquello que tú mismo la hayas suministrado como texto de entrada.
Hola suscriptores de DotCESV, espero que estéis disfrutando del vídeo que Carlos os ha traído.
Atended bien, porque puede que hoy estéis viendo el futuro de los contenidos sintéticos
hechos con IA.
Es decir, en cuestión de minutos, poder generar un producto audiovisual equivalente a un estudio
de televisión.
De partida, esto es simplemente impresionante, en este caso lo que esta empresa ha conseguido
es convertir en producto comercial una tecnología que ya en los últimos años hemos visto
evolucionar.
Aquí se está haciendo uso de algoritmos de deep learning para analizar los gestos de
la cara de un presentador humano a partir de varios vídeos leyendo textos para luego
transferir y generar el movimiento de labios deseados de acuerdo con el texto suministrado
como entrada.
La correcta generación de su rostro adaptado quedará de la mano de la Inteligencia Artificial.
Algo similar al trabajo que muchos me habéis compartido esta semana, WAP2LIP, que ha sido
publicado recientemente y que si bien no logra resultados tan realistas como en el caso
anterior, se consigue hacer esto mismo pero tomando directamente como input la onda de
audio que queremos transferir, sin necesidad siquiera de tener que convertirlo a texto.
Pero como digo, hoy no me quiero centrar en el cómo, sino en el qué.
¿Qué nos puede aportar una tecnología como esta?
Pues la respuesta la podemos encontrar en la propia publicidad de Sintesia.
Una herramienta como esta no solo te da una forma de creación de contenido automática,
donde solo te tendrías que ocupar de doblar el audio o escribir el guión.
No, también podrías tener un uso muy potente a la hora de generar versiones de una misma
persona pudiendo hablar cualquier idioma como si un hablante nativo se tratara.
Pero esto es solo el comienzo, porque no tengo dudas de que en muy poco tiempo veremos cómo
estas herramientas evolucionan hasta poder generar este mismo resultado pero en tiempo
real.
Algo que nos podría permitir por ejemplo tener videoconferencias con cualquier persona
del mundo de la manera más natural posible.
Dos conversaciones en paralelo, cada uno hablando su idioma.
Y yo no sé ustedes, pero para mí esta idea es tan revolucionaria que hace que mi imaginación
se despierte y que me pregunte hasta qué punto podrá llegar esta tecnología, es decir,
si esto ya lo podemos conseguir, ¿cuánto tardaremos en poder tener esta misma conversación
pero con un avatar completamente virtual?
El concepto de avatar artificial no es nuevo, es decir, la posibilidad de crear un personaje
completamente artificial con el que el resto de la gente pueda interactuar de manera natural
es una idea con la que muchos hemos soñado y hasta hoy pocos han logrado conseguir.
Quizás uno de los ejemplos más sonados es el de Hatsune Miku, una estrella del pop
japonés que ha evolucionado de ser una simple herramienta de voz dentro del software Vocaloid
a ser un ídolo de masas capaz de llenar conciertos donde todo el mundo busca verla bailar y cantar.
A ella o, bueno, a su versión en holograma.
El factor limitante de este futuro es evidentemente la tecnología, es decir, tras avatares tan
sorprendentes como Hatsune Miku encontramos avances tan interesantes como técnicas de
captura de movimiento, sintetizadores de voz, pantallas holográficas, equipos de diseñadores
gráficos y otras tantas tecnologías y equipos de personas que lo que buscan es darle el
aspecto más natural posible al avatar.
Más que año tras años se van volviendo más potentes y accesibles hasta el punto
en el que hoy me doy cuenta de lo siguiente, falta muy muy poco para que podamos crear
avatares artificiales completamente realistas.
No me crees?
Ok, fíjate, empecemos por lo evidente.
Si queremos crear un avatar artificial tendremos que darle una apariencia que nos resulte natural.
Ojo, esto no significa que su interfaz tenga que ser realista ni mucho menos.
El caso de Hatsune Miku con apariencia de personaje de anime sería un ejemplo de esto y podríamos
encontrarnos con otros tantos casos donde la clave del éxito se encuentra en un estudiado
proceso de diseño y animación al más puro estilo Disney.
Obsesionarse con el realismo nos puede llevar a situaciones donde nuestro avatar caerá
en el famoso valle inquietante creando posiblemente el efecto contrario al que realmente estamos
buscando.
La buena noticia es que gracias a la inteligencia artificial este valle inquietante ya está
más que superado.
Con modelos como StyleGAN ya somos capaces de crear rostros completamente realistas,
haciendo uso solo de algoritmos de aprendizaje automático y unos cuantos datos.
Podemos crear caras de personas cotidianas como las que nos cruzamos cada día por la
calle o de personalidades que vivieron siglos atrás y ya nos han dejado, basándonos únicamente
en los registros históricos conocidos.
También podemos tener libertad creativa en la apariencia de estos rostros, pudiendo manipular
el estilo artístico de estas imágenes e incluso realizar transformaciones más avanzadas como
convertir nuestro propio rostro a una versión más cartoon que bien podría haber salido
de los estudios de Pixar.
Parece que con la inteligencia artificial todo lo que somos capaces de imaginar es también
posible de generar.
¿Y cómo lo controlamos?
Es decir, bien, somos capaces de generar a la marioneta, pero ¿y cómo controlamos sus
hilos?
Pues aquí también tenemos el problema resuelto.
Es decir, históricamente para poder manipular a un personaje virtual de manera realista
tendríamos que hacer uso de complejos y caros sistemas de captura de movimiento para trasladar
el movimiento de una persona al mundo virtual.
Esto, con la mejora en algoritmos y el hardware, se puede reemplazar por sistemas más sencillos
que solo requerían de una cámara que también capturara la profundidad, como el Kinect,
y a día de hoy, gracias a los avances en deep learning, tan solo requiere de una webcam
mirando y el algoritmo correcto para poder poner a tu personaje a andar.
Contamos con modelos capaces de extraer en tiempo real los puntos claves más importantes
de la estructura de tu cuerpo, de inferir un modelado tridimensional de toda tu imagen
corporal e incluso ¿qué demonios?
Usted necesita capturar el movimiento si directamente podemos usar algoritmos que, tras analizar
grandes bancos de animaciones de personajes, ya saben cómo adaptar la movilidad del avatar
ante cualquier circunstancia que se le plantee.
La motricidad ya está conquistada.
Y para la gesticulación de la cara, mate lo mismo, mira, un claro ejemplo de esto sería
la gran apuesta que hacen los laboratorios de Facebook AI en sus departamentos de realidad
virtual.
Allí integran deep learning en sus herramientas de creación de personajes digitales, permitiendo
capturar fielmente los movimientos faciales del sujeto para luego replicarlos en la cara
del avatar.
Algo completamente impresionante.
El punto que quiero resaltar es que gran parte del trabajo ya está hecho.
En menos de una década hemos pasado de sorprendernos cuando una red generativa adversaria creaba
estos rostros en 2014 a acostumbrarnos a que una cara así pueda ser creada por inteligencia
artificial.
De necesitar analizar miles y miles de imágenes durante horas para poder crear un deep fake
realista, a que publicaciones recientes nos permiten tomar el control de una única imagen
sin necesidad de hacer análisis complejos.
Y sí, lo sé, la calidad no es ni mucho menos parecida a la de un deep fake profesional,
pero ¿no has aprendido nada?
¿Cuántos años deberán de pasar hasta que lo que creíamos imposible de nuevo nos vuelva
a alcanzar?
Podemos generar rostros y los podemos controlar.
Podemos generar cuerpos y sí, también los podemos controlar.
Nos estamos moviendo a un futuro en el que entre lo sintético y lo real solamente quedará
nuestra duda.
Al menos en el aspecto visual, pero rescatemos de nuevo el ejemplo inicial.
Quizás el resultado de mis movimientos, de mi rostro, de mi gesticulación, estén lo
suficientemente logrados para convencerte, pero ¿y mi voz?
No te preocupes, todo depende de la lengua que elegís.
Por ejemplo, cuando hablo inglés tengo una voz mucho más natural.
¿Lo ves?
Y es que sí, actualmente también contamos con modelos de sintetización del habla lo
suficientemente realistas como para convencerte de que estás hablando con otro humano.
Modelos como Tacotron 2 que son capaces de sintetizar pistas de audio de sujetos que
suenan tan realistas como estas.
Control, presencia y voz.
¿No son estos los tres elementos que necesitaríamos para crear a un avatar artificial completamente
realista?
La pregunta es que sí, pero con matices.
Y es que en eventos como en el CES 2020 ya empresas como Samsung presentaron un prototipo
de avatares virtuales que combinaban todas estas tecnologías para lograr resultados
como NEON, resultados que podemos ver aquí en funcionamiento.
¿Percibes el problema?
El problema aquí no es nuevo, ya lo hemos discutido alguna vez por el canal.
Sí, la tecnología nos puede ofrecer interfaces humano-máquinas increíblemente realistas
capaces de imitar la apariencia y gestos de sus propios creadores, pero de nada sirve
una bonita apariencia si luego el fondo no tiene nada que ofrecer.
Los mapeteranos del canal ya lo sabéis, que es en esto en lo que por ejemplo se fundamenta
mi crítica al famoso robot Sofía, a quien para dar mejor apariencia de realismo en numerosas
intervenciones públicas se le ha suministrado un guión con los diálogos que tiene que
ejecutar.
Un problema que en mayor o menor medida también se repite en el resto de asistentes virtuales
que encontramos en el mercado.
Pero y aquí es donde está la clave, en cuestión de meses todo ha cambiado.
Ya lo sabéis, lo venimos hablando en el canal desde hace varios meses, y es que con la revolución
que ha sucedido en el campo del procesamiento del lenguaje natural, ahora mismo es posible
que con modelos de lenguaje como GPT-3 podamos generar conversaciones realistas y completamente
naturales.
Modelos que permiten condicionar su input a por ejemplo la generación de un diálogo
y que podría ser perfectamente el cerebro que le faltan a estos avatares.
Ya me fastidia reconocerlo, pero es que incluso robots como Sofía con este tipo de modelos
del lenguaje se vuelven juguetes mucho más interesantes.
Mira por ejemplo, si tomamos la conversación del presentador anterior y la pasamos por
GPT-3, el resultado sería el siguiente.
Sin duda mi comida favorita es la pizza, y tú, ¿cuál es la tuya?
Me gustaría hacer una carrera muy exitosa, ser el mejor en el mundo en lo que hago y
ayudar a las personas.
No, no, me gusta el fútbol, me gustan otros deportes como el baloncesto, el gol, el tenis.
El fútbol es un deporte muy violento, me gustan los deportes que cuidan la salud del deportista.
Y esta es la clave, en los próximos años seguiremos viendo mejoras en los modelos del
lenguaje, que serán capaces de generar diálogos más realistas, de emular conversaciones con
expertos que nos podrán dar información sobre temas que desconocemos, o incluso de
poder generar cuerpos de noticias y guiones sin casi supervisión humana, algo que sumado
a todo lo anterior nos lleva a un futuro en el que podremos tener a bots con apariencia
y gesticulación humana que podrán locutar todo este contenido.
Estamos entrando en la era de los avatares artificiales.
Y ahora que os he presentado esta nueva tendencia, quiero que penséis conmigo, que hagáis el
mismo ejercicio que me ha tenido a mí inquieto toda esta semana, y que penséis todos los
cambios y transformaciones que esta tecnología podrá traer, que penséis a cuántas industrias
puede impactar esta tecnología, que penséis cuántos empleos de cara al público se verán
afectados por esta tendencia, que penséis cuánto tiempo pasará hasta que cada empresa
quiera tener a su propio influencer virtual, como ya parece que empieza a surgir en algunas
redes sociales, donde este nunca se queje de las campañas que hace, este operativo
a 24 horas al día, y tengo una mejor relación con cada cliente porque en realidad no será
un único influencer, sino que serán muchas instancias alojadas en unos servidores de
Amazon.
Que pensemos en positivo cómo esto podría afectar a la educación, pudiendo trasladar
a un profesor virtual donde no hay acceso a esta educación, para que cada niño y niña
pueda preguntarle a ese avatar información de cualquier inquietud que tenga, que penséis
en un mundo que va a cambiar a algo diferente y donde estos cambios creo que llegarán más
pronto que tarde.
Y por último, quiero que penséis cuánto tiempo pasará hasta que estéis viendo un
vídeo de.csv, donde guión, vídeo y voz hayan sido creados de manera sintética.
Ahora que voy a empezar a ser directos en Twitch, a lo mejor me dedico a crear mi propio
avatar artificial.
En cualquier caso, si te ha gustado el tema, ya sabéis que podéis apoyar todo el contenido
que hago aquí en nuestras redes sociales a través de Patreon, tenéis el enlace por
aquí y por aquí abajo y es una forma directa de apoyar todo el contenido que hago, de valorarlo.
Igualmente ya sabéis que viene muy bien comentar, dejar el like y compartirlo con toda la gente
que le pueda interesar este vídeo, compartirlo por redes sociales, WhatsApp, por donde queráis
y ya sabéis que tendréis más inteligencia artificial aquí en.csv.