¿Qué hay detrás del #10YearChallenge? - Facebook, Datos y Captchas

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

results.

Mention graph

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Internet es un lugar maravilloso. En serio, internet es un lugar donde te
puedes encontrar cualquier tipo de información, cualquier tipo de persona,
todos conectados y un lugar donde de repente, sin saber por qué, un día todos
decidimos ponernos a hacer la misma cosa. Efectivamente estoy hablando de los
típicos challenge. Vale, vale, vale, vale, un inciso aquí. Antes de que me lo digan 50
personas en los comentarios, ya sé que no se dice challenge, sino que se dice
challenge. Creo que es la palabra más repetida en todo el vídeo y creo que
en todas las ocasiones lo digo mal. Pero bueno, ya saben lo que dicen. No se dice
machine, se dice machine. Sigamos. Efectivamente estoy hablando de los
típicos challenge que de repente se ponen de moda y que demuestran que la
especie humana, para ciertos temas importantes, somos capaces de
organizarnos para ponernos a hacer todos la misma cosa. En ese sentido
seguramente recordarás que hace unos años se puso de moda por ejemplo el
planking, que era irte a un sitio y sacarte una foto tumbado en un lugar que
fuera extraño. O el ice bucket challenge, que era tirarte un cubo de agua con
hielo por encima. O por ejemplo el mannequin challenge, que era coger a
toda tu familia y grabarte haciéndote como si fueras un mannequin. O el
famosísimo harlem shake
que puso de moda que todo el mundo se pusiera a bailar como si fueran imbes, como
si fueran gente con mucha energía. En ese sentido pues como suele pasar cada
x tiempo ha llegado un nuevo challenge y parece que ha hecho que todo el mundo se
ponga a imitarlo como no era de esperar. Estamos hablando del 10 years challenge
que básicamente es coger tu foto actual y tu foto de hace 10 años y comparar
qué tan bien o mal te ha tratado el tiempo. Como puede ver este se ha
convertido en un challenge completamente viral y casi todo el mundo se ha puesto
a compartir en redes sociales pues su foto de él ahora y de él hace 10 años.
¿Qué sucede aquí? ¿por qué te estoy hablando de todo esto si esto es un canal
sobre machine learning de inteligencia artificial? ¿Dónde está la chicha? Pues la
cosa es que en este sentido cuando ya se había vuelto bastante viral de repente
una reportera aprovechó el formato de este challenge para tuitear lo siguiente.
Dice así yo hace 10 años probablemente hubiera jugado con el meme de compartir
tu foto envejecida en facebook o en instagram. Yo ahora me pregunto cómo
todos estos datos serán utilizados para entrenar a modelos de reconocimiento
facial en el progreso de la edad y en el reconocimiento de la edad.
Además de este tuit esta persona también hizo una publicación en el
medio online wire donde venía a explicar que facebook podría tener
intenciones detrás de este meme para hacer que la gente compartiera sus
fotografías actuales y de hace 10 años para utilizarla de una manera como
decirlo interesada para así entrenar modelos de reconocimiento facial de
reconocimiento de la edad y de ver cómo una persona puede envejecer a lo largo
del tiempo. Como no podía ser de otra manera una vez salta la chispa todos los
medios de comunicación empiezan a hacerse eco de esta noticia y cuando digo
hacerse eco digo hacerse eco en el sentido estricto de la palabra es decir
empiezan a repetir uno tras otro la misma información que han publicado en el
artículo original sin ningún momento plantearse si realmente lo que están
diciendo tiene lógica o no. Y en este sentido quiero ser tajante desde el
comienzo del vídeo porque no quiero alargar lo que sería un bulo que está
empezando a correr y que poco a poco se va a hacer más grande. No tiene sentido
decir que facebook esté detrás de este meme entre otras cosas porque facebook
no lo necesita. Si lo pensamos de esta manera facebook es una empresa que desde
2004 está registrando todas las fotografías que cada persona ha subido a
internet tanto en su plataforma de facebook como en su plataforma de
instagram. Posiblemente junto a google facebook tenga la mayor base de datos de
imágenes sobre nosotros que jamás haya creado en la historia, posiblemente
teniendo incluso más imágenes de las que tú puedas tener sobre ti mismo. Tienes
que dar por sentado que facebook seguramente conozca cómo ha ido
evolucionando durante los 15 últimos años y no solamente tu fisionomía y tu
cara sino tus gustos, dónde te has ido moviendo cronológicamente en el espacio,
qué elementos has tenido por tu casa, qué gustos comerciales has tenido y ha
dejado de tener, con quién te relacionabas y con quién no te relacionas
ahora. Todo eso facebook lo sabe y por tanto plantear solamente la duda de que
facebook esté detrás de un movimiento en el que necesiten por algún motivo
generar un dataset de personas de ahora y de hace 10 años es simplemente no
darse cuenta de cómo funcionan estas grandes compañías. Por tanto a la
pregunta de está facebook detrás del 10 years challenge? No, aún así no quiero
perder la oportunidad de sacarle todo el jugo a este tema y es que al final
plantea una duda interesante. Si para entrenar un modelo de machine
learning al final necesitas tener pues un conjunto de datos muy muy grande
porque recordemos que los algoritmos de redes neuronales y los algoritmos de
deep learning al final necesitan millones y millones de registros para
poder trabajar de manera eficiente, si además trabajamos por ejemplo con
análisis supervisado donde tenemos pues una serie de ejemplos de los datos de
entrada y sus etiquetas, en ese caso ¿cómo puedo generarme yo un dataset que
sea lo suficientemente grande si no tengo los recursos? Este problema que
estamos planteando es bastante importante porque al final cualquiera
que se haya enfrentado a trabajar con modelos de machine learning en un
problema nuevo se habrá encontrado con que encontrar estos datos, coleccionar
este dataset sobre el cual entrenar a todos modelos es bastante complicado y de
hecho es el proceso de coleccionar y transformar y limpiar estos datos donde
vas a invertir la mayor parte de tu tiempo en el trabajo de machine learning
entonces si quisiéramos de alguna manera conseguir estos datos ¿cómo lo
podríamos hacer? La primera manera es pidiendo ayuda y es que al final lo
hemos dicho antes, internet es un lugar donde conectamos millones de personas y
bueno pues si tú quieres hacer una cosa que requiere millones de datos pues a
lo mejor podrías pedírselo a alguien que de manera altruista pues te lo vaya
a dar. Si tu idea es esta pues ya te adelanto que no vas a tener una muy buena
acogida quizás podrías convencer a la gente de que el dataset que tú vayas a
generar si va a tener un acceso libre y gratuito para todos del cual nos podamos
beneficiar y en ese sentido a lo mejor sí puedas tener un mejor resultado y es
que ya lo he dicho antes en internet sólo nos ponemos de acuerdo para el
cachondeo y los memes pero si no vas a dar nada a cambio posiblemente pues tu
proyecto no salga adelante y en ese sentido pues existen plataformas de
crowdsourcing como Amazon Mechanical Turk donde tú puedes plantear una serie de
problemas como por ejemplo que contenido tiene esta imagen de aquí y a cambio de
un pequeño dinero pues puedes conseguir gente que te vaya haciendo anotaciones
en tus propios datos poco a poco pues haciendo una pequeña inversión de mil
dos mil tres mil euros pues te puede generar un dataset decente que puedes
utilizar para entrenar a tus propios modelos. Esta vertiente suele ser la
utilizada actualmente en muchos laboratorios de investigación donde este
dinero tampoco supone una gran inversión y a cambio obtienes un dataset sobre el
cual poder investigar. Esta vertiente ha hecho que en países con manos de obra
barata como india o china hayan surgido empresas donde los trabajadores están
toda su jornada laboral ya sea de 8, 10, 12 o lamentablemente todo el día
trabajando en la generación de datos es decir estarán anotando imágenes
diciendo si el contenido es un perro o un gato o estarán moviendo un brazo
robótico para coger elementos y soltarlos de nuevo o estarán leyendo
textos y diciendo si el sentimiento es positivo o negativo es decir están
generando datos de entrenamiento todo el día y claro al final estos datasets
generados pues van a pertenecer a aquellas empresas que lo hayan pagado
aunque también es cierto que la cultura empresarial está evolucionando hacia el
punto en el que las propias empresas abren estos datasets a todo el mundo
porque realmente confían en que gracias a esto pues pueda progresar su área de
investigación y ellos se puedan ver beneficiados de los modelos que vayan
surgiendo. Pero a lo mejor estás pensando que a este juego sólo pueden participar
aquellas grandes organizaciones capaces de tener pues la capacidad técnica para
producir estos datasets, pero esto no es del todo cierto o al menos así lo
piensa Andrew Ng que es uno de los grandes investigadores dentro del área
del machine learning. Él acuñó el término del círculo virtuoso del
machine learning y que básicamente se explica así. Imagínate que tú eres una
pequeña startup que no tienes capacidad de competir con estos grandes gigantes
pero que sin embargo te has establecido en un pequeño nicho de mercado, es decir
tu modelo de negocio pues se basa en hacer una tarea muy muy específica de
la cual posiblemente las grandes compañías ni siquiera se lo vayan a
plantear. Tu modelo de negocio por ejemplo es hacer un clasificador de zetas, tú
te has ido al campo, has ido sacando fotos a diferentes zetas y te has hecho un
pequeño dataset con imágenes anotadas, con esto aunque tu conjunto de datos sea
muy pequeño lo que puedes hacer es entrenar un pequeño clasificador que a
lo mejor no va a funcionar muy bien, pero oye eres el único que lo haces. En ese
sentido pues tu modelo de clasificación atraerá a posibles consumidores y tu
modelo de negocio tiene sentido y en ese caso pues la gente empezará a utilizarlo.
Cuando la gente empieza a utilizarlo lo que sucederá es que empezarás a recibir
nuevas imágenes de zetas, es decir poco a poco irás recibiendo nuevas imágenes
con lo cual tu dataset se va a hacer cada vez más grande y por tanto podrás
entrenar a un mejor clasificador que atraerá más público y atraerá más
imágenes y por tanto generará un mejor modelo y así poco a poco hasta que el
valor de tu empresa no sea tanto el modelo que has generado sino la propia
base de datos que contienes. Posiblemente a partir de ahí el futuro
de tu empresa pase porque alguna gran compañía en algún proyecto terminado en
vez de invertir en hacer ese dataset directamente te compre. Esto además se
complementa con la propia automatización del proceso de anotar datos, es decir,
hace unos años si tú querías generarte un modelo que predijera poses, tú tenías
que ir persona a persona, fotograma a fotograma, definiendo cuáles eran los
puntos clave en el esqueleto de esa persona. Eso tenías que hacerlo de manera
manual, pero claro una vez ya tienes un modelo entrenado en base a esos datos ya
tienes un modelo para poder automatizar el proceso de anotar nuevas poses, por lo
tanto al final lo que estamos haciendo es que el propio Machine Learning nos
sirva como herramienta para poder seguir desarrollando y generando nuevos
datasets. Como puede ver son muchas las necesidades que tenemos de buscar maneras
de coleccionar estos datos para entrenar a nuestros modelos debido al gran valor
que residen en ellos y en ese sentido pues hay maneras creativas y maneras
creativas de obtener esos datos. En el caso de hoy en el 10 year challenge
pues estaríamos hablando de eso, de una empresa hipotéticamente que hace una
especie de artimaña para que sus propios usuarios se pongan a generar un
dataset de imágenes, pues en este caso de cómo han envejecido en 10 años. En ese
sentido también podemos encontrar casos polémicos como el que se produjo hace un
año con el caso de Cambridge Analytica, donde básicamente un investigador había
creado una aplicación banal de test de personalidad en la plataforma de
Facebook pero que al mismo tiempo servía para que el usuario sin darse cuenta de
lo que estaba aceptando diera los permisos para que la aplicación pudiera
acceder a toda la información personal y de su red de contactos. En este caso
pues ya sabemos cómo acabó la noticia con el propio Mark Zuckerberg teniendo
que ir al Congreso de los Estados Unidos a declarar por este caso. Aún así si
estamos hablando de maneras creativas de obtener datos en base a técnicas que a
lo mejor los usuarios no notamos cuenta, hay una que me llama muchísimo la
atención y es el caso de los capchaps. Para el que ande despistado les recuerdo
que un capchap es este sistema que tienen las páginas webs para detectar si
un usuario es real o no, si es un robot. Esto se suele utilizar pues poniendo
problemas que sean complicados de resolver por una máquina autónoma y que
puedan ser fácilmente resueltos por un humano, así estableciendo una especie de
barrera para aquellos sistemas automáticos que vengan a hacer spam. En
ese sentido tenemos el caso de Google que aprovechó este sistema para no solo
detectar si una persona era humano o no, sino también para aprovecharse y crear
datasets nuevos, porque al final con un sistema de capchap lo que obtienes es un
sistema de crowdsourcing espectacular, porque tienes a muchísimos usuarios
trabajando en un problema determinado que además técnicamente es un problema
que una máquina no puede resolver y por tanto es un dataset que te interesa
tener. Esto por ejemplo se podía ver hace unos años cuando el problema a
resolver era el de detectar qué caracteres había en una imagen. Google
lo que hacía normalmente era plantearte dos imágenes. La primera mostraba un
texto distorsionado que era la que serviría para saber si tú eres un
humano o eres un robot. Esa imagen luego se complementaba con otra diferente en
la que aparecía una fotografía donde se podía ver un letrero de una casa con
números. Ahí tu tarea era identificar cuáles eran los dígitos que aparecían
en ese cartel. ¿Cuál era la estrategia de Google? Pues decir que bueno, si tú
eres capaz de resolver este problema es que eres humano y si tú eres humano
entonces tú ahora me vas a ayudar a resolver este problema de aquí. En este
caso el problema que estabas resolviendo tú aquí era el de saber cuál era el
número del cartel de una vivienda de una fotografía tomada por el coche de
Street View. Claro, si tú consigues anotar suficientes carteles Google
después puede entrenar a un modelo de Machine Learning en aquella época que
fuera capaz de identificar qué números habían en todas las fotografías tomadas
por el coche de Street View. Pero claro, el campo del Machine Learning también va
evolucionando y los problemas que queremos resolver también se vuelven
más complejos. Por eso la necesidad de generar nuevos data sets y por eso
también la evolución que hemos experimentado en los sistemas de
capchaps. No sé si alguna vez te habías fijado que realmente el problema que
estás resolviendo aquí es el de decirle a Google dónde se encuentra un
determinado objeto en una imagen. Unos datos que le puede venir muy bien para
resolver problemas de localización de objetos. En este caso fue una especie de
crowdsourcing no autorizado el que permitió que Google tomara ventaja en
este sentido. Como puede ver... Lo siento, no sé cómo ayudarte, estoy aprendiendo.
Ay, Jami, estás aprendiendo, qué lista eres. Como puede ver son muchas las
maneras que tienen las empresas y las organizaciones a la hora de identificar
datos y en ese sentido es por lo cual deberíamos estar alerta porque detrás
de esos datos existe un valor. Un valor que tanto tú como yo como todos en
muchas ocasiones cedemos de manera gratuita y que en mi humilde opinión no
vamos a poder controlar. Como puede ver...
Bueno y hasta aquí dura la batería de la cámara pero no pasa nada, ya estaba
acabando el vídeo. De hecho el vídeo ya se está acabando directamente en el
premier. Ya está casi todo editado pero quería acabar con una reflexión que no
pude decir ayer que fue cuando grabé el vídeo y es que al final con todo este
tema de los datos lo que hay que entender bien es para qué están siendo
utilizados y cómo están siendo recogidos. Creo que no mucha gente conoce
que un simple gesto como rellenar un captcha está sirviendo para entregarle
información que en este caso no es tuya, pero sí es una información que tiene
valor a una empresa privada y a lo mejor eso no te interesa, pero yo creo que
incluso más importante hay que entender cómo esa información puede ser utilizada.
Por eso yo creo que es tan importante conocer cómo funcionan los algoritmos de
machine learning y hasta qué punto pueden servir para extraer información
relevante sobre ti. En este caso por ejemplo en este vídeo hemos empezado
hablando del 10 years challenge, que ya puedo decir bien porque me he dado cuenta
del error, en el que simplemente tú estás compartiendo una imagen de hace 10 años
y una actual. ¿Qué puede tener de malo eso? Como yo te he explicado Facebook no
está detrás de este meme, pero sí es cierto que cualquier persona que se meta
al hashtag podría coger todas esas fotos y utilizarlos para entrenar un
sistema, pues por ejemplo que identifique qué tal has envejecido en esos 10 años.
Y si te crees que esto no puede tener relevancia, te dejo para la reflexión que
pienses cómo podría caer en manos de una empresa, por ejemplo aseguradora, un
sistema que sea capaz de saber qué tal has envejecido en 10 años.
Y hasta aquí el vídeo de hoy, espero que te haya parecido interesante este tema
que hemos compartido en esta especie de data coffee, pero que no data coffee. La
realidad es que estoy cambiando un poco el formato de algunos vídeos del canal,
como sería este el caso, y también espero que te haya dado cuenta que la
estética de este vídeo ha estado un poco más pulida que en vídeos
anteriores. Y en parte se debe a que he comprado, bueno, he hecho una serie de
inversiones en el canal de YouTube, he cambiado el objetivo de la cámara, he
comprado mejor iluminación, he comprado iluminación ambiente. Todo esto lo conté
en Instagram, en mis Insta Stories, así que si vas para allá todavía puedes
verlo porque lo he guardado como YouTube setup, así que puedes verlo todo allí. Y
si estás interesado también en estos productos, pues te indico que aquí abajo
he puesto links hacia Amazon a cada uno de los productos que he comprado, que son
links que también están pues con la referencia de que soy yo el que te lo
mando, así pues yo gano si tú decides comprar un producto que en parte pues a
mí me ha venido bien y a lo mejor a ti te puede venir bien, ¿vale? En ese
sentido pues tienen los links aquí abajo, les recomiendo que lo vean porque
también tengo links a mis otras redes sociales, Instagram, Twitter, Twitch, que en
Twitch estoy empezando a hacer cosillas, ya les contaré un poco más sobre esto. Y
nada más, muchas gracias por verme y si quiere ver más Inteligencia Artificial
suscríbete y yo que sea. Y ya nos vemos en el siguiente vídeo, ¿vale? Que será,
dentro no mucho. ¡Adiós!