This graph shows how many times the word ______ has been mentioned throughout the history of the program.
El escándalo de NVIDIA, el pedazo de escándalo que se ha desatado de NVIDIA entrenando una inteligencia artificial de vídeo.
Se han filtrado documentos y correos muy reveladores que ponen a más de uno la piel de gallina.
Hay filtraciones que muestra a empleados discutiendo utilizar contenido de Marquise Brownlee y vídeos de Netflix para entrenar su inteligencia artificial.
Aquí tenemos la noticia, se han filtrado mensajes de Slack, documentos que muestran que la inteligencia artificial de NVIDIA, o sea, está escrapeando todo lo que puedas,
está escrapeando cada día una vida entera de un humano en vídeos cada día.
O sea, 80 años de contenido, que sería una vida entera de un humano, más o menos,
y que tienen aprobación de los niveles más altos de la compañía a pesar de las preocupaciones éticas y legales.
Y encima, aquí lo tenemos, por ejemplo.
Hola equipo, estamos utilizando research.google.com barra youtube8m barra download para descargar vídeos.
Si es así, tenemos la aprobación legal para hacer esto mismo.
En uno de nuestros proyectos, la gente de legal nos lo ha denegado por temas de licencia en vídeos individuales,
que es mucho más importante que la licencia que comparte youtube8m.
Dice, esto es una decisión ejecutiva. Tenemos un paraguas de aprobación para todos los datos.
Todos los datos. O sea, esto es muy, muy fuerte.
Además, es Mingyu Liu, que parece que encima es increíble porque este documento,
fijaos que esto sí que está como redacted, o sea, que no se puede ver el nombre,
pero el de Mingyu Liu sí que es, aquí lo podéis ver,
es un investigador que está trabajando en NVIDIA, que hace muy poco, hace unos días,
está hablando del lanzamiento de Black Forest Labs en su misión de desarrollar el estado del arte de los vídeos generativos.
Pone de modelos para media, pero sobre todo serán para vídeos,
para empujar los límites de la creatividad, la eficiencia y la diversidad.
O sea, obviamente está muy ligado a todo el tema de NVIDIA, como podéis ver retuiteando y cosas así,
mostrando también cómo puede ser Sora.
Y esta es la persona que podemos ver que está hablando aquí, ¿vale?
O sea, es bastante... Estado del arte es como lo mejor de lo mejor.
El estado del arte es cuando tú dices, este coche es el estado del arte.
Es como lo más top que puedes construir hoy en día.
O cuando estás haciendo algo que va a ser todavía más increíble, ¿no?
La próxima consola va a ser el estado del arte, va a ser como lo mejor de lo mejor.
En inglés es que se dice State of Art, que no sabría si es una...
¿Mido es el estado del arte en Twitch? Hombre, no creo, pero gracias.
Tecnología punta, esa sería una buena traducción.
Muy bien, agénciate, muchas gracias.
Pues no solo tenemos este documento, porque este documento ya da miedo.
Es que hay más.
Este documento de Slack, fijaos aquí que dice,
hola, si todavía estás abierto a sugerencias de qué canales de YouTube deberíamos descargar,
aquí hay algunos canales que te pueden interesar.
Enes y el Mather, Black Tail Studio, CN Liziki, y ahí te explica de cada uno el canal,
si está en inglés, vídeos muy profesionales, no sé qué.
The Critical Drinker, sobre películas, series.
Y aquí podemos encontrar algunos como el de Marquise, que es el de tecnología, desarrollo.
Dice, super high quality, le pone aquí.
Super high quality.
O sea, madre mía, Marquise Brownlee hace poco, hace tres semanas, ya hizo este vídeo.
Donde decía que Apple había entrenado modelos de inteligencia artificial con contenido de YouTube
sin el consentimiento, incluyendo vídeos de Marquise Brownlee.
Y aquí es donde estaba comentando esto, ¿no?
Esta es la historia que me he enterado hoy, ¿no?
Que Apple había entrenado sin mi consentimiento estos vídeos, incluso los míos.
No hay ninguna declaración de Apple, que yo me imagino que nunca va a haber una, la verdad, te lo digo.
Tampoco debe ser la única empresa que lo ha hecho, también te digo.
Eso no tengo ningún tipo de duda.
Dice, están entrenando submodelos de inteligencia artificial utilizando datos
que compran a empresas de extracción de datos de terceros, ¿no?
Y ahí, pues ahí podéis ver que ahí ya estaba avisando que estaba ocurriendo con su contenido,
que no le parecía bien, que es un problema, porque al final va a estar evolucionando.
Le están quitando, no tienen la licencia, que cada vídeo que publican,
que están utilizando de inteligencia artificial para hacer los subtítulos automáticos.
Y entonces dice que también las transcripciones robadas específicamente son contenido de pago
que está siendo robado por otras empresas.
Claro, él está pagando para transcribir sus vídeos, para tener un contenido buenísimo
y a otra gente se lo está robando.
O sea, es bastante bestia.
Y esto fue hace tres semanas, pero es que ahora se confirman las sospechas.
Bueno, sospechas, no era la primera pista que teníamos.
Pero aquí lo tenemos, bien, bien, bien, bien.
Ahora se filtraron mensajes de que NVIDIA, en Slack, están hablando,
que están discutiendo qué canales de YouTube extraer vídeos.
¿Vídeos de Marquise Brownlee?
Sí, tómalos también.
Y aquí, madre mía, este es el vídeo que podría hacer para que se fuese a pique NVIDIA, ¿no?
Pero es muy bestia porque esto son vídeos de YouTube.
Pero, ojo, no sabes quién es Marquise Brownlee.
Es seguramente uno de los creadores de YouTube de tecnología más importantes.
Tiene 20 millones de suscriptores.
Normalmente habla de dispositivos tecnológicos, del iPhone, de laptops, de lo que sea, ¿no?
Y la verdad es que tiene vídeos que están muy bien, dan su opinión.
Es uno de los pocos que puede tener entrevistas directas.
Entrevistas directas con la gente de Apple.
Ha entrado en la fábrica donde se hacen los iPhone.
Ha tenido una entrevista directamente con Tim Cook.
Aquí lo tenemos, hace vídeos, es espectacular.
Mira, aquí lo tenemos.
Hablando con no sé quién.
Y le invitan.
Es de los pocos, es de los pocos.
Y fijaos que pese a esto, aquí le hizo una pregunta troll porque le dijo, le dijo algo así como...
¿Qué opinas del Magic Mouse?
En este momento la entrevista es espectacular.
Ojo, eh, ojo.
My number three is the Magic Mouse.
El Magic Mouse.
The Magic Mouse.
Ah, el Magic Mouse.
Ah, no tengo ni idea de qué coño me estás hablando.
No sé de qué me estás hablando, ¿no?
Porque le estaba diciendo, bueno, el Magic Mouse como es de los peores que en ese montón, ¿no?
El Magic Mouse, recordad que es ese ratón que tenéis que cargar al revés.
Porque se tiene que cargar así y no lo puedes utilizar mientras lo cargas, ¿vale?
Maravilloso.
Y ahí sigue.
Bueno, pues ojo a lo que dice el CEO de Apple.
Un momento increíble cuando sacamos el Magic Mouse.
Mira la cara que se le queda al pobre.
Se le queda la cara de...
Se ha quedado hasta penchado.
Pero mira cómo se está partiendo la caja como diciendo, ¿pero qué le está diciendo?
Que tiene una buena ergonomía.
Sí, sí, se está partiendo.
Bueno, luego, ojo, que esto sigue lo del escándalo de NVIDIA.
Porque dice, Ming Yu Liu, que están todas, dice,
Francesco, en la reunión de hoy hemos tenido permiso para descargar todo tipo de datos.
¿También deberíamos descargar todo Netflix?
¿Cómo podemos hacer esta operación?
Deberíamos descargar todo el Discovery Channel.
Necesitamos pick para esto.
No sé qué es pick.
¿Quién quiere ver todas las películas mientras las estamos capturando?
Necesitaremos tener un montón...
O sea, claro, vamos a obtener un montón de caras de alta calidad de esto.
La infraestructura Universe nos está ofreciendo ayuda para operacionar esto.
Al menos esto es lo que yo entiendo.
Este equipo tiene experiencia construyendo grandes datasets en otras compañías grandes.
Exacto, es piratear Netflix.
Pero es que esto es muy, muy bestia.
Es que ya se nos está yendo de las manos.
Y aquí una cosa que nos demuestra es que, queramos o no, la inteligencia artificial, su límite, muchas veces lo hemos dicho, es su entrenamiento.
Porque muchas veces es que si piensan por sí mismas, que no sé qué, y al final la realidad son los datos, los datos, los datos y los datos.
Y por eso tienen que pillar datos de todos los sitios que puedan.
O sea, es así de bestia.
Y claro, pues esto es lo que te hace que tengas que ir incluso a...
Que tengas que ir a descargarte todo YouTube o todo Netflix, que es brutal.
Aquí tenemos unos otros datos filtrados de gráficos de Netflix que dijeron que habían compilado 38,5 millones de URLs de vídeos para descargar.
Y encima luego le contestó el CEO, Jensen Juan, buena actualización.
O sea, el CEO de Jensen Juan, el CEO de NVIDIA, sabe que esto ocurre.
Es consciente de que se está haciendo esto.
Una cosa que ahora os voy a decir mi opinión sobre esto, porque obviamente ahora nos podemos reír, no, sí, hagi, jojo.
¿Cómo lo veis? O sea, ¿vosotros creéis que es lícito?
¿Creéis que es legal o que es lícito que pueda entrenar una inteligencia artificial con todo este contenido?
Como por ejemplo Netflix y todo esto.
¿Qué piensas que pase en términos legales?
Yo creo que especialmente Netflix y YouTube seguramente van a tener que tomar algún tipo de cartas en asunto.
Igual eso es difícil de regular. Ahí tienes toda la razón. Es que es muy difícil de regular.
Es ilegal, eso está claro, pero es verdad que es complicado.
Dice, en la actualización de mayo, Liu dijo, el equipo de investigación está ahora entrenando un modelo de un millón, de un billón, de mil millones, con diferentes configuraciones, con cada uno de 16 nodos.
Esto es importante para descalar. Estamos esperando tener conclusiones en unas semanas para escalar a un modelo de 10.000 millones.
Dice, muy buena actualización, dice Jensen.
Y dijo, muchas compañías tienen que construir Video FM, Foundation Models.
Podemos ofrecer un pipeline acelerado a tope.
Madre mía.
Que los demande Netflix.
Hombre, desde luego, si Netflix tiene pistas que realmente están haciendo eso, sería muy bestia.
Es que para mí el problema es que estamos intentando llegar a la inteligencia artificial en base a aprovecharnos del contenido que existe sin pagarle dinero.
Claro, por eso te lo puedes permitir.
Porque realmente, si le tuvieses que pagar dinero a todos los creadores de YouTube, a Netflix, a todos los sitios donde está sacándose contenido para entrenar a esa máquina que al final está haciendo, que claro, va a generar muchísimo dinero.
Claro, entonces otra cosa sería diferente todo el tema de inteligencia artificial, ¿no?
Si tuvieras que pagar realmente con los datos que estás entrenando.
Es que contenido público no puede hacer nada, pero es que lo de Netflix no es público.
Lo de Netflix no es público.
Está detrás de una sesión que tienes que pagar y que estoy convencido que no está pensado para eso.
Es que es difícil demostrarse ni a alguien de dentro, ¿no?
Claro, pero ahora que tienen esto, yo creo que tienen a alguien dentro.
Tienen a alguien trabajando en Nvidia que está saltando todo esto.
¿Cómo tiene que ser tu vida?
Porque, ojo, todo esto que se ha filtrado.
Obviamente estos documentos son reales porque al final 404 Media, que es el medio que lo ha publicado, tiene obviamente muy buenas fuentes.
Que si no es la primera vez que filtra cosas.
¿Cómo tiene que ser tu vida dentro de Nvidia?
Que tienes acceso a Slack.
Que tienes que estar ganando un dineral porque los sueldos en Nvidia deben ser salvajes.
Ahora mismo tienen que cobrar una pasta.
La gente de Nvidia tiene que estar ganando un dinero que no debe ser normal.
O sea, tú imagínate estar ganando 150.000 euros al año o 335.000, vete a saber, ¿sabes?
Y de repente dices, ¿sabes qué? Voy a filtrar esto.
Que se te puede caer el pelo, ¿eh?
Por lo que sea te pillan de que eres tú el que lo ha filtrado, te destruyen, ¿eh?
Te destruyen de que pierdes todas tus acciones, eso sin ningún tipo de duda.
Aunque en filtrar esos chats ya deben saber quién es.
No te creas, ¿eh?
No es tan fácil.
Pero las SIA generativas aprenden y generan contenido.
Se supone que no copian.
No, no, claro.
Pero el tema es, no se trata de que lo copien.
Se trata de que estás entrenando a una máquina a través de ese contenido que su licencia no lo permite.
O sea, y es así.
Yo entiendo lo que dices de que dices, no, pero los humanos también aprendemos de esto.
La licencia te permite que un humano lo pueda ver.
Lo que no te permite la licencia es que hagas un uso como este.
No te lo permite la licencia ni de YouTube ni de Netflix.
Y por lo tanto, ahí es donde hay un problema.
Si por lo que sean los términos y condiciones te dicen que no se puede, pues no se puede y punto.
Las cosas como son.
Se supone que ha costado 100 millones entrenar a GPT-4, coste computacional y tal.
Cada vez cuesta más los modelos.
O acabas pagando mil millones de dólares por un modelo cutre al que no le saca rentabilidad.
Totalmente.
Es complicado porque me da la sensación que cada vez va a ser más caro.
Que esto, supongo que encontrarán algo tecnológico para que no sea tan caro la próxima.
O sea, que cada vez ese coste baje también.
El coste de que te devuelva esa inversión cada vez va a ser más complicado.
¿La licencia dice que no se puede entrenar un modelo de IA?
A ver, dice Jair Leo que la licencia de Netflix no dice nada de entrenar la inteligencia artificial.
Lo cierto no es que diga, no puedes entrar en una inteligencia artificial como tal, pero seguro que hay un montón, pero un montón de licencias de que no puedes, no lo dirán exactamente así, pero a lo mejor dirá, no puedes utilizar este contenido para algo que sea diferente al visionado como una persona normal y corriente.
Entonces, no es que digan eso, porque claro, la tecnología va avanzando y tal.
Entonces, seguramente dirá algo así con palabras más legales, que dirán, este contenido solo debe ser consumido por el usuario que no sé qué.
No se permite la descarga del vídeo ni el streaming más allá del uso personal que no sé qué, no sé cuánto.
¿Sabes? Cosas así. El hecho de que no ponga específicamente que sea para entrenar la inteligencia artificial no significa que se pueda, ¿sabes? Es que es así.
Yo creo que van a tener que hacer una ley con esto. En algún momento, no soy muy fan, pero es que el vacío legal es tan bestia que creo que algo habrá que hacer.
O sea, algo habrá que hacer porque este vacío se está aprovechando mucho y creo que puede ser bastante complicado.
Netflix debe estar al tanto para esto, porque descargar todos los vídeos como un usuario normal no es sostenible.
Hombre, ya, pero estamos hablando de NVIDIA, ¿sabes? Que al final NVIDIA debe tener 10.000 millones de máquinas que puede mover esto y que no le pillen.
O sea, no estamos hablando de cualquier empresa, estamos hablando de una empresa top, una empresa top que realmente sabe lo que se está haciendo.