logo

midulive


Transcribed podcasts: 605
Time transcribed: 13d 3h 7m 36s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

La inteligencia artificial, una de las cosas de la que se nutre es del contenido.
No sé si os habéis dado cuenta, ¿no?
De muchos, ha habido muchos dramas últimamente con el tema de inteligencia artificial
que si se ha entrenado con vídeos sin permiso, por ejemplo, se ha hecho con vídeos de Marquís, ¿no?
Se utilizaron vídeos de Marquís para entrenar, mira aquí hay otros, vídeos de YouTube para entrenar
y así transcriben el contenido de miles de creadores sin tener su permiso.
Una organización sin ánimo de lucro ha creado un conjunto de datos usando subtítulos
encontrados con los vídeos de muchos youtubers conocidos.
Y esto ha pasado con un montón de inteligencias artificiales y con gigabytes y gigabytes...
No, gibibytes.
¿Cuánto es un gibibyte?
No gigabytes, no.
Un gigibyte es una unidad de información con un múltiplo de un gigibyte.
Son muchos, muchos, muchos.
No se debe confundir con el gigabyte.
Pues a pesar de que están relacionados, tienen valores diferentes según la base de la potencia.
Ah, esto es como para...
Bueno, a ver, que es bastante similar.
Tampoco, ¿qué más da?
¿Qué más da?
¿Qué más da?
O sea, ¿qué más da?
Pues haber dicho gigabytes y más o menos, ¿qué más da, tío?
Dices 825 gigabytes y te quedas igual, joder, si es lo mismo más o menos.
Bueno, total, que sí, que se están nutriendo de este contenido, pero no es el único caso.
No es el único caso.
El caso es que, no sé si os habéis dado cuenta, pero en Twitter cada vez hay más empresas
que se están quejando que empresas como OpenAI o como Anthropic AI, empresas que tienen modelos
de lenguajes de inteligencia artificial, pues lo que están haciendo es tirar abajo, tirar
abajo empresas y productos y webs por culpa de lo que parecen casi ataques.
Ataques.
Entonces, miramos, aquí un caso.
Dice Anthropic AI, y entiendo que tienes hambres de datos, Cloud es realmente inteligente,
pero realmente necesitas acceder a nuestros servidores un millón de veces, un millón
de veces en 24 horas.
No solo estás tomando nuestro contenido sin pagar, sino que también estás ocupando nuestros
recursos de DevOps.
No está bien, no está bien.
O sea, un millón de peticiones en menos de 24 horas.
Ojo, cuidado, porque esto no es la primera vez que lo veo y se está volviendo un problema
en el que estas empresas de inteligencia artificial están haciendo como pseudoataques a servidores
por tal de recopilar datos.
Y de hecho, aquí lo tenemos con más información.
Dice, para cualquiera que tenga dudas, si alguna de esas solicitudes acceder a nuestras
condiciones de servicio, le habría dicho que el uso de nuestro contenido está expresamente
prohibido.
Pero no me preguntes a mí, pregúntale a Cloud, si deseas tener una conversación sobre
la concesión de licencias de nuestro contenido para uso comercial, estamos aquí.
Claro, es que hay un montón de empresas que están utilizando contenido robado, robado
porque no le han dado acceso o permiso para utilizarlo, para entrenar un modelo para fines
comerciales, y lo están haciendo.
Y de hecho, muchas veces les puedes igual incluso preguntar y fíjate que le va contestando,
le va contestando, ¿no? Le va contestando como, oye, sí, entiendo que no debería hacer
esto, pero lo hago igualmente.
Hay más, ¿eh? Por aquí. Aunque en el robots.txt lo tienen puesto. Fijaos que aquí en el
robots hay como esto, el user alien. Dice, user alien, anthropic AI disallow. O sea, le está
diciendo con el robots que esto es una, se supone, un archivo que debería evitar que realmente
un robot, un bot, lo que sea, pueda rastrear tu página web, se lo está saltando. Fijaos
que tiene aquí, anthropic AI, e igualmente, pese a todo, a ver si aparece por aquí, aquí
lo tenéis. Pese a todo, podemos ver que le están llegando peticiones de anthropic. O sea,
por más que tenga anthropic y tal. Y fijaos que no es el único. Dice, tenemos el mismo problema
con anthropic, con los scrapers, que están destruyendo nuestros servidores. Parece que le
vamos a tener que enviar la factura. Es que es tremendo. Hay un montón de gente por aquí
que se está quejando exactamente de lo mismo. De lo mismo. Y ahora la pregunta del millón
que te estarás preguntando. ¿Y esto tiene arreglo? Uno sería como mínimo el robots, ¿vale?
El mínimo robots.txt. Pero ¿qué pasa con el robots? Que se lo pueden saltar. Les puede
importar un pepino y se van a saltar esto. ¿Veis? Cloud, cohere, aquí gptbot. Esto
al final no te va a garantizar absolutamente nada. Se lo van a poder quitar, se lo van
a saltar si les da la gana. Y esto siempre lo ha hecho sin ningún problema Google, lo
ha hecho todo el mundo y lo van a seguir haciendo. O sea, esto al final es como una sugerencia.
Tienes que entender que es una sugerencia, que se lo pueden saltar si les da la gana.
Ahora, ¿cómo lo podéis hacer realmente? Pues hace muy poco la gente de Cloudflare ha sacado
un servicio expresamente para esto que está muy interesante. Y es que puedes declarar
tu AI independencia. O sea, la independencia de inteligencia artificial para bloquear bots
de inteligencia artificial, scrappers y crawlers, todos los que tienen que ver con inteligencia
artificial, con un solo clic. Lo cual está bastante interesante en el caso de que tengáis
el servidor o lo tengáis Cloudflare como servicio, que lo sepáis, ¿vale? Lo tenéis aquí.
Lo tenéis con un solo clic y aquí lo tenéis. En bots tenéis que activar este, que es
nuevo. AI scrappers and crawlers block bots from scrapping your content for AI applications
like model training. Esto lo activáis y solo activando esto, voy a ver si tengo el acceso,
lo tengo abierto. Vamos a ver si tengo suerte. No lo voy a tener porque yo, por ejemplo,
lo tengo activado en algunos sitios. Además, es gratuito, ¿vale? Es gratuito este servicio.
No hay que pagar ni hay que hacer absolutamente nada. Por suerte, o sea, todos los clientes
gratuitos lo tienen. Y esto no está pagado, sino que simplemente os lo recomiendo. ¿Por qué?
Os recomiendo mucho que activéis esto porque, como veis, imaginad que tenéis un proyecto,
lo tenéis en Vercel. Y en Vercel, por lo que sea, por lo que sea, tenéis muy buen contenido
y viene la inteligencia artificial, bueno, viene que van a entrenar al siguiente ChaGPT o a Cloud
o lo que sea, lo están entrenando a tu costa, ¿vale? Y te van a hacer, a lo mejor, miles y miles
de peticiones de usuarios que no son reales, que a lo mejor dices, pues es que, a ver si
no son usuarios reales, pues qué sentido tiene que realmente me pongo aquí. Yo, mira,
yo lo tengo aquí activado, os lo voy a enseñar, para midu.dev. Y tengo modo Bot Fight
y bloquear AI Scrappers y Rastreadores. ¿Veis? Y es, y esto, ah, mira, lo tengo aquí. ¿Veis?
Lo tengo activado y desde entonces me bajó un montón. Me bajó un montón. Así que,
Plot Twist, Cloudflare es el que está haciendo los ataques. No me extrañaría. Pero, a ver,
lo puedes controlar muy fácil, o sea, puedes ver muy fácil si realmente está funcionando
o no está funcionando. Te puedes ir a las analíticas y puedes ver ahí análisis un
poco del tráfico web. ¿Veis? Aquí podéis ver análisis del tráfico web. Y aquí podéis
ver un poco, claro, ahora yo ya no tengo, ya lo activé hace tiempo, a lo mejor no puedo
ver la caída. Creo que lo activé justamente este día, puede ser, ¿eh? Porque justo el día
que salió, que fue el 2 o el 3, fue a principios. Mira, el 3 de julio, pues
justamente lo activé este día, ¿eh? Lo activé por aquí. Y fijaos que sí que se
nota que ha bajado aquí bastante, ¿eh? O sea, que sí que se nota que lo activé
aquí y aquí ahora ya tengo menos peticiones. Así que, ojo, ojo. Y quieras o no, esas
peticiones te pueden costar dinero. Si esto llega a Vercell y por lo que sea, claro, son
como usuarios reales, pues acciones al contenido y tal, yo os recomiendo muchísimo que lo
activéis en el caso de que no queráis entrenar los modelos y tal. Y está en la capa gratuita.
Está en la capa gratuita, es gratis, no tiene ningún límite, lo activas con un clic y ya
está. Lo activas con un clic y ya está. Y fijaos, es que es muy bestia, ¿eh? Mira,
el siguiente gráfico muestra los bots de IA más populares observados en la red de Cloudflare
en términos de su volumen de solicitudes. Y fijaos, por ejemplo, este ByteSpider, AmazonBot,
Cloudflare, que es este verde, es el que últimamente está subiendo pero un montón. Mira, ChagPT lo
tenemos por aquí también con estos picos, por aquí. Que lo tengáis en cuenta, que al
final esto puede costar dinero. Los que más solicitudes realicen, ByteSpider, AmazonBot,
CloudBot y GPTBot. ByteSpider, para que veáis esto, ByteSpider, que es este azul, que es
una burrada, eso es de los creadores de TikTok. Eso es de los creadores de TikTok. Y de hecho
yo, uno de los que vi que me estaban haciendo muchas peticiones en mi DUDEP, era este de
ByteSpider, que era de la gente de TikTok. O sea que echarle un vistazo por si... A lo
mejor... Mira, 40%. Solo ByteSpider un 40%. Una locura, una locura, ¿eh? Bueno, pues ahí
os lo dejo, ¿vale? Para que le echáis un vistazo y si queréis, pues los podéis
hacer. Que sepáis que en Vercell también los podéis bloquear, ¿eh? Si no queréis
utilizar Cloudflare por lo que sea, pues ahora por suerte tenéis el firewall de
Vercell, ¿vale? Que ni me está pagando Cloudflare ni me está pagando Vercell, pero lo
digo solo para que lo sepáis. Porque obviamente tenéis los dos productos, pues
podéis utilizar lo que queráis. Podéis configurar, podéis crear una regla aquí y
podríais bloquear, pues podéis decir... A ver si encontramos aquí el UserAgen. ¿Dónde
está el UserAgen? Aquí, UserAgen. Si el UserAgen tiene no sé qué, pues le das, ¿vale?
Y ahí lo tendrías y está. Huele a patrocinio. Madre mía. Ay, Dios mío, qué paciencia. Señor,
dame paciencia, dame paciencia. Porque como me des fuerza, a alguno lo reviento. Así que
dame paciencia, señor, por favor. Haz que la paciencia caiga sobre mí. Hay que ver. Hay
que ver. La midu paciencia. La midu paciencia. Hay que ver. Bueno, pues nada, ya está. No
hablamos más de esto, pero espero que os ayude para bloquear la inteligencia artificial
porque yo creo que si no vais a ganar dinero de que os estén visitando, lo mejor que podéis
hacer es evitar que os cueste dinero a vosotros. Si no os pagan encima, pues que no os cueste
dinero. Mira, ahora que ya que estás hablando de patrocinio, pues toma, os voy a hablar
de un patrocinio. El de la hackathon, porque sí que estamos haciendo con Vercell una hackathon
que esa sí que está patrocinada. Y ya tenemos a 59 participantes. En la hackathon, que sepáis
que podéis ganar. En la hackathon tenéis que crear un proyecto con Vercell SDK, que ya lo
hemos comentado. Todavía tenéis tiempo. Tenéis hasta la semana que viene, así que aprovechad.
No, hasta la semana que viene. Ah, sí, sí, hasta el 6 de agosto. O sea, estás a tiempo
todavía. Y podéis ganar un montón de cosas. 500 dólares, créditos de Vercell, una caja
de swag de Vercell. Mira, cosas así. Esto sí que está patrocinado, pero podéis ganar
y puede ser muy interesante. Así que dadle cañita, que todavía estés a tiempo, ¿vale?
de participar.