Devin Nos Engaño a Todos (expuesto)

midulive

Transcribed podcasts: 746
Time transcribed: 15d 5h 20m 39s

results.

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

Ay, Devin, es que es increíble, cómo nos la han colado, cómo nos la han colado. La gente de Cognition, esta empresa Cognition, que se unió en enero del 2024, sacudió el 12 de marzo, hace apenas un mes, sacudió los cimientos del mundo de la programación con esta demostración.
Una demostración en la que teníamos el bueno de Scott Wu, que también es un Human Software Engineer, haciendo la demo de Devin, un software engineer, pero con inteligencia artificial, que se supone que funciona casi autónomamente.
Y llegó a hacer una demostración bastante sorprendente en la que solucionaba un error de Upward, esta demo de aquí. Esta fue la más polémica de todas, porque en esta demo lo que se supone que hacía Devin era buscar un trabajo real y lo que hacía era solucionarlo.
En un tiempo que parece ser aquí en el vídeo, dos minutos, pero que al final, viendo las marcas, era mucho más, no sé si eran veintipico minutos o algo así, ¿vale? No recuerdo, a lo mejor sí que son como dos minutos, quién sabe.
Entonces, aquí lo tenéis, ¿no? Que lo solucionaba todo. Vale. Resulta que alguien que tiene un canal que se llama Internet of Bugs, ha estado estudiando al dedillo, al dedillo, la demostración de Devin.
Debunking Devin, First AI Software Engineer. Upward Lie Exposed. La mentira de Devin expuesta. Y aquí lo que se pone a comentar este buen hombre es, se pone a mirar al detalle la demostración de Devin, ¿no?
Y lo que se pone es poner en diferentes partes, comenta qué es lo que ha ido encontrando en esa demo porque le parece exagerado, ¿no?
Lo primero, parece ser que la información de la que está hablando no es cierta, o sea, han forzado ciertas cosas, eso es lo primero.
Lo segundo, que la solución no es buena del todo. Y lo tercero, es que hay trampas. Hay trampas en el vídeo, hay trampas.
Tiene más libros que ganas de vivir, sí, sí. Tiene un poco de... Tiene unos cuantos libros este hombre, sí.
Tiene alguno... Mira, Java. Tiene ahí Java. Sabe más que Devin, tiene pinta de saber más... Mira, Perl.
Está bien, ¿eh? La verdad es que tiene ahí por ahí un montón de lenguajes. Tiene hasta mascarillas, por si acaso.
Las tiene aquí. Me encanta. Vale. Pues vamos a ver un poquito. Mira, la exageración.
Dice... Dice por aquí las herramientas. Él dice... Una cosa que dice que me parece interesante es que no le quita...
Dice, no le quita... No quiero quitarles nada a los ingenieros de Devin porque sí que se parece... O sea, que tiene cositas interesantes, ¿vale?
Tiene cosas interesantes, que es impresionante, que sí, que... Pero una cosa es esa y otra cosa es que hay muchas mentiras que no están bien
y que hay que justamente, pues, exponerlas, ¿no? Y aquí vamos a ver algunas de estas mentiras, ¿no?
Porque este claim de que no, que te soluciona el error, el problema este de Upwork.
Claro, lo primero. Lo primero es un poco raro. Es un poco raro este punto porque fijaos aquí que en el buscador
busca concretamente Road Damage. No es un poco raro que tú lo que dices es, vale, voy a solucionar un problema de Upwork.
Si vas a solucionar un problema de Upwork, ¿buscarías Road Damage? O sea, ¿buscarías exactamente carreteras dañadas?
Es un poco raro. Es una búsqueda muy extraña, ¿no? Porque podrías decir, yo qué sé, podrías buscar más el título,
podrías buscar, por ejemplo, Inferences Computer Vision Model, podrías buscar JavaScript Problems, yo qué sé.
Pero Road Damage, buscar Road Damage, ¿no es como que parece más bien una... algo plantado?
Algo que dices, ya sabes exactamente qué es lo que tienes que buscar porque es el problema que quieres.
No sé, es mi duda directa. Es como demasiado específico, ¿no? Pero bueno, fíjate, bueno, fíjate que dice eso, ¿no?
Fíjate que en la esquina, pues, está poniendo esto, tres segundos de vídeo, o sea, ya está...
No es un trabajo aleatorio. Esto dice que no es necesariamente engañoso, pero sí que es verdad que es raro, ¿no?
Y aquí, aquí tienes este título, ¿no? Dice, hola, estoy buscando inferencias del modelo de este repositorio.
Lo que tienes que entregar son instrucciones detalladas de cómo hacerlo esto en una instancia de AWS en EC2, ¿vale?
Tienes que proveer un tiempo estimado para completar este trabajo.
No responderé a Cover Letters sin una estimación.
Vale. Primer problema. Primer problema.
Lo que le pide aquí y lo que pone aquí es diferente, ¿vale?
Fíjate que dice, estoy mirando cómo hacer interferencias con modelos en este repositorio.
No le pide esto.
O sea, lo que está pidiendo aquí es algo totalmente diferente porque realmente lo que está pidiendo aquí es cómo hacerlo en una instancia de EC2 en AWS.
No le está pidiendo cómo hacer las inferencias porque resulta que en este repositorio ya casi que está hecho el cómo hacer las inferencias.
¿Sabéis? O sea, ya está solucionado.
Lo que quiere no es hacer exactamente eso.
Lo que quiere es cómo llevar eso a una instancia de EC2 de AWS.
Entonces, no le está pidiendo el código.
Ahí hay un poco de trampa porque, claro, ya está solucionado realmente.
Entonces, claro, aquí lo que está pidiendo es con este repositorio, hazlo.
Pero cuando tú te pones a mirar el Ritmi de este repositorio, ya hay un montón de cosas explicadas de cómo hacerlo.
Entonces, esto también lo explica, ¿no?
Fijaos que aquí lo compara, ¿no?
Fijaos que esto es lo que entrega al final, lo que entrega al final Devin.
Claro, lo que está entregando aquí no es para nada lo que está pidiendo en la prueba.
No está pidiendo nada de esto.
¿Veis? Está diciendo aquí, introducción.
Bueno, este reporte representa cómo hemos encontrado el análisis proveído en el repositorio y tal.
Pero, claro, no está explicándole cómo tiene que desplegarlo en EC2, en AWS.
No pone nada de eso.
Yo, la verdad, es que esto no lo había visto antes.
Ni siquiera nos había fijado.
Pero es que es verdad.
No está solucionando realmente esto.
Porque en el repositorio ya le está diciendo cómo tiene que hacer muchas de las cosas que ya está representando.
Pero, bueno, vamos un poquito más para adelante, ¿no?
Entonces, ¿cuáles deberían de ser los resultados del trabajo?
¿Cómo serían relevantes, no?
Estos eran los requerimientos que tenía un poco esto.
Y, claro, lo que le hemos dado es una cosa totalmente diferente.
Que al final lo que va a pasar es que esto va a generar más costes y más gastos, es lo que dice, ¿no?
Que está bastante interesante, ¿no?
Bueno, vamos con más cositas.
Vamos con más cositas.
Entonces, hay una cosa muy interesante que es lo que dice esta persona, ¿no?
Mira, aquí esto es lo que dice que es lo que debería haberse entregado, ¿no?
Qué instancia de cloud habría que utilizar, la imagen del sistema operativo, qué tipo de instalación, el entorno del CUDA Apex, la versión de Paytorch, cómo instalar el repositorio, porque el repositorio ya tiene solucionado eso.
Es solo cómo instalar el repositorio.
Entonces, bueno, ya veis que es totalmente diferente a lo que realmente hizo, ¿vale?
Bueno, aquí es un poquito los resultados que hizo Devin.
Hay un vídeo entero de 36 minutos, cómo lo hace él, ¿vale?
Cómo lo resuelve él, para que lo veáis.
Lo cual está bastante interesante, por si lo queréis echar un vistazo.
Vale, aquí vais a ver el repositorio.
Esto es lo primero que Devin dice, esto es lo primero que Devin realmente cambió.
Pero es que, fijaos, porque lo primero que dice que cambia de código es la versión de Torch.
Y cambia esta versión, ¿eh?
Veis aquí que dice, ah, tal.
Y le cambia la versión en los requisitos, ¿no?
Tuvo que cambiar algunas cosas.
Se puede decir que, claro, que es un cambio de código, pero no es un cambio de código.
En realidad, es un cambio de configuración.
Y entonces, ¿qué pasa?
Claro, dice que hay algunos problemas que los está generando Devin.
Algunos de los problemas que dicen que soluciona Devin, en realidad son problemas que está creando Devin.
Que esos problemas realmente no estaban, sino que Devin los crea por sí mismo.
Y aquí tenemos un ejemplo, fijaos, ¿eh?
Verás por qué en un segundo, algo aquí, aquí este archivo, ¿vale?
Dice, no encuentro este archivo directorio, ¿no?
Este jpeg, no sé qué.
Y vais a ver, ¿no?
Fijaos aquí, ¿qué se pone a decir?
Archivo no encontrado, no existe tal archivo.
Fijaos aquí, visualize detections.
¿Qué es lo que pasa?
Bueno, lo que pasa es que este archivo no lo encuentra porque no existe.
No existe, se lo ha inventado.
Se ha inventado este archivo.
O sea, dice, Devin se ha inventado este archivo que no existía y empezó a trabajar en un error que no existía.
Entonces, ¿qué es lo que pasó?
Que como no existía el archivo, lo creó y se copió.
¿Ves?
Está haciendo un montón de cosas en este archivo que realmente al final, pues, no existía.
Y al final le pone, ves, está haciendo cosas raras, le poniendo archivos, ves, un salto de línea ahí que no debería estar.
Un montón de cosas, ¿no?
Eso no lo haría un humano porque no tenía ningún tipo de sentido, ¿vale?
Aquí está identificando como errores o problemas que tenía.
Y fijaos aquí como hay errores, como los intenta solucionar.
Esto habla que este código tampoco tiene ningún tipo de sentido.
Que esta sería la forma correcta de hacer esto, ¿no?
Pero que está haciendo aquí como un bucle súper raro para justamente revisar que el archivo está, meterlo en un buffer, que es como la forma antigua que se hacía antes en C, ¿vale?
Que no sería la forma actual.
Pero que de nuevo, todo esto lo está generando Devin porque ellos quieren, porque este archivo no existía.
Y aquí viene lo más interesante.
Este archivo no existía, lo creó Devin copiándose el contenido del archivo de este mismo repositorio.
O sea, es que esto ya estaba solucionado.
Solo que Devin copió el contenido de otro archivo, le cambió el nombre y lo solucionó.
¿Veis?
Este es el archivo infer.pi.
Fijaos que en el propio Ritmi, paso a paso, está explicando cómo tiene que hacerlo.
O sea, el Ritmi le está dando ya la solución de cómo tiene que hacer lo que al final hace Devin.
Solo que simplemente este archivo infer lo copia y le cambia el nombre.
Empieza a trabajar en el error ese que, ¿os acordáis?
El error de, wow, es que encontré un error y se puso a solucionarlo.
Claro, es que el error lo crea Devin porque se inventa ese archivo y lo que hace para solucionarlo es copiarse el contenido de un archivo que ya existe y lo pone ahí.
Ya está.
Eso es lo que hace, ¿vale?
O sea, es muy loco, es muy loco.
Entonces se pone por aquí, que esto sería un desastre porque esto no sería la forma correcta de leer los archivos, ¿vale?
Entonces se pone por aquí, he replicado el trabajo, he utilizado esta versión, he estado haciendo yo todo esto.
Habla un poco de la versión que ha hecho él, cómo lo ha hecho él, ¿vale?
Cómo lo solucionó él al final.
Ta, ta, ta.
Que hizo una búsqueda en Google, que lo solucionó.
Bueno.
Y aquí tenéis un poco el resultado final entre lo de Devin y lo que hizo él, ¿no?
Pero que al final, fijaos que aquí tenemos como las marcas de tiempo, 9 de marzo a las 3 de la tarde y luego 9 de marzo a las 9 de la noche.
Entonces aquí queda la duda.
¿Cuánto tiempo estuvo trabajando este hombre?
El hombre del vídeo le dedicó 30 minutos.
El de Devin nunca lo sabremos porque tenemos dos marcas de vídeo que están en dos momentos distintos que no se sabe qué ha pasado en medio.
No se sabe si ha estado 7 horas y tal, pero fijaos que hay otros días, se pone a trabajar otros días, domingo a las 5 de la tarde, puede ser que sean días totalmente diferentes y tal.
Que hay otras cosas más raras, por ejemplo aquí, en este caso, que se ve un poco raro, pero bueno, aquí lo veis.
Head menos n, 5 results y le pasa aquí tail menos 5 menos n, 5.
Esto no tiene sentido porque esto es hacer exactamente dos veces lo mismo.
Hay un montón de pequeños errores así que son alucinaciones que no tienen mucho sentido lo que ha hecho.
Que de hecho él dice, mira, yo al final alucino un poquito lo que, o sea, el resultado final que ha hecho, pero al final se ha basado en el propio Ritmi que ya estaba, ¿no?
Me ha parecido un vídeo muy interesante porque le tomó 7 horas hasta para mentir, hay que saber hacerlo.
Ya, no sé, me ha parecido un vídeo que ha estado muy interesante porque no había visto un trabajo tan detallado de estudiarse la demostración y ver hasta qué punto era real, ¿no?
Y es curioso, ¿no? Que nos hemos creído, yo creo que esto tiene mucho que ver con todo el hype de la inteligencia artificial, de que es impresionante.
Creo que especialmente ahora tenemos que ser más cuidadosos de que no nos la cuelen.
Gracias.
Gracias.
Gracias.
Gracias.
Gracias.