This graph shows how many times the word ______ has been mentioned throughout the history of the program.
Se ha anunciado una nueva inteligencia artificial que se vende como un ingeniero de software IA,
o sea, un agente autónomo que resuelve tareas de ingeniería con su propia consola,
editor de código y navegador, sin necesidad de que tú tengas que estar delante, ¿vale?
Se llama Devin, dice que es el nuevo State of the Art, o sea, lo nuevo de lo nuevísimo con la mejor tecnología,
y justamente dice esto, que ha pasado con éxito entrevistas de ingeniería técnica para compañías de primer nivel
y que ha completado incluso, que ha completado incluso, ojo con esto, trabajos de Upwork,
o sea, que ha dicho, aplica este trabajo y ha aplicado el trabajo y los ha completado.
Vamos a ver si esto es verdad, ¿vale? Ahora lo vamos a ver.
Cuando ha evaluado con ciertos parámetros este nuevo modelo para resolver tareas o issues de GitHub,
en el mundo real, en proyectos de código abierto del mundo real, Devin ha resuelto el 13,86% de las issues
de forma totalmente inasistida, o sea, sin ningún tipo de ayuda.
Esto es mucho mejor que los últimos que se hicieron de pruebas que podían llegar a pasar un 2%,
o sea, según esto, puede pasar, puede resolver el 14% de las tareas que hay en GitHub.
O sea, todavía habrá que hacer el otro 85%, o sea, que ya vemos que trabajo así de golpe, no nos vamos a queder.
Pero es verdad que la mejora respecto a la última vez, que era solo un 2% y ha pasado un 14%, es bastante.
Bueno, vamos a ver el vídeo de Devin. Vamos a ver el vídeo de Devin a ver qué nos parece a todos, ¿vale?
Este es el vídeo de Devin.
I'm Scott from Cognition AI, and today I'm really excited to introduce you to Devin, the first AI software engineer.
Ojo, que no se presenta ya como copiloto ni hostias, ¿eh? El primer ingeniero de software de inteligencia artificial.
Let me show you an example of Devin in action.
A ver, un ejemplo. Esta es la UI.
I'm gonna ask Devin to benchmark the performance of Lama on a couple different API providers.
¿Vale?
From now on, Devin is in the driver's seat.
Is in the driver's seat.
Estáis escuchando, ¿eh? Porque aquí está directamente hablando de eso, que está en el piloto, ¿eh? No en el copiloto.
Bueno, le ha dicho, oye, Devin, me gustaría que hagas un benchmark entre tres diferentes providers de llamados, replicate, together y perplexity.
Figura cómo tienes que utilizar los formatos de la API y escribe un script que envía el mismo prompt y parámetros a todos ellos.
¿Vale? Voy a mirar los formatos de la API de estos tres. Voy a crear un script para hacer este benchmark de este servicio de llamados.
Voy a empezar ahora.
¿Vale? Lo primero que ha hecho Devin, ya por lo que vemos, es como ha planeado todas las tareas que se supone que tiene que completar.
Fijaos que ha hecho este en mi foco y el plan es, ¿vale? Voy a investigar, voy a escribir el script de Python, implementar la respuesta, test, analizar, documentar, reportar.
¿Vale? Así que vamos a ver qué más se hace.
¿Vale? Paso a paso.
O sea, fijaos que además te va haciendo preguntas, ¿no? Porque aquí parece que dice, mientras tanto me gustaría que me des la documentación, ¿ves?
Le ha pasado la documentación. O sea, no la ha buscado él mismo, que ya sería increíble.
Y dice, vale, gracias por el link de Perplexity. Voy a mirar tal.
Ha abierto un navegador y puede sirviendo lo que se supone que está haciendo en tiempo real.
O sea, está estudiando ahora mismo la documentación. Vamos a ver.
Y ojo, la consola también puede ver.
O sea, el editor de código en otro lado.
Y el navegador.
Vale. Y va viendo la documentación.
Y va ejecutando código por aquí.
Fijaos que ya la ha contestado, ¿eh?
Dice, Scott, vale, me voy asegurado de que los nombres, no sé qué, no sé cuánto.
Aquí hay un error ahora. Vamos a ver qué pasa.
A ver.
¿Y qué hace con el error?
Hostia, pero una cosa que parece esto muy mágico, pero no os habéis dado cuenta que es bastante asistido.
Porque si os fijáis, claro, lo está pasando muy rápido, pero fijaos aquí.
Si os fijáis aquí a la izquierda, fijaos aquí a la izquierda.
¿Veis? Debugged, no sé, updated.
Pero ahí, como que le ha pasado.
Give you an updated secret.
Code Jam is not the same as Jamal.
Let me know.
O sea, que le está escribiendo.
Que le está diciendo todo el rato lo que tiene que ir haciendo, ¿no?
O sea, le está guiando.
Claro, es que, a ver, es increíble igualmente.
No digo que lo esté minimizando.
Pero cuando decía que era autónomo, yo me he esperado otra cosa.
Ahora tú eres el copiloto.
Puede ser, claro que puede ser.
Vale.
Vale, que han encontrado ya por fin.
¿Cómo?
Crew React App.
Está utilizando Crew React App, ¿eh?
Ojo ahí, ¿eh?
A ver, no pasa nada.
No pasa nada, pero me sorprende por esa decisión, ¿no?
Qué raro.
Qué raro.
A ver.
Vale, y ha desplegado la aplicación en Netlify.
Ah, porque fíjate que le ha pasado el token de Netlify.
O sea, y ha desplegado a Netlify todo esto.
O sea, ¿vale?
Esto...
Y esta sería la página web que ha creado.
O sea, la verdad es que impresionante.
No está nada mal, ¿eh?
Con gráficas y todo, haciendo una comparación de los tres servicios.
Muy bien.
Vale, y esto sería la comparación.
Ahora mismo, GPT-4, el modelo de GPT de OpenAI, puede solucionar 1,74 problemas de issues en GitHub de forma totalmente desatendida.
En cambio, Cloud 2 llega al 4,80.
Y según esto, Devin llega al 14%, que es una pasada.
Es un montón, ¿eh?
Sinceramente.
Dice, vale, los resultados de Devin son totalmente no asistidos.
Mientras que otros modelos son asistidos.
O sea, dice que aquí los Cloud 2, o sea, los resultados aquí, son de otros modelos que sí que son asistidos en el caso de que le dicen qué archivos tienen que ser editados.
Bueno.
A ver, a ver, a ver, ¿qué más dice?
Es raro, ¿verdad?
Como habla.
O sea, es como que está traducido, ¿no?
No sé, a ver, fijaos.
Yo creo, o sea, creo que está hecho el vídeo con inteligencia artificial, ¿verdad?
No sé, no sé, no sé, ahora, es una IA, ¿verdad?
Sí, sí, sí.
Es que ya, es que todo va a ser, todo va a ser ahora, como que todo va a ser tan raro.
El mundo va a ser muy raro, tío.
Ya no vas a saber lo que es verdad o no es verdad.
Es un rollazo, es un rollazo.
Vamos a ver la página de la gente de Devin.
Vamos a ver la página oficial.
Esta es la página.
Makers of Devin, la primera inteligencia artificial, software engineer e inteligencia artificial.
Bueno, ya veis que ahora mismo todavía no se puede ver mucho.
Vamos a ver aquí, no sé, Introducing Devin.
Pero no parece que todavía...
Tienen más demos, lo cual, eso está interesante.
Para empezar a utilizar Devin, por favor, ponte en contacto.
O sea, que hay que escribirles, hay que escribirles.
No hay una web en la que al final puedas hacer alguna cosa y tal, ¿eh?
Vamos a ver, había más demos.
Por ejemplo, pues mira, aquí, por ejemplo, Devin es increíble en extracción de datos.
En las últimas semanas he estado haciendo scrapping de datos de diferentes blogs con Edevin.
He escrito un scrapper para navegar la web, ejecuta el código y devuelve los archivos en CSV.
Tiene bastante buena pinta.
Lo más destacable es que es totalmente autónomo y tiene que hacer muy poco el prompt.
La verdad es que sí que tiene buena pinta el hecho de que tenga ahí el navegador, el editor y todo esto.
A ver, yo tenía por aquí más videos.
Le ofreces un tutorial online y le pides a Devin que lo lea y lo ejecute.
Mira, aquí hay otra demo.
O sea, que pueda aprender de un blog post.
O sea, le puedes pasar un blog post, por ejemplo.
A ver.
Dice, oye, Devin, he visto este blog post.
¿Es posible que pueda generar imágenes con texto oculto?
Hostia, a ver.
Le pasa esto, ¿vale?
Se pone a contestar.
Sí, no sé qué.
Quiero esto, lo otro.
Y aquí lo planea.
Se pone a escribir todo.
Claro, lo que sí que me parece muy impresionante es el hecho de que lo tenga todo integrado.
Eso sí que está bastante bien, ¿eh?
O sea, eso sí que está bastante bien.
Lo que me pregunto es qué modelo estarán usando porque me parece muy poco probable que esté utilizando su propio modelo.
O sea, será un modelo fine-tuneado, ¿sabes?
Que lo han estado mejorando.
¿Vale?
Aquí tienen algunos errores.
Algunos errores.
Ta, ta, ta.
Vale, y ya ha creado, fijaos que ha creado ya la imagen con esto.
Bueno, lo que pasa es que, claro, que siga un tutorial no me parece tan impresionante, teniendo en cuenta de dónde venimos, ¿eh?
No digo que no esté mal, pero que siga un tutorial paso a paso.
Bueno, tienes un book en un repositorio, puedes dejar que Devin investigue.
Vale, esto es pasándole una ISU.
Le dices, oye, Devin, tengo este problema en esta ISU.
¿Vale?
Dice, vale, no sé qué, leída de documentación, bla, bla, bla.
Fijaos que aquí se supone que lo que hace es, en la terminal, o sea, me imagino que además instalará todas las dependencias que tendrá que instalar.
No la puedo probar porque es cerrada, hay que pedir permiso para poderla probar.
O sea, que no la puedo probar así tan fácilmente.
Claro, no sé si puede esto funcionar con cualquier proyecto, cualquier tecnología, cómo levanta cualquier proyecto, ¿sabes?
Eso es lo que me sorprende, cómo lo hace tan fácilmente.
Y, claro, a ver, es que, claro, es que, a ver, este tipo de funciones de calculadora es que ya no nos sorprenden.
Esto tiene que ser cosa más.
Quiero hacer un fine tuning de un modelo llamasito usando la técnica culora que está en este repo, no te preocupes, Devin se encarga.
Y, por último, haciendo un trabajo real de Upwork.
Venga, este es el que más me ha llamado la atención.
Se supone que aquí lo que ha pasado es que han entrado en Upwork, han visto un...
Sí se puede probar, ojo, ojo, vamos a probarla.
Ahora la probamos, ahora la probamos, a ver, ahora la probamos, a ver cómo funciona.
Que veo que sí que se puede probar.
Aquí la han puesto.
Ojo, ojo, ahora la probamos, ahora la probamos.
Te pide acceso, aaaah, mmm, o sea, si le digo run my repo, my most popular, can you figure out how to run my most popular GitHub repo?
Y si le digo, aaaah, mmm, what would you like to use Devin for?
Content creation, autonomous development, x.com barra midudev, a ver qué, a ver si ya hay tiempo.
Pero ya serán notificados por correo cuando sea tu petición aprobada.
Ahora mismo estábamos priorizando Customers Enterprise, claro.
Así que nada, que no lo vamos a poder probar, ya lo digo yo.
Así que no, no se puede probar, ¿no?
No se puede hacer absolutamente nada, por lo que veo.
Está bonita, me gusta la interfaz.
La verdad es que me gusta la interfaz.
Pero, pero bueno, me gustaría que al menos se pudiera hacer algo, ¿no?
Que se pudiera hacer algo, así que nada.
Bueno, esta demo, vamos a ver esta demo, que es la que me parece más interesante, en la que básicamente dice que aplica un trabajo de AppWork y lo hace todo.
También os digo una cosa, creo que hay un poco de trampa.
Y os voy a explicar por qué.
Os voy a explicar por qué.
Porque realmente esto es un trabajo.
Porque dice, make inference with computer vision model.
Y mi pregunta del millón es, ¿realmente esto era una oferta de trabajo real o no?
¿O no es real?
Bueno, ¿la han preparado ellos o no la han preparado?
No lo sabremos.
Pero vamos a ver si funciona o no funciona.
Básicamente lo que te quieren decir con esto es que Devin podría trabajar por ti, ¿vale?
Esto es un poco la idea, ¿eh?
¿Vale?
Entra al repositorio.
A ver, puede ser verdad, ¿eh?
Vamos a ver si es verdad.
Se supone que sería como para encontrar errores, o sea, errores, ¿no?
O sea, como cosas en el suelo que están mal en una carretera, ¿no?
¿Vale?
Estoy mirando este repositorio, está hablando, se pone a instalar cositas.
Venga, ya hay errores.
Errores de instalación, ¿vale?
Dice, nada, siguiente, siguiente, ¿vale?
Se pone, está actualizando las versiones.
Ha detectado que necesita una nueva versión de Torch.
Vale.
Sigue con ello.
O sea, eso está chulo, el poder ir y ver paso a paso.
Eso me gusta un montón.
El hecho de que puedas ir viendo todos los pasos que ha hecho la inteligencia artificial.
Eso me parece bastante interesante, ¿eh?
Vale, va haciendo esto.
Pam, pam, pam.
Sigue haciendo el código.
Bueno, tampoco ha hecho mucha cosa de código, ¿no?
Por ahí, todavía.
Bueno, y ahí se supone que ya lo ha solucionado.
Que ya lo ha solucionado y ya ha hecho la tarea.
Ya está.
Ahí lo tiene.
Coste 100 euros al mes mínimo.
Bueno, veremos, ¿no?
Siento que esto va a ser un fiasco total.
La verdad es que, claro, suena como demasiado bonito, ¿no?
Es como demasiado, demasiado, demasiado bonito, ¿eh?
Además, además que aparte del gran trabajo que han hecho con el modelo,
la interfaz que han creado me parece espectacular.
Bueno, no está mal.
O sea, sí que me gusta, es verdad, y estoy de acuerdo que me gusta bastante...
Human Software Engineer.
Qué bueno.
Human Software Engineer.
Eso está bien.
Por ahora solo resuelvo el 14% de las issues de un repositorio.
Hombre, que no está mal, ¿eh?
No está mal.
Es verdad que nos queda todavía el 86% restante.
Pero, hombre, no está nada mal.
Cosas que me provocan un poco de cognition.
Sobre si es un bluff o no es un bluff.
Os explico.
A ver, una cosa que a mí...
A ver, es una empresa nueva.
He estado investigando un poquito, ¿vale?
Y es una empresa nueva que tiene solo 20 millones de inversión.
Que no está mal.
Y tiene bastante buenos nombres detrás de gente que le ha estado por aquí,
que les ha apoyado.
Entre ellos, he visto, y me ha sorprendido,
que estaba el fundador de PayPal.
Pero más allá de ese, no conozco...
Yo personalmente no conozco nada...
Mira, está el cofundador de Stripe.
Está por aquí Sara Normus, que...
Nada.
El que más he visto, así que me ha sorprendido,
ha sido el cofundador de Stripe.
Que ahí he dicho, ostras, no está mal.
Pero, mira, de Coinbase también.
Founders Fund.
Por ahí podemos ver esto.
Y que solo tienen 20 millones de dólares.
20 millones de dólares de inversión.
No sé si eso le va a dar para mucho, la verdad.
Porque el ejecutar este tipo de cosas son un poquito bastante, bastante caras.
Veremos si llegan, si consiguen buenos clientes.
Y entonces, pues funciona correctamente el producto.
Y lo podemos ver.
Hay demos de gente que parece ser que sí que tiene acceso.
No sé si estarán preparados o no.
Va que...
Esta es.
Peter Thiel, Bucket Startup Launcher's World First AI Software Engineer.
Devin.
Peter Thiel era el cofundador de Paypal.
Están justamente en California.
Y, bueno, aquí está como parte del equipo.
Que han puesto esto.
Y que van a ser capaces de crear una website o simples juegos en 5-10 minutos.
Esto lo dicen algunos usuarios ya a Blomberg.
Que lo han dicho.
¿Un medallista olímpico?
¿Cómo?
Gold Medalist Coders Build.
Ah, bueno, o sea, no olímpico, no olímpico.
Sino que vete a saber de dónde ha venido la medalla de oro, ¿eh?
Berry Young Company.
10 personas.
O sea, es un equipo de 10 personas.
Y han levantado 20 millones de capital de Funders Fund, de Peter Thiel...
No lo sé, amigos.
Mi pregunta del millón.
¿Es humo o no es humo?
Me extrañaría que Peter Thiel metiese dinero si no fuese verdad.
Pero también es verdad que ahora mismo hay una cortina importante en el mundo de la inteligencia artificial
que hay que tener un poquito de cuidado.
O sea, sí que hay unos avances impresionantes.
Creo que sí que es verdad que...
Todo muy lindo, pero muéstrame el código.
Eso es verdad, ¿no?
O sea, creo que yo lo voy a pillar con un puntito de respeto.
En el sentido de que, oye, tiene buena pinta.
Se ve bien.
Pero no sé por qué no me lo creo del todo.
O sea, no me creo del todo cómo es la cosa.
Que sí que tiene pinta de que algo real hay.
Pero no sé, no sé, no sé.
Este tipo de cosas hay que pillarla.
Es que ahora veo como que hay tanto hype con la inteligencia artificial
que la gente se está metiendo a saco, metiendo mucho dinero en cualquier idea
que más o menos tenga un poquito de idea
y que te enseñe en tres o cuatro demos que lo pete y ya está.
No quiero decir que este sea el caso, pero sí que hay que tener cuidado.
Gracias por ver el video.