¿Por qué debes dejarte de preocupar de la IA como programador?

midulive

Transcribed podcasts: 746
Time transcribed: 15d 5h 20m 39s

results.

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

El otro día vi un vídeo que os va a parecer muy interesante.
¿Sabéis el chico este que desveló la mentira de Devin?
Ha hecho otro vídeo hace unos pocos días que está muy chulo,
que dice ¿por qué los desarrolladores tienen que dejar de preocuparse
de la inteligencia artificial de que os va a quitar el trabajo?
No lo vamos a ver entero, no os preocupéis.
Está muy chulo, yo os lo resumo un poco.
Al principio habla de cómo desde hace mucho tiempo, siempre en los años 90,
ya estaban hablando de que nos van a quitar la inteligencia artificial,
nos iba a quitar el trabajo, todas las cosas que nos va a quitar el trabajo,
no sé qué, o sea, la introducción está muy chula, está muy bien.
Y aquí habla, aquí ya habla del crecimiento exponencial.
Esto es muy interesante, porque aquí lo que habla es que dice,
co-founder Iseo explica de por qué cree que la inteligencia artificial
es en una curva exponencial.
Porque muchas veces, mucha gente dice y habla de que la inteligencia artificial
está en una curva exponencial.
¿Estamos en una curva exponencial?
¿Qué creéis?
Porque yo la verdad es que últimamente creo que no.
Y él habla de esto y me parece bastante interesante.
O sea, sí que creo que hemos tenido un momento, sí que ha sido como exponencial.
No lo sé, igual dentro de seis meses vuelvo a decir,
ostras, pues sí que estábamos en una curva exponencial.
Sí que veo que sigue mejorando y que va mejorando totalmente, ¿vale?
Pero vais a ver por qué...
Límpiate la nariz, pero si la tengo bien, ¿no?
Hostia, no, tenía un poquito de polvillo, de verdad.
Hay que ver.
Entonces, habla de esto y dice, no hay crecimiento exponencial en este mundo.
Dice que en este mundo, él es físico y dice que no hay un crecimiento exponencial en este mundo,
que es una cosa que no existe.
Dice que en realidad, conforme te vas aproximando a un punto,
llega un momento que el rojo sería el crecimiento exponencial,
pero lo cierto es que este crecimiento exponencial llega a un punto de límite,
él siendo físico, donde al final te encuentras que se aplana ese crecimiento.
¿Por qué?
Porque no hay recursos infinitos en el mundo y al final siempre llegas como a un tope,
a cualquier tope.
Y esto pues pasa con el mundo de la programación, con la velocidad, con lo que sea.
Con lo que queráis, pues lo puede pensar.
Al final llega un momento que hay alguna limitación que hace que no lleguemos a ese crecimiento exponencial.
¿Y qué habla más?
Una cosa que comenta, esto es un artículo de Gary Marcus que dice que hay evidencia
que LLM están llegando a un punto donde ya se están disminuyendo los retornos.
¿Por qué?
Porque básicamente, aunque mucha gente dice que los LLM están avanzando de forma exponencial,
o sea, exponencial como exponencial, no que estén aumentando, que estén mejorando,
que están mejorando.
Ahora lo vamos a ver, ¿vale?
Mejorando, están mejorando y van a seguir mejorando.
Pero exponencial ya es otra cosa.
El tema es que cada vez hay que gastar más dinero para poder conseguir retornos,
mejoras de estos modelos de datos, ¿no?
Entonces, esto es un poco lo que dice, ¿no?
Todo el mundo piensa esto, que los LLM están avanzando exponencialmente,
pero ¿qué es lo que está pasando en realidad?
Bueno, pues aquí lo tenemos, ¿no?
Aquí tenemos que algunos recursos podríamos, no sé, lo que es el MMLU.
Massive Multitask Language Understanding, ¿vale?
Este es el benchmark, un benchmark que se suele utilizar con inteligencia artificial.
Y aquí podemos ver el crecimiento entre GPT-2, GPT-3, GPT-4, GPT-Turbo,
que es el último que salió en abril, ¿no?
Y se puede ver en cada uno del lanzamiento, pensar que GPT-4 tiene ya 13 meses.
Midu, la interpretación es muy literal.
Por lo general se dice que el crecimiento de aprendizaje es exponencial
para indicar que el comienzo no es el avance lento, pero luego avanza más rápido.
Claro, pero es que, exacto, no es que sea la interpretación muy literal, claro,
pero es que ese es el tema.
Es que el crecimiento ya ha sido rápido.
O sea, que lo que está diciendo él es, oye, los últimos modelos, el crecimiento ha decrecido.
¿Sabes? O sea, ya estamos viendo que cada vez está costando más.
O sea, que hay que incrementar la inversión y que cada vez más estamos viendo que lo que se retorna,
las mejoras, no son tan buenas.
Y aquí podemos ver esto, ¿no?
Por ejemplo, esto sería el crecimiento de las mejoras desde el 2020
y cómo al principio se podía ver un poquito ese crecimiento.
O sea, que puede ser un poco más parecido a que sea lineal que no que sea algo experimental.
Pero está muy bien porque habla del...
Yo no sabía esto de Chinchilla.
Familia de grandes modelos de lenguaje desarrollados por equipo de investigación
se llama Chinchilla porque es un desarrollo adicional sobre una familia de modelos anterior
llamados Tuzas, Gophers.
Ambas familias de modelos supera a GP3 en rendimiento.
Simplifica la utilización posterior porque requiere menos potencia y todo esto.
El tema es que al final lo que decía es, claro, es que ya ha llegado un punto
en el que Chinchilla, pese a ser más pequeño, es mucho más eficiente
y la diferencia que hay entre la eficiencia no vale la pena el coste que tiene, ¿no?
El coste que te da lo demás.
Y ahí pues teníamos un poco la mejora que te daba uno y el otro en cuanto a su eficiencia.
Lo cual está bastante bien.
Entonces, ¿qué pasa?
El tema es que una vez que te pones a pensar...
Y aquí es donde está la clave, ¿vale?
Ahí, ves, está aquí también.
Hay un montón de recursos que están hablando de la generación de código.
Que hay ya estudios que dicen que la generación de código...
No sé si os ha pasado esto porque yo sí que es una cosa que he notado.
Que desde que salió como ChatGPT, que sí que me pareció muy espectacular
y aunque GPT4 al principio sí que parecía que mejoraba bastante el código,
mi opinión últimamente es que la inteligencia artificial,
al menos de lo que sería el tema de generación de código cuando le preguntas a ChatGPT,
como un poco regulinchis, ¿no?
Es como que ya no es tan bueno como lo era antes.
O no me lo parece tan bueno.
Es como raro.
Es como que falla mucho, inventa mucho.
Es como muy tonto.
Es como que me da ejemplos raros.
Es como...
No sé.
Es como raro.
Es raro.
Es como que ya no me parece tan útil.
Y me gustan más herramientas como GeekHackoPilot o SuperMaven
porque tienen como mejor contexto
y van a intentar crear el código que se parece al que ya tienes.
Y entonces ya no falla tanto.
Que falla bastante.
Pero no tanto.
Es como raro, ¿no?
Entonces, habla un poco de esto, ¿no?
De que últimamente hay bastantes estudios
de que hablan de cómo está decreciendo incluso la calidad del código.
¿Y cuál es el problema de todo esto?
Y esto es lo que me parece...
Este punto, este Quick Recap,
esto es lo que está muy chulo.
Porque habla de cuál es el límite de la inteligencia artificial.
Esto podemos estar equivocados,
pero me parece como una hipótesis bastante interesante, ¿no?
Uno, sabemos que el crecimiento debe limitarse a algo, ¿vale?
Porque ya hemos visto que el crecimiento exponencial
llega siempre a un límite
porque los recursos no son ilimitados
y algo hace que se limite su crecimiento, ¿no?
Entonces, sabemos que algo tiene que parar esto.
Esto lo dice el bueno de Internet of Bags, ¿vale?
Dos, chinchilla implica, con el experimento que hizo,
que lo que podría ser que ponga ese límite
no es como mucha gente cree, que es interesante, ¿no?
Muchos de nosotros, yo creía que eran los recursos.
Yo siempre he pensado,
los recursos va a ser lo que nos ponga este límite.
Pero no dice que sean los recursos
en cuanto a potencia de GPUs y tal.
Son los datos.
Son los datos.
Y lo dice él.
Dice, podrían ser los datos.
Y los datos de alta calidad se están agotando.
O ya se han agotado.
Porque es que es verdad.
O sea, el tema es que datos de alta calidad,
GPT-4 o 4.5 o Llama 3 y todo,
tienen indecente cantidad de datos.
Si os fijáis, ¿dónde está la batalla?
¿Dónde están siempre hablando de dónde sacar y tal?
Pues el acuerdo de OpenAI con Stack Overflow,
el cómo han hecho el scrapping de YouTube,
todo, todo son los datos.
¿De dónde podemos sacar más datos y de alta calidad?
Porque conforme tú vas pillando más datos
y encima datos que ya han sido generados
por inteligencias artificiales,
que por lo tanto ha podido decrecer un poco su calidad,
el problema es que entonces empiezas a generar
el pescado que se muerde la cola.
El petróleo del siglo XXI.
Totalmente.
Totalmente.
O sea, es increíble porque al final es eso.
Es el tema de los datos.
Y conforme las inteligencias artificiales generan código,
y ese código, datos,
y esos datos se utilizan para entrenar inteligencias artificiales,
la calidad de los modelos va a ir decreciendo.
Y creo que eso está pasando un poco con el código.
Creo que el código que se está generando
justamente viene por eso.
Creo que por eso va a ser súper importante
que tengamos modelos que funcionen
con todo el contexto de nuestro proyecto
para que lo entiendan perfectamente.
Y tener modelos hiperespecializados
en una cosa en concreto.
Porque, por ejemplo,
echar GPT o GPT-4 lo soluciona todo.
Es como algo general.
Creo que la clave
será tener un modelo
lo más pequeño posible,
pero entrenado solo y exclusivamente
para ser bueno en JavaScript.
Que haya sido curado
con datos muy buenos para eso.
Creo que van a ir por ahí un poco los tiros.
Y va a ser muy interesante,
pero creo que de nuevo
se van a encontrar con el mismo bloqueo de los datos.
O sea, va a haber un momento
en el que van a tener esto.
Dice,
¿los datos de calidad se están agotando
o ya se han agotado?
Hay evidencia de que el progreso general
de LLM
se ha desacelerado drásticamente
recientemente,
aumentando solo linealmente
desde el 2020.
La generación de código
tiene órdenes de magnitud
menos de datos
y más corrección
que el inglés.
Y ya estamos viendo evidencia
de que la IA reduce
la calidad general
del código.
Puede ser
que se pueda inventar,
que pueda estar equivocado
y todo esto.
O sea,
yo creo que
lo podemos pensar.
Pero sí que me parece interesante
como hipótesis
de al menos pensarlo
y porque algo
van a tener que hacer,
van a tener que encontrar
algo nuevo
más allá
de la fórmula
que están utilizando ahora
para llegar
al siguiente nivel.
Eso es lo que creo.
Y mi sensación,
y de hecho lo voy viendo mucho,
es que cada vez más
hay como cierto...
No sé,
ese señor sabe mucho.
Sí, la verdad es que me parece
que está interesante.
Que a lo mejor
cuando lleguemos a Agui
y no sé qué.
Pero es que al final
hay que entender
que lo que estaban haciendo
de los modelos
van a ser tan buenos
como los datos
con los que se entrena.
Eso está clarísimo.
Y ante la falta de datos,
pues nunca llegará
a que tengamos
un mejor modelo
a no ser
que encuentre
una forma
totalmente distinta
para traer más datos.
Pues por eso
que OpenAI ha avanzado
en técnicas para analizar vídeos.
Por ahí escuché
que ha hecho
scrapping de vídeos en YouTube
para obtener más data
para entrenar.
Claro, claro.
Esa va a ser la batalla.
Entrenar, entrenar, entrenar
con cualquier dato
que puedas encontrar
de cualquier sitio
o de cualquier manera.
Pero llegará el momento
de que tú
scrapees datos de YouTube
y hay vídeos de YouTube
que son malos,
de código,
que están mal explicados.
Hay uno que se llama
Midudep por ahí
que el tío hace unos vídeos
muy raros
que se pone a hablar de código.
No, pero en serio.
O sea,
no todos los vídeos
son buenos de código.
Así que va a ser difícil.
Va a ser difícil
realmente que sepa
cuál es el bueno
y cuál es el malo.
Va a ser interesante eso.
Exacto,
hasta los vídeos
pueden ser generados
como los de Midudep.
¿Te imaginas?
¿Midu,
te parece más grave
que un profesor de universidad
diga a los alumnos
que la IA nos va a reemplazar?
A mí sí,
porque algunos quieren
salirse de la carrera
solo por venir
ese comentario a un profesor.
Me parece una tontería
que un profesor
pueda llegar a decir eso
porque creo que justamente
el profesor
sería el primero
que podrían reemplazar.
O sea,
podría ser el profesor
más fácilmente reemplazable.
Creo que un profesor
no tiene sentido
que diga eso
pese a que sea un trabajo,
imagínate,
periodismo,
traductor,
va a ser necesario
que una persona
de filología,
traducción o lo que sea
necesita realmente
tener un espíritu crítico
para incluso
puede ser
entrenar
inteligencias artificiales.
Muchos de estos modelos
para discriminar
malos datos
de buenos datos
justamente
se hace un fine tuning
donde se ayuda
de gente experta
en la materia
para saber
si las cosas
que están diciendo
son buenas o malas
o no tiene sentido.
Por eso se tiene que hacer
tanto arreglo del modelo
para que tenga sentido
las cosas que dice.
O sea,
que no os creáis
que va a desaparecer
así de una y ya está,
sino que va a haber
mucho acompañamiento
y yo creo que justamente
muchas veces va a ayudar
el hecho de tener gente
realmente experta
en las cosas.
De hecho,
yo animaría más bien
de decir,
oye,
tienes que aprender
pero tienes que ser muy bueno
porque vas a tener
que asegurarte
de que eres mejor
con la inteligencia artificial
porque la inteligencia artificial
va a tener acceso
a muchos datos y tal
pero tú tienes que ser capaz
de ser un experto realmente
y por eso creo que
tiene sentido en la universidad
decir esto.
Me imagino que
por ello es que
Stack Overflow
se está asociando
con OpenAI.
Claro,
totalmente,
se está haciendo por esto.
Lo malo es eso,
que Stack Overflow
tampoco te valida
que tenga buenos datos
o los mejores datos.
La IA en general
está más para potenciar
que para reemplazar.
Yo la verdad
es que no sé,
o sea,
yo sé que mucha gente
pues le encanta
y le tendría ganas y tal
pero este vídeo
me ha gustado mucho
os lo recomiendo mucho
que lo veáis
por todo lo que comenta y tal.
Puede estar equivocado
pero me gusta bastante
la,
no sé,
el tema de cómo lo ve.
Creo que tiene sentido
lo que va a decir
de que van a coexistir
durante mucho tiempo
que tiene mucho,
mucho,
mucho sentido
y que al final
hay parte que es burbuja
porque ahora
exactamente,
no sé,
brutal
pero habrá que ver
GPT-5
es exponencialmente
mejor,
va a ser GPT-5
cuando lo saquen este año
va a ser mejor,
¿sabes?
O sea,
porque dicen
hay rumores,
no se sabe,
que en la versión esta
GPT-2
que se ha puesto
la gente de Hipertextual
se le va a las manos.
A OpenAI
se le escapa su secreto,
el misterioso GPT-2
es de ellos
y podría,
ah,
la han cambiado,
la han arreglado,
la han arreglado,
lo han arreglado a medias.
El misterioso modelo
que estaba arrasando
en toda la silla
de momento parece finalmente
será GPT-5.
GPT-2
este que se ha filtrado
que dicen que puede ser GPT-5
que dicen que puede ser
una beta de GPT-5
sí que es verdad
que parece mejor
pero no parece
que sea exponencialmente mejor
sino que es mejor,
ha mejorado,
pero
¿cuánto le ha costado sacarlo?
¿sabes?
Ese es el tema, ¿no?
Y como cada vez
se está gastando más dinero
para tener retornos
un poquito más pequeños
que no significa
que sea algo malo
si de nuevo
va a seguir evolucionando,
no significa
que estén paradas
o que el día de mañana
no encuentren otra técnica
lo que se está refiriendo
es que esta técnica
actual al menos
tiene como un límite
por ahora, ¿no?
Que se acaben los datos
da igual,
una vez alcanzó la AGI,
claro,
pero el tema,
la AGI,
pero la AGI
no lo hará,
no llegaremos a la AGI
yo creo que con la forma actual
que estamos entrenando
los modelos.
Ya la IA
no se entrenará con datos
sino que será capaz
de aprender sin datos
sino por experiencia.
Claro,
pero es que
estamos de lo mismo,
o sea,
al final me parece
un poco lo mismo
que para llegar a la AGI
o sea,
él lo que está diciendo
es con los modelos actuales,
de la forma de entrenar
los modelos actuales,
que esto no significa
que el día de mañana
se encuentre,
haya otra revolución
y se encuentre otra forma
de entrenar y tal
y que puede ser,
pero no creo que
la forma actual
de la que están entrenando
los modelos actuales
lo puedan hacer con eso,
o sea,
la AGI
lo puedan construir con eso.
Yo creo que lo conseguirán
pero de otra forma,
lo tendrán que hacer
con otro tipo de fórmula
o lo que sea.
El valor agregado
de los avances
ya no son tan valiosos.
Claro,
ya digamos que
el coste sube más
de lo que te devuelve,
¿no?
El coste de oportunidad
pues está por otro lado.
Al final la IA
va a aprender a escrollear
en TikTok
y se volverá igual de tonto
que nosotros.