logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

y ya tiramos con esto estamos estamos arrancando en directo lo primero que
pregunto rápidamente a la gente del chat si se ve todo bien si se escucha todo
bien habla un poquito
vale a ver se te oye se te oye a ver yo estoy aquí hablando
yo y whisper no se escucha todo perfecto vale estaba estábamos riéndonos aquí
ya detrás de la pantalla porque porque todo es igual y todo ha cambiado al
mismo tiempo o sea yo no sé quién estará por aquí que haya visto el
directo anterior esta es una segunda parte en realidad esto es la
continuación de una charla de casi tres horas a comienzo de años un 30 de
enero donde si lo buscáis estamos exactamente igual o sea nada ha
cambiado andrés tiene el mismo encuadre está en el sofá estábamos exactamente
igual yo estoy quizás la calidad ha mejorado aquí la cámara está mejor pero
yo estoy también igual y eso significa que es que en realidad ha pasado muy
poco tiempo no me decía andrés frente a esto creo que todo lo que vamos a
hablar hoy todo lo que ha pasado en estos últimos ocho meses que podríamos
haber dicho lo hacemos al próximo año no justo 12 meses más tarde para que
cuadre al año es que da igual es que podríamos haberlo hecho cuatro meses
más tarde y ya tendríamos tema para hablar un buen rato
hoy estoy impaciente estoy nervioso es como estas charlas siempre son súper
chulas son bastante interesantes salen muchas claves de aquí y además siempre
que hay carne en el asador pues pues queda mejor y yo creo que este año está
siendo frenético está haciendo una locura los amos comentando y creo que
a vosotros va a gustar bastante pero bueno esta charla no sería posible si
no tuviera aquí a mi lado andrés torrubia gente que hay gente que dice
que si eres mi avatar que si eres un clon de mí que si hay que tener barba
y no tener pelo para dedicarse a la guía todas estas preguntas me llegan
andrés que tal estás qué tal muy bien más que el avatar tú sabes hay un
modelo que le pasa si te genera todo como tú tú tú clon malo lo has visto
que te un alguien parecido pero no es igual no es como con pocos bits
bueno voy a aprovechar para mover esto para acá y así lo tengo perfecto nada
bueno andrés torrubia quien no lo conozca os lo presento muy rápido aunque
quien haya seguido las charlas anteriores pues ya sabrá que es un
habitual del canal andrés se le puede definir como un crack es el puto amo de
de la ia del deep learning y de muchas otras cosas más andrés es un perfil que
mola mucho porque cae muy bien en las tres patas que yo creo que son
fundamentales en el mundo de deep learning y también te expandes a otras
tecnologías pero bueno el mundo del deep learning tanto en academia está
dedicado a hacer investigación te has metido en competiciones de kagel eres
gran master hablábamos la última vez que te faltaba una medalla no sé si la
tienes la medalla de oro en solitario y cuanto más tiempo espero más difícil
es a luego si quieres comentamos porque porque en kagel también avanzó todo en
los últimos claro pues mira que caen no me metió se han mirado para nada no sé
yo de hecho no sé ni cómo está así que luego si tal lo comentamos
te has metido en competiciones en china y ha ganado de conducción autónoma o sea
bueno además todo aprendido de forma autodidacta no porque al final esto ha
sido tan nuevo todo que no había otra opción eso por un lado luego también
tienes la vertiente empresarial tienes empresas has tenido éxito con todo con
todo esto y conoces muy bien también el ámbito de aplicación de la de la ia no
a nivel de proyectos y cómo convertir esto en cosas de valor lo comentaremos
luego y luego la parte académica con el instituto de inteligencia artificial con
este máster de inteligencia artificial que es el que patrocina aquí también
este directo y por el por el que también hablaremos luego que también es muy
interesante que esta idea de vamos a convertir un poco todo lo nuevo que va
saliendo de ia en cosas en cosas reales no vamos a enseñar a la gente la parte
práctica de todo esto con todo esto andrés el resumen es que es el crack el
puto amo y siempre que viene para el canal pues nos le vamos a hablar estos
son charlas que o sea hemos conectado antes de empezar y es que no nos hemos
dicho ni hola o sea ya estábamos hablando de que si abajo nivel los
transformers que no sé qué bueno solemos hacer estas conversaciones solemos
tener bastante a menudo y siempre es muy guay tenerte aquí en el canal y poder
hacerlo de cara al público para que la gente aprenda
el título de este directo es nos hemos equivocado vale y es una pregunta
un poco abierta y que vamos a atacar por dos lados la primera vez vamos a
comparar nuestras predicciones que hicimos a principios de años de cómo
creíamos que iba a avanzar el mundo de la idea en los próximos meses y vamos a
ver dónde acertamos hay aciertos y dónde nos equivocamos que también hay
fallos vale dónde dónde hay fallos y luego quiero que analicemos un poco
juntos todo el avance tan acelerado que estamos viviendo ahora este 2022 que yo
sinceramente me está doliendo en la salud casi ya de lo frenético que está
haciendo toda esta carrera todo lo que está pasando este año y que yo creo
que ya sí podemos empezar a ver esta realidad de ostras que la inteligencia
artificial sí es la revolución que intuíamos pero todavía no se estaba
cristalizando nos está materializando pues pues pues sí y quizás más todavía
más allá de lo que pensábamos entonces un poco pensar y recomendarle a la gente
qué oportunidades hay en el horizonte y también qué amenazas y un poco hacer
también reflexión sobre si lo estamos haciendo todo bien si a nivel técnico
qué cosas nos faltan a nivel ético si nos hemos dejado cosas por el camino en
este esto de ir tan rápido a veces hace que a lo mejor no tomemos el camino
correcto entonces bueno que tenemos tema para rato y yo creo que vamos a
arrancar la gente que está por aquí por el chat podéis hacer preguntas yo si
andrés seguro tenga también ahí el chat abierto si soltáis alguna
interesante y yo la consigo ver a tiempo os la leeré e igualmente tenéis la
opción de super chat podéis hacer una portación para apoyar el directo y
también la pregunta saldrá y marcada y más fácil que la leamos pero bueno
hablando de preguntas andrés primera pregunta
la inteligencia artificial ha golpeado un muro
tú qué opinas
la pregunta que hace es una pregunta capciosa y hace carlos y bueno ahí en el
mundo del mundo de la inteligencia artificial es que la inteligencia artificial es un
campo muy grande hay una faceta por la cual yo creo carlos que estamos hoy aquí
que es por el deep learning por el aprendizaje profundo son las raíces
neuronales pero luego hay otras facetas de la inteligencia artificial otras
otras formas de digamos de crear inteligencia artificial pues que es la
ia simbólica es otro tipo de otra forma de hacerlo y dentro de tres es curioso
no porque dentro de esos dos mundos habéis visto si veis la historia de la
ia cuando empezó la ia en los años no sé después de la segunda guerra mundial
estaba pues la se inventó el perceptrón no las redes neuronales hubo una una
ia simbólica y luego se las redes neuronales pues dejaron de funcionar y
ahora pues ahora son lo que funciona es muy gracioso no porque tú ves los
grupos de investigadores imaginaros que son si habéis ido a la universidad o
estés en la universidad pues los profesores de dos departamentos no me
gustaría pensarlo así entonces el departamento que hace redes
neuronales y el departamento que hace y a simbólica y ahora el departamento que
hace es rico
y aparte la gente respira autógrafos literalmente es así le dan premios
princesa de asturias que aquí por ejemplo este año sucedido también en
españa que han premiado algunos investigadores muy reputados y eso y
entonces y eso un poco ha sido así y aparte hay algunos de estos profesores
que durante mucho tiempo han estado un poco maltratados durante mucho
tiempo porque donde mucho tiempo era lo que se llama el invierno de la ia y
digamos no tenían financiación y tal no y ahora digamos está al revés esta
gente ahora son pues las estrellas de rock y los de la ia simbólica están un
poco olvidados no pues en ese campo hay algunos yo creo que hay uno muy famoso
que además coge coge bien el testigo de de esto y digamos hacer una labor que
hace falta en llorento a siempre en la ciencia y en todas las facetas hace
falta una labor crítica que en este caso yo creo que es gary marcus y
argumenta y ha tenido debates muy buenos que os recomiendo que veáis con
su avengio por ejemplo hace debates muy buenos y entonces gary marcus ha hecho
esta pregunta bueno no hace una afirmación y de una afirmación pero fue antes
antes antes de saber lo que va a hablar ahora que era pues que si el que si el
deep learning el aprendizaje profundo no la ia que el deep learning se había
chocado contra un muro ya para java de dejaba de es un artículo que en una
revista de no científica me parece era en una revista de divulgación sobre que
había chocado contra un muro y argumentaba pues yo creo que el caso
donde más se ve de golpear el muro es conducción autónoma me parece carlos
que el caso de aplicación que todo el mundo esperaba que tendría que estar ya
funcionando yo mismo en mi hijo ahora mismo tiene 17 años este vamos dentro de
poco cumple a 18 yo cuando me metí en conducción autónoma de hecho pues
digamos que tenía dudas de que le hiciera falta sacarse el carne yo soy un
optimista tecnológico yo pensaba que ya de ahí va a estar resuelto el año 2023
lo pensaba hasta el más al final él sí que es tecno optimista no pero él decía
bueno ya en 2018 ya habrá robotaxis y habrá estas cosas y todavía no ha
llegado pero porque más complicado de lo que parecía entonces fíjate entonces
este es un caso súper súper interesante no argumenta hay muchas
cosas no argumenta que que sí que hay casitos de ejemplo muy impresionantes
donde está muy bien pero cuando ya hay que ponerlo en serio en medicina en
conducción autónoma la la digamos la forma de aproximar la inteligencia
artificial con redes generales golpea un muro esto ya se separa para él considera
que faltan elementos todavía aplicar dentro de las arquitecturas dentro de
los sistemas que se están montando que falta algo que es este que siempre
justo lo que falta es lo que lo que él investiga y lo que él defiende que es
el tema de la ya simbólica lo que pasa lo que a mí me pasa con gary marcus que
es quizás el icono no sobre todo esto es que el muro y la gente se lo dice el
muro se va moviendo él te dice la deep learning ha golpeado un muro porque
mira como gpt 2 gpt 2 no gpt 3 mira como gpt 2 es incapaz de hacer tal cosa y
entonces luego sale gpt 3 y te hace esas cosas y te hace más cosas entonces él
coge eso y busca el fallo que es muy fácil buscar el fallo en los sistemas
no también con darí que él comentaba que un si tú le pides que te dibuje un
caballo montado en un astronauta no te lo sabe hacer te hace lo contrario que es
el caball el astronauta montado al caballo porque es un poco donde va el
punto más evidente del aprendizaje de la ia pero bueno es que luego saldrá dali
3 o stable diffusion 8 y solucionará esto y de hecho hay formas de toquetear
el input para que salga bien y te dirá bueno pero es que falla en otras cosas y
a mí el perfil de gary marcus es como le tengo un amor odio me gusta leerle y
verle y le respondo en twitter y a veces me pico con él un poco este año
empezado a responderle pero pero bueno no me parece que esté haciendo una crítica
realmente al 100% constructiva está guay porque agita un poco la mente y te hace
pararte a pensar en realmente lo estamos haciendo bien pero bueno a mi carlos el
tema y si esto vaya a predicciones no realmente la ampolla que levanta gary
marcus y a mí me hace pensar es la conducción autónoma y esa y además
vamos a unirlo con algo que ha pasado este año que es que andre y carpat y se
fue así unido a sabéis el nombre que es casi oxymorónico el full self driving
que que no es ni full
se va tú dirías no vamos a ver a ver yo yo me pongo me gustaría ponerme el
lugar de andre y carpat y decir si yo estuviera digamos liderando en tesla la
y está a punto imagínate y esto lo sabría él y realmente está a punto de
salir el coche autónomo definitivo que funcione te irías en ese momento claro
tú quieres estar ahí tú quieres ser el hombre y lo ves al revés no y la parte
contraria ostras si realmente hay un poco de de de irresponsabilidad es una
palabra fuerte pero creo que hay que sacarla no por parte de tres la de
sacar un una tecnología potencialmente peligrosa al mercado
tampoco quieres estar ahí no por contra entonces a mí me hace a mí eso me hace
mucho que pensar en el tema de eso me lleva entonces eso es genuina la
pregunta quizás con autónoma me parece que todo el mundo la
subestimado al final me parece que el que parecía más loco que el que parecía
más loco con diferencia es el que menos la subestima el de coma el de coma el
que parecía este que se ponen unos solos de programación que es increíble este
él dice no no mira yo quiero hacer un nivel 2 un o un asistente digno lo que
dice es quiero hacer una cosa que no sea full self driving pero quiero hacerla
perfecta sabes y es por ahora subjetivo y claro también lo dice después de
haber recibido unas cartitas importantes de la agencia gubernamentales americanas
porque al principio también iba lo loco también iba a montar el prototipo donde
fuera no el porque es un kit es un kit que te puedes pillar y te hacen el
proceso de o sea te puedes montar todo el coche de conducción autónoma en tu
vehículo claro hay varias partes y esto digamos oía en esta conversación
carlos lo vamos a ver una cosa que está pasando con la ia no es digamos el punto
donde es una empresa quien de alguna manera la notificación no sé si si es
mía terminales que petan básicamente
literalmente tengo modelos entrenando ahora mismo está entrenando modelos el
avatar artificial a tiempo real que está ejecutándose en algún momento fallará
claro aprovecho que la gente me confirme por el chat si se le oye bien si está
todo perfecto para para seguir en la conversación sin preocuparlo es como la
la la el episodio de ricky morty donde la simulación si empieza a lagear
porque hay hay paradojas del tema de tesla solamente porque lo quiero
comentar luego claro me hace pensar si el tesla bot ahora que está sacando es
un poco una huida hacia adelante hacia otro sector un poco para decir bueno lo
del coche autónomo ya es ya hemos quemado quizás toda la parte de
publicidad que se puede sacar de esto y ahora sólo nos queda demostrar que se
puede conseguir ahora vamos a saltar al siguiente paso y es el robot humanoide
pero bueno eso si quieren lo respondemos luego si eso es súper importante además
me gusta hablar de eso fíjate donde donde sale el tema de la de la de
conducción autónoma no y coma a mí no tengo la duda realmente yo
fíjate durante durante mucho tiempo el problema que está habiendo con yo
que todavía pienso que sigue siendo percepción
sabéis que con un fotógrafo tiene varias de varios desafíos no y te es la
apuesta en la parte de percepción vale percepción es lo que la palabra indica
no he dado los sensores del coche hacerse una entre comillas una idea
computación al del entorno vale para al menos saber lo que hay no luego ya hay
otras partes que es planificación vale otras partes más complicadas no que es
oye pero al menos si tú ves con las cámaras que hay un camión pues saber
que hay un camión no entonces no vas a ir a chocarte con el camión porque sabes
que es un camión luego hay una parte de oye de decisión no si te metes en un
sitio porque pensabas que la gente que había en la acera no iba a cruzar o por
el contrario si ves que hay niños pequeños y es un día de colegio pues
tú mismo a lo mejor como conductor humano sabrías que los niños pueden
saltar detrás de una pelota vale eso fíjate si quiere un razonamiento
no entonces parece ser que el problema de la esta según dicen casi resuelto yo
viendo los vídeos aún no lo había resuelto porque se sigue chocando
contra conos y y son son fallos muy graves de percepción y el otro y el de
planificación aún no hemos llegado no como tú dices el muro se mueve lo que
parece es que que no está sobre todavía que no lo veremos así que hacer una
predicción si lo veremos en el 2020 yo te digo que no en el 2023 tampoco el
autónomo que puedas comprar así en cualquier entorno ya pero ya sabes que ya
hay no coches de guaymo me parece que funcionan pero potenciados por más
sistemas de percepción de radar y todo esto que de hecho también sorprende
justo la noticia esta semana de tesla deshaciéndose de otro de los sensores
del coche no sé exactamente cuál es así de ultrasonido radar o que ultrasonido
ultrasonido no pero es como sorprende que al mismo tiempo que no terminan de
llegar a ese a ese porque al final es un poco lo que le queda de esta
distribución de la mayoría de cosas de situaciones que te pueden ocurrir en
carretera le falta esa cola larga esa parte del final de casos más extraños
pero al mismo tiempo siguen descuasando el coche quitándole piezas y bueno
apostando todo por por la visión yo para responder a la pregunta a los que
está chocándose contra un muro aparte de que se mueve el muro vale si esto
fuera vamos yo es que lo veo yo personalmente como ingeniero para poder
utilizarlo lo veo al revés si tú me dices por ejemplo oye en chips vale
estamos llegando estamos chocando contra un muro te diría si vale hay un muro
físico se llama efectos cuánticos por debajo de dos nanómetros y dificultades
hay ahí hay ahí hay una limitación física no sé si será un nanómetro o no sé
cuántos hamstrons que hay no se asalta hay que cambiar el paradigma vale ahí
estamos ya a punto de llegar ya si si hemos bordeado la de mur vale pero en
deep learning no ver si que se llega un muro si cada vez le pedimos pues eso
cuando lo hagamos igual de inteligente que un solo humano pues me imagino que
alguien como gary marcus o gary marcus tira no pero es que no es igual que el
super ordenador del autoestopista galáctico no sea jugar a eso ya no te
he sentido pero ahora mismo no de hecho es que estamos viendo alfa tensor del
otro día es que es un caso para mí muy brutal de que lo quieres comentar el
caso lo comentamos ahora pero más adelante para ir por orden como si
tuviera la vida ordenada yo he hecho un poco por río empezado escupir aquí en un
papel de ideas que quiero comentar y está todo desordenada pero bueno para
para ir un poco por orden cronológico de lo que ha ido saliendo este año pero
pero si estoy de acuerdo contigo no al final gary marcus el ingrediente que que
plantea que faltan estos sistemas y que yo creo que este año se ha empezado a
ver ha sido este concepto del word model no falta un modelo del mundo que
la ia pueda entender no sólo por percepción pues cuando tengo esta masa
de píxeles o estos patrones hago esto sino que pueda entender lo que tú decías
oye estoy viendo unos peatones que son unos niños entiendo que los niños
pueden hacer esto esto y esto y entonces voy a planificar en ese sentido nosotros
tenemos un modelo del mundo la inteligencia artificial crees a día de
hoy el deep learning los modelos que tenemos a día de hoy crees que están
consiguiendo construir este modelo del mundo tal cual se está entrenando en
2022 pues fíjate vamos a ir por diferentes
tipos de modelos no la inteligencia con modelos de lenguaje es que son modelos
de lenguaje los puros vale que son entrenados con texto y lo que se está
viendo es que aumentas la capacidad de estos modelos y parece ser que el modelo
del mundo que construyen es mejor es un modelo completo no porque de entrada no
han visto imágenes por ejemplo no han visto no pero podrías pensar si existiera
que no existe pero imagínate porque una persona aunque sea gente aunque
fuera ciega y tampoco pudiera y tuviera ni tuviera tacto ni ni olfato vamos a
darle solamente el sentido es que ni siquiera sería el del oído sería como
un sentido de que te llegan ya las frases no es que se nos hace muy difícil
pensar así pero construir un modelo del mundo basado en texto yo creo que que
construye un modelo del mundo en los modelos fundacionales estos que se están
entrenando con todo vale y se les da igual textos reales que ficción que
periódicos que artículos científicos y a lo mejor el modelo lo obtiene todo
distinto pues habría que supervisar para decirle que es verdad y que no pero una
persona también se le hace entonces yo creo que empiezan a tener un modelo del
mundo y decir la verdad carlos mejor que yo esperaría que yo espera siendo sólo
texto y luego lo que sorprende fíjate a mí lo más sorprendente que ha pasado es
que en cuanto a un modelo de estos lo haces multimodal y voy a gato y voy a
gato de repente cobra otra dimensión y eso que gato es un modelo que por
diseño porque lo quieren hacer en tiempo real hay un problema de latencia
es una palabra que vamos a empezar a oír cada vez más en modelos
aunque aunque como digo aunque es un modelo de risa en tamaño comparado con
estos gigantescos que también sorprende sorprende todo lo que es capaz de hacer
y parece que tenga un modelo del mundo bastante bueno porque ya es muy brutal
multimodal significa además de todo tiene le puedes meter vídeo y te
intenta digamos y estos modelos están entrenados a simplemente para
entendernos así con lenguaje coloquial humano a predecir lo que va a pasar y
lo que va a pasar en texto es la siguiente palabra resumiéndolo y en
imagen en una imagen sola es el siguiente pixel también resumiéndolo y
en sonido pues lo siguiente que va a ocurrir de alguna manera nuestro
cerebro algo así tú crees o sea la la cosa es siempre
siempre está que cuando van avanzando los modelos computacionales que tenemos
siempre lo vamos asemejando al cerebro siempre se decía que el cerebro cuando
la época de las máquinas de vapor se empezó el concepto que no sé si será
cierto de que tenemos presión de que tal luego cuando llegó la electricidad que
si las conexiones eléctricas y ahora está todo lo llevamos todo a la ia y
ahora ya dentro de la ia hablamos ya de secuencias pero si es cierto que yo
muchas veces me analizo a partir de estos modelos claro es que por ejemplo a
veces para llegar a un resultado para llegar a una idea si no empiezo desde el
origen que a lo mejor se me ha activado en mi memoria y empiezo a recorrerlo no
llego hasta el resultado o sea no hasta que no hago este proceso secuencial de
decodificar no llego no no es posible que yo pueda activar ese esa respuesta a un
dato a partir de decir quiero el dato sino que tengo que hacer como esa
secuencia de paso entonces si hay algo de modelo autoregresivo y al final es
cierto que nosotros vivimos en la dimensión temporal y todo lo que vamos
consumiendo es una serie temporal y todo lo que vamos escupiendo todas las
palabras dependen de la que yo he dicho anteriormente entonces hay algo hay dos
partes yo creo hay dos partes una parte consciente y una subconsciente hay una
parte subconsciente que sí que tiene que predecir algo porque a veces es casi
instintivo si tú vas andando y te giras no analizas lo que va a pasar tú
instintivamente te giras porque de alguna manera el modelo que tienes del
mundo dice que si una si viene una pelota rápido un predices que te va a
dar vale un tema muy subconsciente no y eso lo hace una persona y lo hace
también un mosquito no lo sé pero el de luego un perro si también lo hace y una
anima con un cerebro más más fácil más sencillo con un perro también no
entonces los modelos de lenguaje o lo que pasa por volver no
son un modelo yo aquí lo que veo carlos a mí lo que me sigo que no se habla
mucho no es la diferencia de escala en energía y eso sí que todavía o sea y
es muy curioso es vamos a pensar qué hace bien la ia
aquí empieza lo que está consiguiendo la ia hoy no el año pasado o hace ocho
meses hablamos de la de la inteligencia de vida general hablamos un montón de
ideas de vida general no yo personalmente he ido gravitando no al
final no sé porque también moveremos lo que es la la y no a medida que nos
tenemos pero pero lo que sí que veo es las personas a los cerebros biológicos que
tenemos lo que hace muy bien es dos cosas que sí que no es efectividad
vale que es conseguir algo sino eficiencia conseguirlo con superpoco
recursos vale que gastamos 30 vatios y también muy pocos ejemplos eso también
es muy sorprendente no o sea somos muy eficientes en energía y en datos vale
eficiencia en datos y ahí no veo ningún progreso la verdad no he visto progreso
eso que de hecho bueno si el tema de las arquitecturas ha cambiado muy poco este
año o sea a mí me sorprende que los papers de gato bueno alpha tensor usa
alfazero no han usado ni a museo no sé exactamente por qué porque supuestamente
museo que si no recuerdo mal era posterior a alfazero han utilizado la
lógica de alfazero papers como gato y muchos otros que usan transformers no
usan los perceivers no usan los estas nuevas versiones de los transformers que
son más eficientes sino que siempre tiran del modelo stand alone porque
entiendo que el stack está más optimizado para estos modelos y es
mucho más fácil ponerlos andar que implementar estas nuevas versiones no es
como que no ha habido muchos avances en ese en ese ámbito es una de las cosas
que yo sí que quería comentar de hecho para mí whisper es el mejor ejemplo de
eso es como lo que en inglés llaman vanila no vanila es vainilla pero es
como si por lo que sea sin cogerlo tal cual viene no es el helado parece que
ha sido pene y diciendo los miedes chicos podéis hacer estas cosas o sea
porque no estáis entrenando vosotros no creo que pene hay que era de dar ese
mensaje ahora mismo que este año bueno con con con los modelos de transformers
efectivamente cuando tú es el transformer por defecto y luego le
metes truquitos pero sin reinventar arquitectura
funciona muy bien también puedes decir desde el punto de vista pragmático si
lo que prima ahora mismo en el 2022 y lo estamos viendo es la velocidad y la
velocidad me refiero en sacar el artículo en sacar el producto o en sacar
el ápico ahora mismo es lo que prima es la velocidad y está en tu marquete este
en inglés no en el emprendimiento entonces claro ahí cuando tú haces
ciencia más básica diptec es más lejano no de la idea o de la
implementación al producto entonces si tú sabes que entrenando a escala y con
muchos datos vas a conseguir algo mejor lo haces punto es una cuestión de poner
ahí dinero y poner datos porque sabes qué va a ocurrir lo otro es más
incierto se ha intentado entonces que estamos diciendo la eficiencia para el
transformer sabéis que es lo que se está en la arquitectura que ahora mismo
digamos que lanzó google por en realidad por dentro del transformer
hay una pieza clave que se llama la el inglés es el self attention la auto
atención y eso es todo gira en torno a eso que en el fondo además si te mentes
un poco más bajo es la render una más básica el perceptron vale multígrafes es
una fully connect en una capa todas con todas todo en todos es algo muy sencillo
pero hecho optimizado para el hardware que luego hizo google eso es el digamos
el corazón del transformer funciona muy bien ya lo vimos con el gpt con todo
con ver con todo y qué ocurre qué problema tiene entre comillas el
transformer que es poco eficiente bueno no es el poco ni mucho digamos que la
eficiencia a nivel digamos de complejidad pues funciona digamos
necesita muchos más recursos tanto en tiempo como en memoria de forma
cuadrática con la entrada entonces si tú le metes una un texto de 10 palabras
pues gasta 100 porque es cuadrado pues le pones 100 un texto de 100 palabras
ahora gasta 10000 esto es porque por el propio mecanismo de auto atención que
te obliga que cada token se se evalúe con el resto de tokens y ahí donde sale
un poco este n por n en el cuadrado que entonces claro eso en cuando trabajas
con con fragmentos pequeños pues tampoco es mucho problema pero el motivo por el
cual gpt 3 no puede escribir de un libro entero con contexto y no perdiendo el
estilo hoy en día es por eso porque no tiene a día de hoy a lo bestia si lo
fuéramos a hacer a lo bestia no podría más porque explotaría la memoria aunque
sea de un super ordenador de hecho la ventana de un gpt 3 no sé cuántos
tokens son pero son de son del orden de miles no son no son de más de mucho más
entonces es un problema 6 tu has mencionado el perceiver se han intentado
hacer aproximaciones que no tengan este problema del mecanismo auto atención
del transformer en general y todas en el artículo académico parece que son
súper buenas pero luego las intentan poner en temas grandes y ya no funcionan
bien no son competitivas pero en los últimos tres meses que esto tres meses
ha salido varios tipos de auto atención la una de las que más prometedoras
parece que se llama flash vale flash nación flash hay varias no hay flash y
estas ya al menos al menos en memoria en memoria ya no son cuadráticas es
increíble en memoria si tú piensas cogete las tarjetas de vídeo no le
sabéis que bueno ya ahora ya como los de bitcoin y nada de esto ya ha soltado la
estrella pero a ellos siempre es igual vale porque ellos podían minar con poca
memoria para aprendizaje profundo la memoria es crítico es crítico pero es
mejor tener 24 gigas que 12 yo creo que a mi audiencia eso los más técnicos si
lo sabrían pero por lo general al resto le ha dado igual el tema de la memoria
hasta que ha salido stable diffusion con el dream booth y de repente todo el
mundo quería y era ostras 24 gigas ahora está a 12 ahora está 10 ahora caben un
colap a esa memoria nos referimos a la web ram de las tarjetas gráficas de la
gpu efectivamente entonces esto es un este tipo de transformers con un
mecanismo de atención exacta fíjate de atención exacta no es una aproximación
de atención exacta que no crece cuadráticamente con la memoria al menos en
tiempo así pero en memoria no hace que se van a poder entrar en modelos más
grandes a esta carrera de incrementar fíjate es que es muy curioso y vamos a
unirlo con con el alfa tensor que es en el en sabéis que en informática pues
siempre se inventa y desde antes de informática o sea desde calcular algo
pues hay una manera como muy bestia de calcular cualquier cosa por ejemplo el
caso más el caso más uno de los más conocidos es multiplicar matrices no
que es pues si os acordáis o habéis estudiado múltiples matrices pues era
coger una fila por la otra y las cubas con los deditos y tal entonces eso si tú
haces una de 2 x 2 y 2 x 2 pues te sale una formulita más o menos sencilla pues
hace no sé en los años 60 me parece alguien se dio cuenta que podías
organizarlo otra manera simplemente cambiando el orden de conmutativa tal y
y podías hacer ahí ahorrarte una multiplicación hacía más sumas y
tarrabas una multiplicación que parece poco pues eso pues supone optimizar
muchos algoritmos a eso esa búsqueda de optimizar y da lo mismo el tema es el
resultado es el mismo no es una aproximación que quitas decimales y es
casi igual no da igual vale pues ese tipo de trucos vale de
cambiando el orden de las operaciones se ha hecho desde siempre la transformada
de furrier que también era es cuadrática pues la transformada rápida de furrier
que bueno la inventó gauss a la vez que otro
transformada rápida que se en informática se utiliza mucho para audio y
demás pues es una manera rápida hacer las operaciones de otra manera para
llegar al mismo sitio y esto es esto fíjate lo interesante de esto es que en
deep learning se está empezando a rascar ahora que yo alucino que yo alucino que
que se empieza a rascar ahora que es toda una idea del camino que por
recorrer todavía por eso a mí cuando se dice esto de hit in a wall no de
golpear el muro y dices ostras golpearás el muro cuando lleves 30 años como con
la ley de mur o 50 años sabes que ha sido que predices muchas veces cada año
que ya se acaba y se aún nos falta mucho para golpear el muro solamente por
tema de cómputo porque vamos a encontrar un montón por juntar todo lo
que estás comentando y parece el tema de marketing de envidia pero lo de la ley
de juan tiene mucho sentido esto que comentaban en envidia de cómo muchas
fuerzas exponenciales se van juntando no sólo el la aceleración que hay en la
parte de computación sino el deep learning está sujeto a tantas mejoras que
van exponencialmente cada uno en su ámbito pues por ejemplo desde usar la
propia inteligencia artificial para hacer que el la primitiva de computación más
utilizada que la multiplicación matricial ahora sea un poco más rápido
que parece una tontería pero lo que ha dicho de pasar de 8 operaciones a 7
operaciones con el método de estrenza en este eso ya te hace un ahorro en el
número de ciclos cada vez que por ejemplo quieras entrenar a una a una
red neuronal porque al final esas multiplicaciones matriciales se aplican
millones y millones de veces no estamos hablando de que haya pasado de 8 a 7
sino que para diferentes tipos de tipos de multiplicaciones de matrices pues a
lo mejor han bajado en 30 operaciones en 15 que también se puede optimizar para
un hardware determinado aquí hablando de alfa tensor y eso es sólo una
aplicación que ya te acelera pues todo todo ese pack además de muchas otras
cosas te regalo pero es que luego también hay mejoras en las arquitecturas
hay mejoras en la cantidad de datos hay mejoras en el tipo de aplicación que
encontramos aparecen nuevas arquitecturas como los modelos de difusión y te
cambian el paradigma por completo aparecen hasta modelos de negocio y
también vamos a entrar ahí en algún momento que es no lanzamos esto open
source entonces ya los tiempos ya no están sujetos a la velocidad del ritmo
de la academia o de los departamentos de marketing de determinadas empresas
sino que ahora es la comunidad todo con todo y este directo le llamé
nos hemos equivocado por no poner singularidad en mayúsculas porque eso
lo estoy reservando para el siguiente vídeo pero porque no no creo que
estemos rozando ni siquiera donde ya lo ven robots no sé ahora y no creo que
estemos usando la singularidad pero lo que se ha vivido en septiembre se ha
sido en el ámbito de lo de lo creativo si empieza a parecerse una creatividad a
una singularidad en la parte del de lo generativo y quiero y también lo
comentaremos y ahora ya voy a intentar poner aquí orden pues vamos a tanto de
los temas y divagando pero pero hablaremos también de cómo dalidos
stable diffusion dream fusion para generación de 3d hay un montón de cosas
que han salido en una franja de tan poco tiempo que las aplicaciones al menos a
nivel de aplicación si tú piensas conectar una cosa con otra hostia si no
hay oportunidades para emprender y hostia si no hay amenazas también para muchos
modelos de negocios que ahora mismo estará sentados en ciertas cosas y que
van a cambiar yo sé que esto te activó 20 temas en la cabeza bueno como
resumirías carlos el 2022 si hay que decir algo vale que sería yo tengo una
parte yo tengo una palabra clave para mí y es open source 2022 ha sido el año en
el que el dippler ni se ha vuelto open source y eso ha sido ha sido potente nos
ha puesto en un carril o sea la función de desarrollo que estamos teniendo ha
cambiado de pendiente y ahora vamos mucho más rápido vamos a darle vamos a
cuñar un término si te parece carlos porque yo creo que open source
yo me acuerdo el código del gpt 3 como código de open source de código fuente
literalmente es código abierto el código de la vida casi siempre ha sido
abierto claro ha pasado fíjate tú estabas y no pensó pero que quieres
decir es tambores por favor open 2.0 el 2022 es el año del open 2.0 porque es un
nuevo tipo de open ya era open source la ia de el fuente abierto y tú te podías
bajar el código del gpt 3 y no hay un hay un contribuidor en github que os
recomiendo que los que se más técnicos que los sigáis que se llama lucid rain
se llama fil guang vale el alias en github es lucid rain este está siendo
además ahora sponsorizado por por esta ver y tia y vale y él tiene una
reimplementación de transformers y en su que se llama x transformers y en su
página en su en su repositorio te pone este un tráfego así y te pone esto es
gpt 3 lo que pasa es que no lo puedes ejecutar y tampoco puedes entrenar pero
ya es allá era el código abierto entonces ahora lo que ha pasado que es
paradójico que esto es lo que realmente open a ir
oye que han sacado whisper vamos a concederle eso que nos han sacado
whisper como lo sacaron en plan oye que también nosotros
lo que no era lo que no era abierto era
bajar de los pesos aquí que haya podemos tener varias cosas tenemos el
código que eso es muy fácil para empezar puede tener la publicación que
es un poco la receta de cómo montar ese código luego tienes el código que
tampoco sirve para tanto más que para curiosear puedes tener el dataset que
eso ya es útil porque habilitas al menos que otros laboratorios que tengan
acceso a la computación puedan coger las arquitecturas entrenar y intentar
generar el mismo su producto que eso también tiene trampa porque no es tan
fácil como decir pues cojo el código lo ejecuto y ya sale hay mucho de por
medio de errores y ajustes de parámetros un montón de cosas y luego de ahí te
sale el producto final que es el software 2.0 que tú que tú acuñas que
es el modelo es el modelo donde acuñado por andrey carpat y bueno si exacto sí
sí pero que tú acuñas como op en 2.0 que me gusta 2.50 eso sí
lo podemos instante ahora mismo se me ocurrió open 2.0 pues ahí es donde ya
estamos hablando del modelo y el modelo es lo que estamos viendo todos con
stable diffusion que es el archivo punto seca pt por ejemplo el archivo de
checkpoints que te lo puedes compartir te lo puedes descargar lo puedes colocar
en tu interfaz de usuario y ejecutarlo claro eso es magia eso es magia eso es
compartir ya ya no es tanto la parte experimental de investigación sino es
compartirte la herramienta para que gente que no que se que no le tienen ni
que interesar la el deep learning la use y a eso ya cambia cosas allá pasas a la
barrera del usuario efectivamente yo estoy contigo el open 2.0 es un cambio de
paradigma este campo fíjate y voy más lejos
hay una cosa que no ha ocurrido yo creo que en la historia de la humanidad a este
nivel nunca incluso en ciencia colaborativa y es la esta comunidad
carlos y tú lo veis en twitter cada día a mí la velocidad de
alimentación de compartir información incluso gente que compite entre ellos en
en twitter en directo esto no ocurre en ningún otro campo aunque sea científico
están los medios tú te dedicas a biología vale y tú trabajas pero no
compartes el día un día antes y lo pones si te esperas lo envías a una
publicación y a los nueve meses sale el artículo y a lo mejor un laboratorio que
está haciendo una investigación en tu campo lo ve pero fíjate lo está viendo
en realidad un año después de que tú lo has hecho es eso en los ciclos de
alimentación de feedback entre equipos distintos es lento porque que el
mecanismo de compartir que es publicaciones que es el que había lo
frena es salta por los aires ya antes del open 2.0 que esto es y esto es nuevo
no demasiada gente lo interioriza este a este tiempo que ha ocurrido
y podemos intentar analizar los factores pero a mí me parece increíble la
velocidad de compartir y tú de repente puedes meterte en el repositorio muchos
están en abierto de gente de forma ahí en su casa que hace cosas lo comparte
hace directos ahora te ves el ándio carpati que se pone a hacer directos a
implementar el tiene grad esto yo lo reflexionaba en twitter hace tres días
que yo en septiembre me he sentido realmente estresado por lo que estaba
pasando porque era yo este mes estamos haciendo más directos aquí en el canal
porque es que no tengo otra forma yo no me puedo sentar a editar un vídeo
porque mientras edito un vídeo ya está saliendo otra cosa que me desactualiza
me ha desactualizado que tengo y yo eso sí lo he vivido que dentro de mi posición
es la más cómoda que simplemente contar lo que está pasando yo me preguntaba el
que tiene que hacer investigación y el que tiene que emprender dentro de esta
dentro de este carril de velocidad tan rápido no que que no te da tiempo ni
escribir un paper o sea ni el preprint o sea antes ya ya en el campo de
learning ya sabemos desde hace tiempo que aquí no se destila lo de mandar a
conferencias lo de publicar en nature sólo está para deepmine y unos pocos
más sino que que directamente pones el preprint en arkaif y ahí un poco
open review y tal pues sirve para hacer este proceso de verificación pero es
que ya ni te da tiempo a escribir el paper porque en el momento en el que
publicas la página de github ahora mismo ya si por ejemplo es algo relacionado
con imagen con generación de imágenes ya hay alguien que te va a estar haciendo
la implementación de stable diffusion y es una locura
instantáneo sí entonces sí estoy contigo el open 2.0 éste esto también
se ha empezado fíjate es que parece que se ha comprimido el tiempo en el 2022
nosotros vivimos el directo en enero había estaba dali1 no nos imaginábamos
nadie hasta hasta verano el la palabra clave era generación no por dar y 2 más
o menos por dar y 2 y ya era ya era la primera parte que has dicho de oye
muchos modelos de negocio se pueden ver amenazados
empresas no desde diseñadores hasta webs de foto stock un montón no y de
repente o sea es increíble y de repente aparece de la nada no de la nada no pero
ahora eso lo comentamos ahora que me ha gustado en escena
el mar no con con el con el stable difusión estabilidad y que es una
empresa y cambia el paradigma y hace open realmente open
voy a añadir una cosa aquí con el tema de este bol difusión a nosotros que
estáis si estáis oyendo este directo tenéis me imagino que nadie aquí no
sabe lo que ha pasado pero si alguien se acaba de apuntar a meterse ahora porque
bueno le acaban de despertar de una cámara de hibernación para y se ha
despertado en este momento en el 2022 salió en verano el dar y 2 que genera
imágenes con textos son modelos de generación de texto y imagen que es lo
que yo creo que el tema del 2022 es empezaba es los modelos de texto a
imagen se como en el mundo hace fast forward un mes y medio y el open 2.0 de
esos se come a esos eso es el resumen del 2022 y
y aquí lo que ha pasado también es curioso que es que open ahí o sea esto
empieza open ahí que todos sabéis que era originalmente se funda como una
empresa sin ánimo de lucro open ahí cambia era en un momento
determinado cuando la estructura entra san alman y se hacen como se hacen con
ánimo de lucro pero limitados y hacen como fide limited profit limited profit
pero siguen digamos que oye comparado con una empresa tipo microsoft
tienen menos profit porque al menos está limitado en microsoft y google no está
limitado vale y lo gracioso y parabólico es que ahora resulta que una
empresa que es privada y estabilidad y ella es una empresa privada que
aparece entre comillas de la nada que vamos a comentar lo que esto me ha
gustado que lo ha dicho me lo ha dicho antes entre bambalinas no sé si lo
quieres decir ahora en directo si a ver aquí hay que a mí me gustaría que yo
lo este campo no sé si da para la prensa rosa de la ia pero sí que da para el
periodismo de investigación de tecnología vale porque yo a mí no me
encajan los números o sea ver el estabilidad y punto ella y es una
empresa con ánimo de lucro por dar el contexto el que no lo sepa estabilidad y
todo esto que está impulsado y que ha salido de la nada desde este verano la
cara visible que tiene esta empresa es una persona que es emad que además puede
buscar su entrevista con ya ni nunca me acuerdo el nombre ya ni el chel el
canal este es muy bueno muy bueno de deep learning tiene una entrevista muy
chula y donde se le ve a él no y él te cuenta su visión y es un tío que tú lo
ves y ostia tenía dinero era millonario y dijo pues voy a dedicar este va a ser
una inversión voy a meter mucha pasta a entrenar un modelo que va a ser open
source y lo voy a compartir con el mundo porque esta es mi visión y hasta
entonces y ahora bueno él sigue sigue caldeando el ambiente de cualquiera que
le siga por redes sociales es espectacular cada día open ella y saca
algo y él dice qué guay que open ella y haga esto pero nosotros lo vamos a hacer
mejor en muy poquito tiempo soon ya lo veréis es muy chulo y que está además
apostando pues muy fuerte por el open source entonces sobre esto sobre esto
fíjate y vamos a poner en contexto que es open ahí se funda antes de entrada
tiene da ponen muchísimo dinero mucha gente está ahí en los muros detrás hay
mucha gente que pone dinero y luego cuando hacen el cambio al a los
beneficios estos limitados acotados microsoft pone mil millones pone mil
millones entonces claro aquí la sorpresa es una empresa privada de inglaterra que
pone el dinero según él dice una persona que es él que ya dice que es que
es dice es muy rico no digo estras pero muy rico vamos si tú ves lo que cuesta
entre estos modelos muy ricos no son no puedes es solamente poner un millón y
poner decenas de millones y este y más tampoco yo te digo yo no soy periodista
de investigación viene del mundo de las finanzas pero ha sido ha llevado un
fan o sea si tú me dijeras y no conocerlo y esto está bien es como en
papel pinta mucho peor a mí a mí no me di cuenta de la historia y pensaría que
cuenta pero que es una empresa 100% que no tiene ningún tipo de restricción de
lucro la persona que lo monta viene de la gente que está como demonizada que es
los fans valés los malos siempre son los fans no alguien que viene del mundo de
fans y el dinero no se sabe bien de dónde viene detrás ahí yo creo que no
sé yo creo que que posiblemente igual que apenas y nos dio una sorpresa cuando
puesto a eso yo no sé nada no tengo información extra nada pero pero
simplemente por números no me cuadra pero por temas y me encanta que esto
ocurra porque esto tiene que ocurrir lo que está ocurriendo y lo que está
ocurriendo con con apenas y era casi un insulto también te digo a open ahí se
le critica pero está en mucha mejor posición que google mucho más dentro de
lo que utilizar claro exacto sea es cierto que open y hay para ser open y
todo esto se le critica que no sea tan abierto pero ha hecho más por la
accesibilidad de los modelos de lo que ha hecho google google a mí me encanta
que saque en imagen que saquen imagen vídeo pero lo siento es que si no me si
no lo podemos probar si tienes a palm y no lo podemos probar si lo único que
sabemos de tus modelos es que un chiflado lo ha probado y se ha creído
que tiene conciencia pues no por ahí no no podemos ir no pero bueno pero es
cierto que open y hay tampoco es que sea en este espectro en esta dimensión de
qué tan abierto son no están en el punto de estabilidad y tú entonces tu
tu punto entiendo que puede ser hay dos opciones o una que haya gente por detrás
hay que le interese que esto esté pasando no sé si a ver a ver no no pero
un tema de números que es claro a mí los números no me cuadran los números
luego la motivación creo que hay una motivación económica que sale que es
imagínate cógete un mundo de software 1.0 las bases de datos vale oracle no y
cógete un mercado que tienen los bancos de billones un mercado muy grande y de
repente llega alguien y monta mays ql la versión de código abierto digamos lo
que tiene una piedra lo que hace es coge un mercado que valía
me invento de los números un trillón lo reduce de valor de manera efectiva
porque al darlo gratis reduces el valor del mercado pero ahora te quedas tú con
el el el mercado con el valor reducido y eso ha pasado en tecnología muchas
veces por la mecánica lo que quiero decir con esto es que puede haber un
caso de negocio totalmente válido y bueno para todos y no todo el mundo gane
es decir a mí lo que me sorprende que ojalá yo encantado de estar equivocado
y sea el súper filántropo no he equivocado ojalá que esto que los
números salgan tampoco estoy diciendo pero que me sorprende mucho por la
cantidad de dinero que es oye todo lo que están queriendo hacer con resultados
una cosa es decir estos dicen y hacen están financiando y lo y se ofrece
abiertamente en twitter en twitter y más dice oye si hay gente buena que esté
haciendo cosas chulas en abierto decírmelo que yo le financio claro y
el guan tumba lo financia
armaru se llama armaru que he trabajado en google es un investigador que se
llama david ja me parece no de nombre si de google de huel en japón se ha ido
hasta viti punto de ya y fasta y que no sé si era dinero será simplemente una
colaboración normal y ahora mi jugador va a hacer una de repente el curso de la
nada se ha coordinado ha coordinado toda la comunidad de golpe es como que es
cierto que lo que ha hecho y da igual por dónde pueda derivar esto si a lo
mejor se convierte en una estrategia de marketing o de filantropía puede ser
ambas opciones y ambas son válidas pero lo que está claro es que ya ha hecho el
efecto de coordinar a toda la comunidad ha cogido los diferentes grupos a lion a
todo lo que estaban montando así un poco un grupo de discord y los tiene
focalizado y hay ha sentado un precedente que también es súper
importante que es open y hay google amazon meta no sois las únicas que
podéis entrenar cosas tochas y además de la mano también de que hay que decirlo
de haguin face que también están haciendo una labor brutal también si
han entrenado este año a bloom que también era un poco el motivo del open
source no el open 2.0 realmente no realmente ese es el ahí yo creo que
tenemos que seguir muy bien y lo que ha generado esto a esto es un poco
intrahistoria no de cotilleo y tal bueno es tema aparte que siempre bueno pero lo
que lo que está generando y realmente es increíble es
y es muy buena entrevista que hace nada más yo me he escuchado varias sobre él
hay muchos temas y tú ya lo has dicho antes carlos éticos que empiezan a estar
en la primera línea no éticos o sea es que no me diría para ética porque esos
hay caes en el charco seguro sí pero hay y son éticos también pero pero hay
problemas de propiedad intelectual quiero decir éticos por poner los nombres
y apellidos y a los con un ángulo real oye los modelos de generación de imagen
de tienen problemas de propiedad intelectual y hay un debate muy grande
y seguramente la respuesta sea distinta en cada país como ha pasado algo que no
hay nada universal las leyes cosas legales en europa son ilegales en eeuu
y viceversa esto seguramente será igual ahí y eso va a generar un montón de
problemas y la manera digamos claro el problema lo has medio dicho antes no
cuando tú dices que google tienen modelos muy grandes y no nos saca hay
una parte muy importante que es que estas empresas tienen
mucho que perder vale tiene decir personalidad jurídica independiente
también la tiene esta de élite y es una empresa se la juega exactamente igual
entonces tiene quizá menos es menos es menos un sugulento de cara me entiendo
que a juicio y patrimonio etcétera aunque ya está valorada en según dicen en más
de mil millones pero lo que ha generado realmente es que no pueden ser lo que
lo que está demostrando es que va a generar mucha más innovación si no hay
un custodio vale palabra importante un custodio de lo que está bien y está mal
eso es lo radical porque cada apenas y decía tú lo ponías no
mickey mouse no me quemado o ucrania ucrania ui ucrania no sale tampoco dejaban
por motivos políticos y es como el tema y el tema sabes lo que pasa es que
siempre se encontrará alguien vete al extremo y por irme un tema polar en irán
vale cosas que damos como por buenas está muriendo la gente en irán claro
entonces en cualquier parte entonces yo creo que lo que va a decir es oye mira
es como si a fabrico cuchillos lo que él dice es el uso que realmente se hace en
general de cuchillos es bueno sin cuchillos si no tuvieramos cuchillos estaríamos peor
claro y con ellos claro que va a dar gente que los utilicen mal para para
maldades claro vale pero más sin cuchillos claro pero aprovecha entonces
porque ya está ya que estamos en este punto lo vamos a visitar el motivo de
la de la doble intención de la pregunta de nos hemos equivocado todavía no hemos
entrado a la parte de las predicciones que ahora lo comentamos pero bueno la
segunda parte era si lo estamos haciendo bien si estamos siguiendo el camino
adecuado dentro del tema de la ia y uno de los de las paradas que quería
visitar era justo esto una cosa que se le puede criticar a este por diffusion es
que no han hecho quizás esta labor de plantearse si lo que están haciendo es
ético o no es decir yo he escuchado además diciendo está bien sacar esta
tecnología porque al final es tecnología es mejor que ya esté en el
mercado para que podamos preparar todas las herramientas y todos los sistemas
para poder detectarlo para que la gente lo conozca y la misma analogía con lo de
los cuchillos pero yo me pregunto si realmente se ha hecho bien es decir si
se ha pensado realmente las implicaciones éticas por ejemplo de cara
a los artistas cuando usas un dataset como lion que sabido es tiene imágenes
públicamente disponibles pero que tienen derechos de propiedad intelectual
porque por ejemplo paralelamente he visto una captura de respecto a un modelo
que están entrenando en audio y en sonido ahí donde ya sí se están
planteando ir con cuidado por el tema de copyright y tal en privado yo he podido
hablar con gente de empresas que me han indicado que bueno lo que dicen las
malas lenguas de que no se atreven a lo mejor a por ejemplo y hay hacer un
sistema de generación de música utilizando todos los datos de internet al
igual que han hecho con los de los artistas es porque el lobby de las
discográficas y todo lo que está detrás de esos datos es mucho más potente que
podría ser artistas que se coordinen entonces yo me pregunto si realmente se
ha hecho bien y si también se ha planteado la parte problemática de estas
herramientas no el hecho de que con dream booth no está esta forma de
entrenar a stable diffusion de hacerle un fine tuning con 15 fotos mías 20 fotos
mías ya tengas completo control de mi de mi imagen de poder generar cualquier
cosa antes también se podía hacer con photoshop evidentemente pero la pregunta
es si se ha planteado hacia dónde nos mueve esto si se ha hecho demasiado
rápido todo no frente a lo que open a yai o google con motivos varios entre
ellos también el económico pero también estaban controlando a partir de sus
comités éticos yo me lo pregunto no tengo la respuesta clara claro yo
evidentemente no tengo la respuesta ni voy a defender tampoco en atacar a
stability yo digo hay una reflexión que sí que te hago y es en un campo un
poco distinto no por poner un poco como la tecnología nos hace tener un diálogo
como sociedad para decidir qué cosas queremos qué tipo de sociedad queremos
o no y es por ejemplo cuando se inventa las cámaras vale las nociones que
tenemos de privacidad cambia digamos las nociones que tenemos de privacidad
cuando se inventan las cámaras o no o te pongo el ejemplo la guía telefónica
no me hace mucha gracia por ejemplo de unos garros no se te acordarás de un
libraco amarilla con las páginas amarillas amarillas no oye y porque no
está en la cárcel ahora mismo pero con cadena perpetua el que fue presidente en
su día de telefónica este o sea esto sería totalmente ilegal ahora mismo en
un libro donde está todo el teléfono y el nombre de toda españa pero tendría
que estar en la cárcel no entonces por qué no pero es buena pregunta porque
porque digamos lo que se puede hacer con tecnología con lo que haya con los datos
cambia las expectativas de lo que pensamos que está bien o está mal si tú
te das cuenta de forma aséptica y de ingeniería da igual no daría igual o
sea sigue siendo lo mismo pero claro en el momento que yo puedo cruzar datos
analizar cruzar las fotos y no sé qué cambia la noción de privacidad de guía
de páginas amarillas o de que hayan cámaras y cualquier persona me esté
grabando antes me veía en un pueblo las señoras que estaban en el típico
chiste de las abuelitas que estaban ahí sentadas que te tenían fichado no podría
decir oiga no miren no me miren que están llorando mi privacidad no pero era
ya digamos que lo tenía asumido no entonces esto va esto evidentemente va a
cambiar no tenemos las leyes que tenemos a todos los niveles es que por eso la
ética es más grande está por encima de la etica se mueve las leyes habrá que
ver y se podría dar una respuesta si el día de hoy se puede no se puede
entrenar estos modelos con con los temas de
propiedad intelectual y de data mining en europa y en eeuu parece ser en muchos
casos sí es curioso tal cual está escrito la ley pero la ley se hizo y no
se planteó que se podía hacer esto posiblemente si se planteara por si
igual cambia que es lo que yo creo que esto va rápidamente a generar cambios
de leyes entonces yo tampoco creo que a mí si es sincero y esto es mi opinión me
parece que que que la sociedad responderá sabes de cómo tiene que responder siempre
sabes no es las leyes cambian no y si no nos parece bien como sociedad no nos
parecerá bien y pero es un debate complicado porque por una parte quiere
decir oye cogete el ejemplo de si hay un colectivo que a lo mejor quiere
salvaguardar en formato gremio algo que colectivamente para sociedad es mejor
oye los monjes no estaría muy de acuerdo con la imprenta y tú les preguntas a
los monjes de la media si era si es ético liberalizar la conocimiento del
acceso a seguramente montarían un sanedrin y te dirían que no es ojo a
quien preguntas bueno ojo no según quien preguntes que va a decir una cosa u
otra no habrá que ver entonces es complicado no tengo la respuesta y la
parte del copyright de los data set como crees que se resolverá finalmente
porque el problema y es lo que quizás le podría echar entre muchas comillas la
culpa stability es que por mucho que se legisle a favor de los artistas de que
se haya utilizado estas imágenes para el data set es que da igual porque ya es
imparable o sea ya está el modelo publicado ya la gente puede hacer
imágenes al estilo de tal artista o copiar o lo que sea entonces no sé cómo
se va a controlar es igual que pasó en la tercera revolución con la llegada
de internet con el tema de la piratería no lo vas a poder controlar hasta que
ofrezcas otra cosa que se adapte a esta revolución como fue las plataformas de
pago netflix y todo esto y te cargue o en eduques a la sociedad en ese sentido
entonces me pregunto si cómo se va a acabar resolviendo esto cómo crees que
puede hay dos respuestas con el tema de la creatividad con el tema del arte vale
porque sobre todo la generación hay una parte nuestra que nos da pena la parte
del arte la parte de la creatividad un niño no imagina que un niño se esfuerza
ahí en pintar y hoy es pintar carlos pero en el 20 23 24 será hacer
demostraciones matemáticas y ya lo es pero más avanzado pero pero fíjate
entonces se ha dejado de jugar a gd desde que los ordenadores ganan a los
humanos entonces hay dos temas aquí vale es distinto porque no tiene un
propósito en sí mismo entonces el arte yo creo como como ejercicio de
realización es como hacer deporte tú no haces deporte ya hay coches que corren
más que tú vale tú no llevas hay muchas cosas que hacemos que hacemos por
gusto entonces el arte por gusto se tiene que seguir haciendo eso yo tengo
claro que va a seguir existiendo la cosa es a nivel
a nivel laboral pero ahí está sí sí ahí está pero fíjate pero es muy
importante diferenciarlo por una parte hablemos de hay un trabajo que la
tecnología puede hacer obsoleto eso es bueno es malo en abstracto es progreso
vale ahora bien no se puede hacer de forma ilegal pero fíjate cómo ya está
súper acotado es que me parece a mí me parece casi irrelevante porque aunque
ahora de repente digamos que vale que se puedan hacer un opt-out vale o como sea
vale imagínate que es hace falta permiso explícito para para que se pueda
entrenar y solamente las webs que tengan el chip box predado se puede entrenar y
se hace como el robot cxt del seo imagínate no que tú puedas que sea
explícito vale es cuestión de un año que alguien monte una web de subir fotos
no sé qué y tal y se llene con suficientes fotos en poco tiempo el
colectivo de internet genera webs que tengan ya ese chip box legalmente puesto y
la gente no le importa subir que esté eso o sea eso en el peor escenario el
peor me refiero para para la gente que hace los modelos estos lo retrasan dos
años es que incluso cogiendo el dataset de las imágenes ya generadas y medio
filtradas por la comunidad ya tiene para entrenar a versiones más potentes de
estos allá de igual legalmente dijeras que son porque están contaminadas de
bales en plan radical si se retrasa esto ya ya hemos pasado esa barrera está
pasada con ya hemos pasado el rubicon y el siguiente rubicon luego otra cosa de
estabilidad y punto y hay esto aquí no sé si tú sabrás desconozco no sé si
hay un paper respecto al entrenamiento del modelo o sea de no digo del paper de
cómo funciona que esté de la gente de runway y tal sino de el propio
entrenamiento de estabilidad para poder por ejemplo evaluar cuánto ver fitting
tiene no métricas de este estilo que suelen acompañar a los papers yo no sé
en este caso si si se acompaña de esto
bueno el modo del car refiere pero el modo del car es muy resumido y no sé si
te viene pues algo el típico apartado que te dice overfit y pues mira hemos
hecho distancia knn de cuánto se parece a estas imágenes hemos encontrado que un
tanto por ciento de imágenes son están memorizadas no no se sabe hay
herramientas han sacado el clip retrivial del dataset del ayom que tú
puedes subir las imágenes y ver cuál se parece más pero no he encontrado no si
si por ejemplo yo quisiera saber cuánto ver fitting tiene stable diffusion o
cuánto ver fitting tiene dali o todo esto el paper de ali creo que si lo
tiene lo digo por la parte en la que si yo quiero defender a esta herramienta
frente a artistas que dicen que esas otras preguntas también interesante es
creativo stable diffusion es está creando imágenes nobelty que son nuevas
que son originales o está siendo un colas de elementos que ya ha aprendido
y ha memorizado de lo anterior a ver voy a decir algo un poco radical pero
yo creo que este debate ya ya debería estar superado me parece a mí yo veo en
el caso creo que creo que no hay duda vale que en el caso de alfa tensor por
poner algo que parece diferente vale y lleva la comunidad matemática décadas
intentando encontrar algoritmo estos algoritmos mejores a los matemáticos
dirías muchos que hay cosas en creatividad y se ha visto con el alfa
hacer el alfacero quiere decir este es a esto ya hemos visto varias veces cosas
que los humanos llamamos creativo a lo que hacen los algoritmos de ese estilo
ya lo hemos visto de acuerdo pero es cierto que el discurso y además es un
discurso que que no veo que se vaya yo intento responder en twitter a veces
cuando me enfras con conversaciones de con artistas y tal y el discurso de
asumir que la i a lo que está haciendo es copiar se mantiene y no se consigue
explicar bien pues a ver es que plantearle a alguien es que una red
neuronal pues construir un espacio latente donde los patrones se abstraen
y los puede combinar eso no lo no se termina de entender super super
interesante carlos como el incentivo que se le da a los modelos
fíjate el famoso este que se pensaba que era consciente que la lambda vale te
acuerdas del incentivo que tenía lambda el incentivo en qué sentido la función
de pérdidas o sea lo que es tener una conversación que fuera empática que
fuera persuasiva que cumpliera el objetivo que se le planteaba no de
personalidad pero fíjate un poco lo que ha pasado ahí que es súper
interesante y lo y lo y lo entre comillas manipulables que somos como
humildad y esto puede decir que está trastornado pero esto es ingeniero de
google vale es decir vale o sea no es un trastornado de la calle no es que esté
por ahí sabes el incentivo es mira un gpt 3 se le entrena la primera versión
simplemente en decir la siguiente palabra cuando ponen esto en diferentes
formatos cuando ponen esto en twitter hablando se hará un chato racista
porque imita lo que ve y si ve racismo sabes misógino pues eso se distorsiona
no y sale lo peor
en open ahí gpt 3 le ponen filtros de toxicidad y digamos que que modulan lo
que sale con lambda hacen que prediga internamente
danda predice imagina imagínate 20 respuestas luego él coge y tiene como
una respuesta que puntúa intenta imaginarse cuánto la respuesta las
ordena en que sean que no sean la que sean lo más fideos dignas posibles y
generen sorpresa y enganche entonces eso digamos que está entrenado vale sabes
alguien que hemos entrenado para que para que para que haga eso sea para que
no se agradecerá entonces tú entrenas a un vendedor y que hace te vende
es consciente claro entonces claro entonces si tú le preguntas es consciente
que dice que no se bloquea no está bien entrenado está entrenado para eso es
curioso pero fíjate y alguien se piensa que es otra cosa digo esto porque el
stable diffusion ahora mismo y el stable diffusion que estamos viendo a lo que
sale la versión 1 punto y pico es la versión 0.1 en el fondo o sea es que uno
parece que todavía no tiene estos filtros que tienen extra que tenía
lambda por ejemplo para generar sorpresa entonces lo que quiero decir es que de
acuerdo que a lo mejor un artista te puede decir que no es lo que imita pero
es porque realmente ha sido entrenado sin filtros y es lo que hacía completar la
frase que es lo más probable que ocurra sin intentar buscar la sorpresa la
inventividad fíjate la inventividad entonces tú imagínate a ver yo lo voy a
poner en términos muy asépticos que van a parecer muy fríos y gélidos para
mucha gente vale pero hacemos una reducción de dimensionalidad vale
carlos que es vamos a intentar coger el arte y poner puntitos vale cada obra de
arte de pintura vamos a imaginarnos vamos a ponerlas en un en un en un espacio en
tres dimensiones no pues tenemos bloques aquí estará el cubismo picasso aquí
estará impresionismo tal pero verdad que hagan zonas de espacio vacías claro vale
la magia pero y cuando cuando picasso hizo el el el cubismo si fuera el
primero que yo no sé mucho tampoco de arte seguramente estaría bastante
vacía con gox inventa su estilo esa zona estaría vacía entonces
lo que estoy diciendo es que quien diga que la ya solo copia quizá tengan razón
que quizá tengan razón pero lo para mí la segunda derivada de eso es que nada
como con landa si lo incentivas a que rellene zonas del mundo del arte que
están huecas las va a rellenar va a inventar cosas claro y además también
piensa picasso porque llega a ser el tipo de arte que hace porque coge lo que el
modelo de arte que ha aprendido y se aleja completamente de eso no rompe con
lo figurativo que eso también una ya lo puede hacer una ya puede ser creativa
diciendo a ver pues genera me vete la dirección de picasso de este estilo
pues ahora vete a la dirección contraria y te va a generar una cosa
completamente diferente que ya podemos atribuir como como un estilo creativo
nuevo porque hay gente que me dice es que la ya no puede generar no puede ser
creativa no puede generar tu nuevo estilo artístico si puede generar tu
nuevo estilo artístico por composición de estilos rellenando estos huecos que
tú comentas por irte en otras direcciones es decir si puede
pero bueno el concepto de creatividad yo creo que tampoco lo tenemos muy bien
formalizado tampoco en el aspecto humano y el problema que tenemos es ese no yo
no sé cómo podemos legislar de decir lo que hace la inteligencia artificial aquí
está mal sin entrar en que lo humano también lo está haciendo el humano
también se inspira en imágenes el humano también hace un proceso de aprendizaje
similar semejante en algunas características hay gente que se
enfada porque diga esto pero si podemos compararlo en coges tenute de un montón
de información aprendes patrones aprendes técnicas imitas hay
aprendizaje por imitación y luego tú pues vas desarrollándolo y lo va
variando en función de tú de lo que quieras lo que quieras expresar y todo
esto hay gente que me dice tampoco la inteligencia artificial podrá llegar a
ser verdaderamente creativa no podrá generar arte porque no tiene
intencionalidad porque no tiene verdaderamente
experiencia del mundo real porque no siente y de haber
no sé o sea me está diciendo cosas que son como de nuevo conceptos que no están
bien formalizados en el ámbito humano y que yo creo que en algún punto cuando
coloquemos a estas redes neuronales más allá de un data set que ha sido
entrenado de imágenes y hagamos esta multimodalidad y este multitasking y te
vayas moviendo a cuerpos robóticos que a lo mejor pues tengan ya es que no estoy
hablando de un robot que sea consciente que sienta pero un robot que pueda
aprender de forma multimodal ese modelo del mundo no que comentábamos antes que
va a ser mucho más rico a través de pues interactuar con objetos de poder
hablar de todo esto si esto luego lo traduce en una obra de arte pero es que
hoy hoy los que os estáis escuchando cogete sin hacer mucha historia
picasso picasso no se inventa no dice un día voy a hacer creativo y tal picasso
realmente perfecciona técnica normal y hace una crítica cuando inventa el
cubismo que es como dos dimensiones es porque coge algo que se veía primitivo
la pintura digamos de áfrica vale un tema fíjate hay una intención detrás
no solamente es pintar ahí con cubos hay una idea detrás pero eso eso que ahora
mismo a mí lo que me hace gracia es yo hace tres años me escucho escuchando
esto de picasso que por cierto lo dice joaquín cuenca que es que hablamos que
es una empresa amenazada cien por cien por la ia no el free pic que es una
web de foto stock y cuenca si fuera consejero de una empresa de estas que
diría bueno lo que está haciendo no lo que diría yo lo que hace él vale el
concepto lo por los cuernos han integrado estabilidad dentro vale y no
sabe muy bien lo que va a pasar pero quiere
pues quiere descubrir el camino vale porque está claro que es un camino que
va a llegar hay webs que ya lo has visto hay otras que lo han prohibido no de
que no se pueden subir págenes de tal él tiene una herramienta que se llama
we pic en we pic pues puedes utilizar
está ver y por dentro para generar y entonces realmente el que es un CEO
tecnológico quiere estar ahí en la vanguardia para para verlo pero pero lo
que voy es a mí hace tres años me dices esto de la intencionalidad de picasso
cuando hace el cubismo porque hay una crítica social detrás yo pensaría de
tres años imposible que la hía no tal hoy te puedo decir con gato oye si pongo
algo que chupé twitter y vea que se ha explotado un puente en ucrania que ya
van a hacer nuclear y eso internamente va a captar un módulo del mundo donde
puede pensar que estamos al borde de la bomba atómica seguramente carlos eso se
ponga por sí mismo entre comillas se ha alimentado del mundo como las personas
vale a generar imágenes cataclísmicas donde la gente de nuevo el muro se
moverá a no pero es que esa intencionalidad pero claro visto desde
fuera diremos ostras que esto está entendiendo el mundo porque le twitter y
los periódicos y está dibujando hongos nucleares por favor qué pasa aquí eso
se puede hacer hoy si se tarda nada o sea este año yo creo que también este
año está no sé si te pasa a ti yo yo sé que he perdido un poco la
perspectiva porque ahora es como que me veo pensando en cosas que hace un año
hubiera hecho este tío no entiende realmente el camino de la hía y es un
flipado yo ahora mismo primero fue dalí 2 y ahora y ahora vamos a pasar ahora sí
a hacer el recorrido 2022 pero cuando salí 2002 dalí 2 fue un golpe fue como
un wow o sea la hía está a un nivel más maduro más más potente no puede llegar
a ser un producto realmente que resuelva o supere la barrera de lo humano en
muchos casos y luego coincidió justo el paper de gato con la salida de la
noticia de lambda entonces claro con lo de lambda estuve leyendo muchísimo del
tema de la conciencia el concepto de embodiment y todo esto el concepto de
de word model al mismo tiempo que salía gato que gato un poco te venía a decir
oye este podría ser el camino de coger nutres multi multimodal genera
multitasking y te sale te leo te tengo por aquí
dijiste esto en el directo de enero de 2022 que en una cosa que todavía
funcionaba muy bien en kagel a ti durante mucho tiempo era utilizar
multimodalidad y también multitasking o sea justo esta tendencia que es gato
que es en budo y sale tú ya lo estabas practicando y te había dado buenos
resultados no en diferentes a ver hay una cosa buena que no es que lo diga yo
en kagel en estos sitios así digamos prácticos hay un montón de técnicas
que descubre o la comunidad sabe y se comparte y se comparte súper importante
entre comillas solamente que currar solo que currar que es currar significa
pues leerse las soluciones de toda la gente cuando participas y hay un montón
de cosas que es que si si tú tienes las soluciones de la gente que compite muy
bien hay cosas recurrentes esta es una es hay varias es si puedes utilizar
modelos entrenados o faros
cuanto más azúcar más dulce en datos y en compu son como generales es a ver
río pero es que son son de peregrino pero son funcionan luego si puedes
sobre supervisar que es lo de multitasking no sea entrenar en tareas que
no son aunque no sean la principal pero pueden contribuir también utilízalo
luego hay otra que que se empieza a hacer ahora pero en otro contexto que se
llaman pseudoetiquetado vale cosa muy especial de kagel pero has visto que
últimamente ha salido unos artículos hace unos meses este mes yo creo y ha
perdido el tiempo o en dos meses donde donde los modelos de lenguaje se
empiezan suena como muy decir que no sé si te refieres a cual al de let's see en
que este no ese no es un ingenier no pero ese es el de fine tuning que tú
generas como etiquetas y ahí el modelo ticher student y entonces la
alimentación está y se pueden empezar a generar ellos como más datos pseudo y
eso mejora el modelo que es un poco increíble que se automejore y se está
viendo en lenguaje sofisticados no entonces estas cosas como se hacen en
en cada y a pequeña escala y algunas no todas en un tema curioso y es difícil
poder predecir porque por encima de la escala hay cosas que escalan y de
repente no sabe por qué se rompen de repente dejan de escalar vale y hay que
probarlo no hay mecanismos de simulación así buenos y luego al revés
hay temas el primero que se vio es gpt3 hay temas que los modelos funcionan
mejor con más datos pero de repente a partir de x millones de parámetros
cambian de regimen se llama cambio de estado como de repente de líquido a gas
no ocurre con día 20 x 100 de millones de parámetros eso se empieza a estudiar
como una emergencia no como que surge emerge de ahí un nivel nuevo de cambio
de líquido a gaseoso si solamente hubieras visto el estado líquido del
agua y de repente un día y por algún motivo nunca puedes calentar la más de
100 grados y de repente un día alguien la calienta 101 grados y de repente se
diría ha pasado aquí no pues con gpt3 fue la primera vez que pasó eso
hacía cosas distintas no sólo está más caliente se convirtió en gas
para que se podía hacer y eso se está viendo los modelos de lenguaje a mí
de la cosa que me hacía lo que ha dicho la máquina por cuando salió dali 2
doli 2 sabes quedar y dos contextos no funciona muy bien
tú lo dices quiero algo y que tenga una camiseta y que tenga un letrero que
diga me llamo pepe no pues no se inventa no pues a mí eso me recuerda a los
sueños de las personas que se mezclan que se van fusionando los conceptos yo
cuando sueño no recuerdo nunca las letras
los sueños no leo nada nunca recuerdo al menos no sé que diferentes
personas igual sí que sueñan letras entonces yo cuando en serio me volví un
poco me quedé un poco preocupado cuando que que el sueño entre comillas de
generación de dar y 2 se parecía a lo que yo recuerdo con los sueños míos de
imaginarme cosas porque los sueños no soy capaz de cristalizar textos en
términos como una como un poco lo de gpt3 que te imaginas algo pero no no está
bien escrito y ya y ya lo triste es que claro el modelo imagen de google igual
sirve perfectamente claro por lo cual sí sí a ver vamos a vamos a hablar de la
primera parte no un poco de las predicciones de lo que comentamos que
iba a ser este 2022 yo es que repito nos reunimos en el 30 de enero el 30 de
enero se hizo la primera parte de este directo invito a la gente que lo vaya a
ver porque es espectacular lo mucho que ha avanzado en tan poco tiempo
no existía pal no existía dali 2 no existía pues alfa tensor ni estable
diffusion ni dream fusion ni alfaco también lo podemos comentar un montón
de herramientas que hasta ahora no es que yo te podría decir que ni soñábamos
que fueran a ocurrir tan tan rápido que es para ti de lo que ha salido este
año lo más impresionante lo más lo que más te haya cambiado la forma de ver el
potencial del diplomén pues curiosamente fíjate curiosamente
hasta ahora whisper yo creo sabes por qué curioso porque sí porque hay un
punto de un montón de aplicaciones de ia de artículo académico que está en el
artículo y lo hablamos el año pasado dijimos ese año las aplicaciones en
las aplicaciones y han salido pero no tantas si te das cuenta no ha cambiado
yo yo ahí si lo tenía apuntado como una predicción que sí hicimos bastante
correcto porque sí creo que está empezando está empezando a florecer
ahora un crisol ahí de herramientas y unas cuantas que podemos comentar que ya
no sólo dependen de los laboratorios de open a y tal que te saquen la api
determinada sino pues estoy pensando en runway ml estoy pensando en rewrite que
el otro día lo vi que era esta que te cambia el foco de luz herramientas en
audio han salido algunas no sé si tuviste el de act one que es como esta
extensión de cron que que tú le dices quiero buscar una casa que cueste tanto
que abre el navegador y te hace los clics y todo que eso también
están todos los que han mencionado carlos no es tanto había utilizables no
ninguna bueno alguna sí exacto o sea algunas están en beta de testeo porque
evidentemente todavía es bastante experimental ahí voy ahí voy donde voy
por lo que me impresiona whisper es que whisper funciona es como para mí whisper
si fuera del coche autónomo sería el primer self driving del dictado es el
primero que se parece una persona y que en algunos casos yo pienso no en todos
sé que lo hace mejor que algunas personas porque a veces el otro día
puse un podcast específico de otro tema que no me acuerdo de que era fue al azar
y me transcribía cosas específicas de esa materia que yo se lo doy a mi hermana
sabes o a mi hijo las palabras las palabras clave técnica de ese texto
ese tema a mí eso me parece oye que es mejor que el humano medio para el que
no lo ubique para el que no sepa qué es este es un modelo que sacó open a y hace
dos semanas un poco no sé si en respuesta a toda la a toda la buena
imagen pública que iba teniendo la gente de stability con todo stable
diffusion sacó un modelo de transcripción de texto donde tú le
puedes meter perdón transcripción de audio tú le puedes meter un audio como
input y no es en tiempo real pero tampoco tarda mucho le puedes meter un audio de
dos minutos tres minutos una hora y te saca una transcripción perfecta es que
yo te digo que en la mayoría de casos es perfecta multilanguage es decir en
múltiples idiomas a ver es perfecta al menos en español en inglés en los
idiomas principales funciona muy bien luego habría que testearlo en los otros
idiomas y tiene una cosa que a mí me me parece como mágica y es muy tonta pero
me parece mágica que es la transcripción que el modelo directamente
los cupan inglés si quieres que tú le puedas cambiar esta tarea y entonces que
tú le hables en español y que la transcripción te la vaya haciendo en
inglés y estoy de acuerdo que es una herramienta que me cuesta como venderse
a la gente de decir esto es impresionante pero yo también lo percibo como muy
impresionante porque la veo muy madura la veo como una cosa que para mí también
dalí 2 representó eso este año y me ha sorprendido por esas cosas no es cierto
que si ahora lo analizo dalí 2 no es tan perfecto pero comparado con lo que
teníamos hasta ese momento dalí 2 me pareció una herramienta madura que si
tú le pones un concepto como a digital art te saca siempre una ilustración de
pensemos que originalmente te daba 10 era más fácil acertar te da un
resultado que bueno que puedes utilizar y que que no era para nada parecido a
pues lo que te generaba una style gun lo que te generaba y lo que habían lo que
notaba los modelos anteriores entonces me parecen herramientas bastante maduras y
es magia o sea yo hay veces que me siento aquí a trabajar y digo necesito
una imagen ostras que tengo esto y es como que todavía mi cabeza no ha
asimilado que ya he pasado esa pantalla que ya puedo generar imágenes bajo demanda
que ya puedo transcribir un audio completamente y el horizonte de
herramientas que surgen aquí es brutal o sea yo es que a la gente ya le di yo y
esto te lo quiero preguntar crees que la gente tendría que aprender inteligencia
artificial o deberíamos de poner un poco más el foco en aprender a utilizar esta
inteligencia artificial porque yo me lo cuestiono muchas veces tú piensa que yo
para el canal a veces he querido hacer cursos y ya estoy empezando a pivotar un
poco la forma de ver esto porque creo que más importante educar a la gente
ahora mismo en usar todas estas herramientas que están saliendo más que
en enseñarte cómo entrenar un transformer que eso para un público muy
específico muy nicho y el otro tiene un impacto mucho más interesante
bueno a ver eso es como estudies informática o eres digamos o quieres
emprender en internet hacer webs de lo que sea ver lo que ocurre aquí dos cosas
no sé yo creo que lo que hace un año y medio decíamos que era la inteligencia
artificial que pasaba por entrar a modelos ya existe un mundo donde eso no
es así y va tan rápido que posiblemente o te especialices en uno en
otro la consejo que veo yo porque porque salen tan rápido solamente saber que
utilizar que huecos hay que funciona mejor en cada caso para con piezas de
lego armar tu producto a mí personalmente me parece clave entonces yo
creo que para el 99 por ciento de la gente es que sí así es más usar usar
estos legos es oye en el 2022 si vas a hacer una web has de tener muy buenos
motivos para hacer trades de cero es un e-commerce te pones una plataforma de
e-commerce la que sea otra cosa es que tú quieres hacer un negocio que sea
ofrecer algún tipo de webs de e-commerce tú con una diferenciación
es muy distinto entonces si tú estás pensando en un problema vale está
mentido en el problema entonces tienes que ver si estos si con modelos de lego
están maduras las soluciones aquí la palabra es la madurez vale madurez para
poder montar algo y en este mundo lo que te importa en la cualidad principal a
nivel de emprender es velocidad yo como emprendedor ahora mismo lo que veo es
esto ahora mismo en el punto donde estaba de velocidad porque porque lo va a
entrenar open open ahí o lo va a entrenar stability o donde sea a tú como
muchos es fine tuning entonces tiene muy claro lo que tú haces y encuentra el
caso de uso entonces he dicho oye dali 2 está maduro bueno para hacer logos no
por ejemplo por ejemplo no cien por cien para hacerte más más así vectoriales y
tal quizás menos mucho menos no igual ahí hace falta un barnizado de
prompt engineering bueno ahí es un poco que tú aprendas la y predigas un poco
cómo van a evolucionar las herramientas porque a lo mejor lo que lo que tú
resuelves con lo que llaman ingeniería de prompts no el prompt engineering se
aniquila yo creo que no tiene mucha vida no va a durar mucho yo creo que no para
empezar a mi nombre parece malo no sé si lo hemos hablado me parecen más
correcto llamarlo artesanía de prompts porque no es un arte que una ingeniería yo
creo que a día de hoy es un es un se le llama ingeniería pues porque como
estamos tan en los albores de todo esto se va a acabar solucionando con los
modelos es decir para que salga chulo hay que ponerle trending donarte stations
o ya ese conocimiento va a durar seis meses
yo creo que porque porque las aplicaciones que van a tener eso se va
a encapsular en un slider de artístico sí sí pues por ejemplo el caso de las
herramientas como lo que planteaba y de a mí no del universe pues tú vas a
tener un canvas donde vas a poder elegir o sea ya va depende más de una buena
interfaz que de un reentranamiento del modelo y esto lo hemos visto con el
propio dali 2 desde que salió dali 2 hasta ahora septiembre octubre
hemos visto que las funcionalidades han ido ampliando ahora te permite hacer
outpaintings en un lienzo muy grande que te permite ampliar tu horizonte de
posibilidades creativas pero no toca el modelo lo único que han creado es una
herramienta decir de cuando tú generas una imagen en ese outpainting están
volviendo a llamar a dali y poco más es que no hay no es que esté viendo por
ejemplo la imagen completa del canvas porque la ventana del contexto de dali
es diferente porque es un modelo distinto no es el mismo dali de siempre
lo único que han hecho es cambiar la interfaz web entonces si si me parece
interesante pues el punto de madurez que al que están llegando las herramientas
y yo a la gente lo que le invito a pensar es hay muchas amenazas en esto hay
muchas amenazas yo no me puedo por ejemplo sentar delante de un diseñador
gráfico un diseñador de 3d un editor de vídeo un sigue la lista de personas que
desempeñen su trabajo en frente a un ordenador y prometerle que su trabajo no
va a haberse afectado afectado aquí puede significar varias cosas puede
significar que desaparezca que se vea transformado o que se vea superado por
por una mayor cantidad de gente que empieza a utilizar estas herramientas
decir gente creativa lo mejor hay mucha pero gente creativa y que sepa crear una
imagen visualmente espectacular hay menos ahora la parte de generar imágenes
visualmente espectaculares ya está resuelta por estas herramientas y hay
gente que se está empezando a acomodar a entrenar a entender cómo funcionan y
están ganando esa ventaja entonces va a haber también una masificación en
muchas de estas profesiones de del artístico
entonces yo no me puedo sentar delante de alguien y decirle tu trabajo no se va a
haber afectado yo creo que más inteligente asumir lo peor entre comillas
que es vamos a asumir que no que la inteligencia artificial va a ser va a
ser capaz de generar cualquier cosa digital cualquier no no digo una
película no digo un efecto especial que esté pulido pero sí digo las primitivas
de audiovisuales la materia prima con la que trabajamos imágenes audio música
vídeo 3d esto es que es que ya estamos rozando lo ya estamos rozando lo y
tenemos ejemplos y os lo enseño rápido y lo pongo aquí en pantalla para quien
no lo haya visto esto va a estar en el próximo en el próximo vídeo del canal
y a ver os comparto pantalla bueno
lo estáis viendo vale lo estáis viendo aquí
esto que es generación de vídeo vale generación de vídeo con el sistema
imagen vídeo de google de repente ya se puede generar vídeo
al igual que podemos hacer con con dalí 2
pues aparece este sistema no quieres un oso de peluche haciendo skate en time
square te lo hace un tiburón bajo el agua
no sólo vídeo también hay 3d vale generación de 3d todos estos modelos
todos estos modelos 3d están generados vale por dream fusion que se llama está
ahí entonces lo comentaremos en el próximo vídeo pero simplemente para que
veáis que ya estamos aquí ya estamos en ese punto donde todo todo todo lo que
son assets digitales se va a poder crear una foto de slr de un de un ardilla
llevando un kimono tocando el saxofón que me gusta mucho a ver aquí plane de
saxofón y te lo hace vale entonces con esto en el horizonte
podemos asustarnos mucho y podemos plantearnos ostras que está pasando que
está pasando con mi trabajo que va a pasar o podemos ponernos en el escenario
siguiente que decir esto ya está aquí vamos a sumar que aunque no sea perfecto
ya estamos ahí y que podemos construir con eso o sea que nuevas oportunidades se
abren en el horizonte yo por ejemplo a mí no me parece descabellado que al igual
que yo ahora puedo hacer una producción audiovisual donde hace 20 años no podía
haberlo hecho porque no existe no existía el software 1.0 para poder hacer
efectos especiales editar un vídeo en casa grabarme ahora se existe y puedo
competir con los medios tradicionales pues a lo mejor ahora vosotros cualquiera
de los que están aquí una persona puede programar hacer todos los assets
audiovisuales de un videojuego y eso abre un campo enorme pues por delante hay un
montón de oportunidades yo lo que recomiendo carlos porque hay como dos
mundos hasta el mundo negacionista y luego hasta el mundo asumamos que todo
ya ha llegado y tal pues yo es muy difícil en qué grado está yo lo que
recomiendo a todo el mundo que tenga esto es que directamente se manche las
manos a muerte y los utilice primero como herramienta a día de hoy y
solamente probando lo que he visto es solamente con casos reales te das
cuenta si es un tema que va a acelerar la productividad vale que es hacer a los
trabajadores más productivos o directamente aniquilar el trabajo porque
digamos la tarea se sigue haciendo pero hace directamente tu cliente sería las
dos es un buen a mí me parece una una entonces una buena forma de ver lo que
es si al final es tan fácil un diseñador gráfico y resulta que
hablas con un cliente a veces el cliente no saben lo que quiere que todos sus
clientes no saben lo que quiere y tú y tu trabajo es hacer realmente entender
lo que quiere y plantear cosas que le gusten pues oye a mí me parece que tu
trabajo en realidad no es hacer el trabajo es traducir de la necesidad que
tiene ahí escondida a que lo haga pero si tu cliente es de los que sabe lo que
hacen y tu cliente él mismo puede meterse a una web y comunicarse con la
ia en casa con la ia entonces si muévete seguramente aún tengas tiempo de
moverte en el negocio creativo hacia la zona que más tarde llegue que es la que
requiera más interacción con el usuario o que por algún tipo de peligrosa o que
todavía sea tan difícil que la ya no lo pueda hacer es que no yo es que hago
solamente imágenes de hiper alta resolución y con una semántica que le
llega no llega pues bueno tardará x pero va a llegar
entonces yo lo que yo lo que recomendaría a mí lo a mí lo que me parece
siendo positivo sabes es que que hasta hace poco realmente la ia era un campo
muy técnico vale era muy técnico y solamente la manera era descenso por
gradiente era de era muy ingeniería del campo vale y ahora con estas
herramientas lo que se hace realmente es mucho más accesible
esto es lo que se hace que es que oye no hay que saber matemáticas para
utilizar un un y de hecho la gente que más chicha le saca es gente que no sabe
cómo va por dentro claro claro o sea que ya están cogiendo como ya estamos en el
punto de los modelos y la herramienta que ya pues lo cogen y lo empiezan a
aplicar y de ahí de donde está saliendo cosas tan interesantes como
integraciones de stable diffusion en blender y gente que ya que sí tienen
estas nociones de artistas que un informático no va a tener pues te hace
un una animación con objetos entre te y le ponen esta caba de stable diffusion y
te sacan una cosa que nunca habíamos visto un renderizador basado con en
stable diffusion hay un montón de oportunidades ahora mismo para para
lucirte o sea para ponerte investigar estamos yo creo que en un punto dulce
muy bonito de experimentación y de donde van a surgir muchas ideas que en
el futuro se convertirán en posibles modelos de negocios yo creo que la gente
aquí en este sentido hay que animarla hablando de educación aquí podemos
aprovechar para meterlo de la cuña de del máster porque esto es una cosa
también que te quería preguntar y es el tema de
crees que está preparada la educación ahora mismo para adoptar todos estos
cambios y es una pregunta que te lanzó habiendo estado recientemente en
universidades donde se están dando clases de diseño de videojuego de muchas
cosas y donde no tienen ni idea de que estas herramientas existen ni se la
huelen bueno
la respuesta es que no y es una respuesta que a mí me da un poco
mirar una de mis principales preocupaciones hay varias no hay
varias una es a nivel pragmático digamos laboral profesional ese es
radical o sea es que hay tanta gente que no lo sabe y está perdiendo el tiempo
que es una pena esto es esto es muy muy radical entonces ha dicho la educación
de la universidad desgraciadamente por el ritmo y esto no es un problema de
españa exclusivamente que siempre me gusta en todo el mundo en general yo te
diría que casi todo esto es tan nuevo es que es materialmente imposible pero si
no nos da tiempo ni a ti y a mí que nos dedicamos a esto a poder realmente
haber hecho la digestión intelectual lo que supone una responsabilidad por
ejemplo porque por ejemplo tú desde el instituto desde que sale algo ya lo
integráis por ejemplo los boletines que compartís por email y hacéis una
opinión de tal no hay una responsabilidad de los profesores los
docentes no estoy pensando sólo en la educación universitaria sino también
formaciones online boot camp de estos de estar actualizados sobre todo en esta
revolución es que se ha hablado tanto de metaverso y de blockchain que no entiendo
todavía por qué no esto no ocupa todo el espectro tecnológico porque creo que
es lo más importante que está pasando en tecnología ahora mismo yo alucino
en serio tú lo dijiste alguna vez carlos yo creo que yo alucino de por qué no el
teledriario todos los días con el tema de ia claro con una noticia de ia pero en
plan de que se interrumpe la transmisión de lo que esté viendo ahora mismo en la
tele dice no no que ha salido un modelo que traduce 200 idiomas en facebook no
en concurrentemente no y eso no para todo entonces yo a mí eso entonces hay una
responsabilidad bueno de diferentes niveles a la universidad me gustaría
preguntar a los rectores de universidad y de hecho pues miren nuestro máster ha
pasado rectores que han hecho el máster nuestro fjt a rectores de universidad que
han hecho un máster de una digamos una organización privada como es la nuestra
de instituto pero me gustaría preguntar a las universidades cuál es su labor
vale porque si la labor es y preguntas no sé si la labor de universidades
ayudará a que los alumnos en un trabajo en españa menos está fracasando
objetiva con los números en la mano si la universidad es dar un título a la
mayor gente posible entonces estará consiguiendo esto es un debate mucho más
amplio que el tema de la iaga ya tiene muchas capas no es la primera es oye el
tema del trabajo si es para el trabajo está fracasando hay otra vez más que
es si es para no perder el tiempo es que las estamos formando monjes cuando
realmente se oye sabe es que ya está funcionando claro mi cabeza es dos
monjes están hablando primero lentamente oye que dice que tengo que copiar ahora
y se oye primero flojito el está catada de imprenta y luego ya sé tan fuerte que
no se puede hablar entre ellos es me parece un poco lo que está pasando
ahora mismo con la ia que es es tan en sortecedor lo que va a ocurrir en tanto
tiempo en muchos campos que ahora mismo es poco y lo bueno es que se tiene que
adoptar lo hablamos en el poco que has pasado y me parece que nada ha cambiado
carlos que es oye copilot los modelos de para mejorar la producción de código
la informática no se va a acabar porque eso es mucho más complejo yo no veo la
el equivalente de conducción autónoma en informática el self de la
programación eso eso yo no lo veo todavía y en alfaco por ejemplo
tú mira el porcentaje de éxito es como que el coche se estrella más de la
mitad es increíble que pueda llegar en algunas ocasiones pero sí pero el coche
al final tiene que que operar bien con esa tasa de acierto en tiempo real pero
alfaco puede ser un sistema generándote soluciones y tú evaluando las
testeando las y ver cuál cuál se ajusta mejor no en cada caso sí pero en el
plástico todavía no no mucho hay problemas digamos de eficiencia vale si
eso se ejecutará en una calculadora claro entonces sí sería escala donde voy
a diferentes niveles más preguntado por la educación entonces el digamos la la
la atribución de la de los organizaciones que hacen educación de
cara a adaptar a los futuros egresados al mundo laboral
ahí hay un hueco mi opinión y bueno los dos parece que lo que lo avalan no luego
que los adapten para aprovechar digamos lo que esté en el mundo de
ciencia y tecnología en general estaban haciendo un trabajo bastante bueno hasta
ahora con la ia no por la velocidad pero nadie o sea no es ahí no te digo si
es para nadie de parece que lo está haciendo a nosotros mismos carlos nos
cuesta la labor del instituto realmente es un proyecto que creamos para intentar
llenar un poco ese hueco y esto llegó más rápido de lo que pensábamos más
rápido y a mí me encanta que estamos en ese momento donde tenemos gente que
hace que cursa el máster que son gente que viene que no programan no sé qué y
ya lo están utilizando sus empresas y hay gente que primero utilizar la ia para
mejorar la eficiencia de los negocios pero luego ver un negocio con modelos
de visión hacer un modelo de negocio basado en modelos de visión en el mundo
del deporte para para gimnasios esto es un poco real que tenemos de un alumno
del máster que le acaban de dar un premio tiene una empresa que se llama
un profit que además super super firmado acuerdos con cadenas de
gimnasios entonces ahí sí a mí me encantaría que hubieran muchas
organizaciones como nosotros y no hiciéramos falta me encantaría en creo
que creo que como sociedad necesitamos hay gente que de esto con el vaso
vacío amenazas se acaba el trabajo yo lo he hecho muchas veces por hacer esta
es que está todo por hacer o sea es que ahora mismo las empresas nos están
regalando unos juguetes unos juguetes que cuando los empiezas a aplicar a mí me
ha pasado yo siempre tenía como está este proyecto a media de un editor
automático para vídeos de youtube donde yo pongo el metraje y más
automáticamente todos los cortes del metraje que es un proceso que por vídeo
me suele llevar unas dos horas para un metraje de dos horas pues me lleva dos
horas entra n sale n entonces en este caso
el otro día me puse a hacerlo fuera de directo que es cuando mejor puedo
programar me concentro más y nada en nada lo tenía hecho en nada lo tenía
hecho me encontré un modelo que era un voice action detector que detecta cuando
estoy hablando cuando no estoy hablando cuando hay ruido cuando no hay ruido con
eso automáticamente me hice todos los cortes y ahora lo que me quiero lo que
le quiero meter es whisper porque whisper con eso lo transcribo todo a texto
comparo las stream dentro de los embeddings punto y es una herramienta que
si yo esto lo empiezo a comercializar entre compañeros de trabajo
es que me forro y es una es una es un caso tan sencillo de coger una
necesidad mía por lo que siempre sabemos en empresa una necesidad mía y
solucionar la donde antes esto te podía llevar a tener un equipo de ingenieros
pensando un problema muy fuerte es que ahora tiene unos módulos que son estos
modelos ya entrenados que puedes empezar a combinar que no entiendo por qué no
estamos ahí estamos ahí lo que pasa es que quien lo esté haciendo será
en que ahora mismo nos estará viendo seguramente ya me ha echado la idea pero
esto saldrá dentro de un mes claro pero que no entiendo por qué no estamos
todos ahí porque yo voy a una universidad y le digo a los chavales
conocido y esto y no y me levanta la mano 5 o 6 y es como a ver algo está
fallando no en la comunicación hasta yo me frustro que no se entienda tanto la
relevancia de todo lo que está pasando es como dónde estoy fallando yo en este
proceso comunicativo pero bueno respecto al máster que lo hemos mencionado vamos
a comentarlo andrés torrubia aquí presente tiene el máster bueno tiene un
instituto de inteligencia artificial donde ya habéis celebrado cinco ediciones
bueno cuatro ediciones y se está viendo convocatoria para la quinta edición del
máster que es la que empieza ya la semana que viene vale esto ya no es un
anuncio para que sepáis que esto va a ocurrir no es que esto ya empieza y el
que no entre pues lo sentimos ya para la sexta será admitido este es un máster
no técnico está orientado más a la parte de lo que estamos comentando ahora
de no te vamos a explicar cómo funciona a nivel de beat el self attention de los
transformers sino te voy a contar que existen los transformers que se
aplican en estos modelos y que estos modelos están disponibles y un poco el
objetivo es educar y enseñar la otra parte no que es cómo convertir cómo
convertir a proyectos pues toda esta tecnología
nada es un máster que está muy bien porque además de tener la parte de
formativa creo que uno de los puntos claves que tenéis es lo otro que es la
las sesiones semanales con expertos gente de montón de ámbitos diferentes
legales gente que ha emprendido inversores no sé dime tú que más que
más hay en este espectro en estas dimensiones
el máster realmente tiene tres patas no hay una parte digamos de digamos entre
comillas de teoría de saber un poco los fundamentos estos que ha dicho carlos
pero pero no de programación y de ecuaciones de saber que existe los
transformers de en qué punto están los modelos es una parte esa parte la damos
de manera digamos yo creo que única pero están más sitios vale pero está ahí y
luego hay otras dos que yo creo que que son bastante únicas no es una son 20
más que expertos yo lo diría soldados no lo digo porque están están en faena
normalmente refiero no son de habitación gente que está con las manos manchadas
gente de muchísimas facetas con empresas con proyectos particulares se están
viendo los estoy poniendo en pantalla mientras hablas
estoy yo que yo abro el curso ahí en la primera sesión pero tenemos a arianna
font que trabaja en twitter que fue la que cerró el máster en la edición
pasada y fue espectacular hablando de todo el tema de la ética
machine learning dentro de twitter ahora me imagino que será interesante
escucharla de nuevo después de los últimos movimientos que ha tenido la
empresa bueno tenemos a mano heredia de de bisocque que utilizan en
televisión para bueno bisocres una de las webs con más tráfico que yo conozco una nueva una
nueva elisenda si elisenda bueno pues en una empresa en barcelona que está en
apple bueno no se puede decir mucha mucho más porque esta ponencia no
ha tenido lugar como inversor interesante aquí es oye si tú haces un
proyecto de aquí se te inviertan pues tenemos aquí yo diría que es
posiblemente el fondo en españa más activo en tecnología a nivel de ia y te
va a dar una visión y luego tiene sobre todo una hora de hablar con él lo
importante es que esto no es el máster no es un playlist en youtube luego tiene
una hora de diálogo para hablar con él el en de todos los aspectos legales de
eslegal entrenar el modelo y tal tenemos el en el en el en el en una abogada que
enseña a abogados a programar vale titular existen estos perfiles una
abogada que programa vale luego carlos muñez es el el el presidente de de
prisa media de grupo prisa que es como van a comer como la pregunta carlos que
tú has dicho que es como en que me toca la ia y con diferentes prismas como
inversor como empresa de periodismo
fíjate joaquín cuenga que tiene freepic que es una web de imágenes de
stock la de joaquín la quiero escuchar es que estos muertos preguntarle a
joaquín cómo se viven tiempos de dalí es interesante bueno es que no vamos a
ir uno por uno pero bueno algunos que hasta los conocen victoria no lo hemos
comentado aquí que me lo tengo que traer que está detrás de una de las empresas
más potentes de visualización de datos que grafix javier ideami esa charla
nunca hay que perdérsela también le conocéis de un directo que hicimos aquí
cuando presentamos darí bueno bueno bueno gente gente muy top y aquí la
última recomendación que pueda hacer sobre el máster a ver me vuelvo para
acá y ahora vamos a hacer ahora seguramente hagamos un cambio de mid
porque ya se ha visto el enlace un par de veces hay gente entrando pero pero
una de las mejores recomendaciones que puedo hacer sobre el máster es ir a la
última sesión que es cuando nos reunimos todos y es donde ocurre yo lo
que es para mí ya la magia final de conocernos todos alumnos nosotros
proponente los profesores este año carlos hay una y una novedad vale es que
hacemos una sesión digamos de networking que opcionalmente es
presencial y es este sábado en madrid vale este sábado este sábado es opcional
vale porque gente la gente que quiere hacer la se puede seguir siempre todo en
remoto vale porque gente que de hecho tenemos gente ha hecho gente ya
ediciones pasadas de latinoamérica hemos tenido gente de digo de latinoamérica
de diferentes partes de españa que no va a venir a madrid
típicamente está nunca lo hemos hecho y es para que los alumnos sobre todo para
alumnos y luego tenemos el cierre de máster que de nuevo es y todo es todo
está pensado para seguirse en remoto todo pero si quieres puedes venir y de
hecho tuvimos un alumno que vino a argentina
sí hombre presencialmente me conoce me dice estoy por tu culpa aquí y digo joder
ya me sabe mal ya lo siento físicamente al cierre y hemos tenido más alumnos de
latinoamérica y más de españa con lo cual vamos a mí ya te digo yo yo me
considero más emprendedor nunca me he considerado profesor esta es una tarea
que todo dicho si te ves con la obligación yo como emprendedor tecnológico
es que casi me veo con la obligación porque esto es un tsunami más grande que
internet es que cuando empezaste con la primera edición que fue hace dos años
tampoco hace tanto no pero pero ahí todavía podíamos decir tampoco
estábamos en ese punto donde hubiera tanto estamos como avisando que viene el
lobo pero luego no venía pero es que ahora luego está aquí o sea ya está
aquí o sea por favor el lobo se está comiendo a todo el mundo y nadie lo
está aprovechando nada aspectos del máster que tenéis que conocer rápidamente
es online las sesiones son online con lo cual pueden participar de cualquier
parte del mundo no si no me aquí no me equivoco la matrícula es 3.999 euros
pero tenéis un código descuento a través de este canal abajo está el
código opuesto de 300 pues 300 euros de descuento
empieza ya no sé cuántas plazas os quedan no sé si está y nueve plazas
quedan quedan nueve plazas o sea esto es lo el juego de las sillas y empieza la
semana que viene o sea ya la semana que viene está mi sesión que la tengo que
que regravar que eso te dije regrabar la parte que ellos se ven luego estaremos
conectados una hora para para charlar con con las dudas y tal que eso siempre
mola pero la tengo que regravar porque es que en un año se me ha quedado la
cosa desactualizada entonces bueno tenéis toda la información abajo en la
cajita de descripción echarle un vistazo y seguramente andrés o el equipo con con
con el que están ahí en el día pues están respondiendo dudas también abajo
si alguna surgirá o si no se las paso yo ya ya no responden no lo he dicho
también los profesores esta estudio profesor está miguel ángel y está
aurelia cada cada uno pues si me pongo aquí a decir vuestros currículos
pues no acabamos yo diría que si tampoco aquí quizás no sea el momento pero que
si estáis interesados os recomiendo la web es ya punto es está abajo todo en la
descripción y esto abajo y a irada ponéis pues si ponéis vuestros datos
enseguida estamos más detalles contactamos cualquier duda que tengáis o
la resolvamos sin problemas y habrá más ediciones si no entra en esta si os
quedáis en huecos y no entrais pues hay más opciones al futuro pues el tema de
la educación te lo digo yo es como esa esa es la penilla clavada porque es lo
que tú decías antes no noto como que se está perdiendo el tiempo está
perdiendo el tiempo gente que no se da cuenta de que sus procesos ya pueden ser
automatizados y optimizados gente que no se da cuenta que está dedicando tiempo
información que no está actualizado es decir que le están llevando por el
camino equivocado y me frustra bastante de este año
creo que la una de las predicciones que dijimos en el héroe que se cumplen es
ojo las aplicaciones dijimos este va a ser el año en el que van a empezar a
surgir pues nuevas aplicaciones dentro de todo esto pero hay una que dijimos que
todavía no terminado de ver es que yo pensaba que iba a madurar más este año
pero todavía no ha surgido y es el tema del audio qué pasa con el audio porque
los modelos de difusión si se han demostrado que funciona relativamente
bien en audio pero no tenemos un modelo todavía potente que te genere música al
estilo de la ley de generación no sin embargo he visto un poco
aplicaciones que no es de generación de audio muy potentes en cosas
sorprendentes carlos y es no sé si viste uno que fue polémico para call centers
de reducción de acento que esto es y fue polémico por el tema ético
porque entonces decía entonces como que se iba a aniquilar como una parte
digamos de la personalidad como que se iba a estandarizar todo a un tipo de
robot de customer de servicio de atención al cliente pero fijate qué
aplicación no es aplicación a esas en ese aspecto el otro día vi una
aplicación para mejorar la comunicación yo no sé yo no sé tu carros pero yo
cuando muchas veces veo a gente sobre todo norteamericanos hablando en
público hablan increíblemente bien y eso realmente
no es que no pensaba siempre de pequeño que es que era más transparente y
hablaban mejor no luego cuando me he ido haciendo mayor y he ido conociendo gente
tienen un secreto y es que se preparan y les han enseñado de pequeño hablar en
público pues están empezando a salir aplicaciones para hacerte coaching de
hablar en público vale vale y de comunicar entonces tú imagínate
imagínate que te avergüenza oye cuando era pequeño pues le preguntaba a mí
madre mamá escúchame y hacía una demostración o lo que fuera no porque a
mi madre que me va a decir no y bajate a otro nivel que hay una aplicación luego
si quieres la busco y la ponemos en comentarios para que tú te puedes
grabar y te mejora te puede detecta cuando haces muretillas puedes editar y
está empezando a salir muchísimas no para idiomas lo mismo para reducción de
acento claro los españoles al menos si no sé en latinoamérica pero en españa
tenemos un acento cuando hablamos inglés muy marcado como las películas se
doblan pues no estamos con el oído hecho desde pequeños al menos yo en mi
generación nos cuesta mucho hablar inglés y de hecho a mí tanto es el punto
que a veces pues me tenían que decir
la diferencia yo me acuerdo que yo no yo no no diferenciaba entre la universidad
de jail yale sí vale con y y luego ir a la cárcel que es con jota pero se se
pronuncian distintos a mí me costaba ni siquiera diferenciarlos y una vez te lo
dicen porque pues esto que tú hoy en día puedes hacer con una es un profesor de
reducción de acento se llama técnicamente esto ya hay aplicaciones que
te detectan hablando de un idioma que no es el tuyo te dice oye pues si hablas eres
inglés y hablas cristiano y las herres también empiezan a ver de este tipo entonces
que hay un montón de aplicaciones es que podemos empezar a soñar ideas y en
realidad tampoco estamos tan lejos porque estamos llegando a un punto donde todo
esto es posible también te digo es necesario un sistema de reducción de
acento cuando nos movemos hasta hacía esta idea de la torre de babel de poder
todos hablar un idioma universal a través de la guía no de que tú tengas
como el dispositivo este que sacó el que nunca funcionó del todo bien pero que tú
oyes a alguien en un idioma y directamente la escuchas tú en tu idioma
nativo tiene sentido a lo mejor aprender otros idiomas pues no se sabe es que
estamos a un punto en el que todo esto todo esto avanzará el tema del audio
creo que en las últimas semanas para variar también ha salido algo de tipo
text to audio pues que tú le puedes decir quiero que me hagas sonido de
pájaros y gente charlando y te lo genera entonces yo creo que estamos llegando a
ese punto estamos viendo esta primera iteración este gpt 1 me encanta como
gpt se ha convertido en el estándar de las fases no el 1 el 2 y el 3 él
funciona experimentalmente funciona un poco bien y hostia puta es el tercer
nivel habrá mira te pregunto por aquí que lo tenía apuntado gpt 4 cuando como
y por qué bueno fíjate no es este año a gpt 4 si
hay un tema curioso de lo más parecido en tamaño bueno de a ver google
ya tiene según ellos no tienen modelos más grandes se han entrenado modelos en
parámetros más grandes quizá quizá el la noticia pero a ver lo que te pueda
fiar no en china no sé si has visto la noticia que habían entrenado un modelo
de 174 trillones pero no es el budo este 2.0 no es el nombre era de ordenador este
nuevo de un super ordenador vale no lo sé yo esa noticia creo que además la
comentamos en enero que te dije esto de budo salió que decían que era como 10 o
no sé cuántas veces más que el gpt 3 pero no había ni paper de esta noticia
entonces si era mil veces más y lo que decían es que era que en capacidades
era digamos más o menos como era competitivo o sea que no parece entonces
aquí hay dos cosas entonces es una pregunta garros y realmente
bueno aquí va hasta que digamos algo para que mañana esté pero hay un
artículo que salió hace poco sobre las leyes de escalado vale de los modelos
leyes empíricas no leyes como tal oye hasta ahora se veía que aumentabas
parámetros y mejoraba entonces solamente con aumentar parámetros en el fondo es
cómputo pues tú seguías mejorando los modelos luego google
creo que fue con chinchilla el artículo no me llega a meter pero si sé la idea
que era de hacer entrenamientos más eficientes no de que no era tan
importante el tamaño y el número de parámetros sino la cantidad de datos
que lo que decían era en chinchilla como una interpretación digamos un poco
diferente no de gráficas de escalado que se habían hecho para sistemas de
recomendación
facebook hizo un estudio muy bueno sobre cómo evolucionó mejoran los sistemas de
recomendación a medida como mentas y se veía que con más parámetros aumentaban
más no pues la comunidad más o menos pensaba que más parámetros más azúcar
más dulce hasta que llega a chinchilla los una investigación de google y oye y
descubren que parece ser que los modelos actuales de lenguaje están
realmente les faltan le faltan datos tan sobre parametrizado están sobre
parametrizados súper interesante entonces quizá quizá yo aquí tampoco
puedo saber pero quizá el motivo es que que ahora mismo habíamos llegado a un
nivel de parámetros y parece que solamente con parámetros igual se
aumenta pero poco hay que hacer algo con los datos y eso es un poco parece
donde estamos ahora entonces me sorprende y el tema de gpt4 lo pensaba
un poco por esa línea de que creo que si sacas y open ahí hay un modelo de gpt4
que te dicen mira es gpt4 en mola mucho funciona muy bien tiene estas
cualidades pero no tiene una cifra que nos sorprenda en parámetros como que no
van a no van a conseguir el titular o el impacto no van a conseguir el sacar un
modelo que es 10 veces o que supera el billón de parámetros entonces no sé si
están como intentando sacar algo verdaderamente potente ahora mismo la
cota más alta la tiene google con palme que es 540 mil millones de parámetros
que esos son como cinco veces más que gpt3
pero parece que el camino realmente va por lo que demuestra chinchilla entonces
podríamos ver un gpt4 que a lo mejor te diga mira es que tiene 200 mil millones
de parámetros no tiene mucho más pero funciona mucho mejor bueno puede
ser no sé cómo como nos van a sorprender en este sentido y qué
cualidades tendría que tener este modelo para realmente ver un salto
cualitativo de gpt3 con por ejemplo con palme se vio a mí los
las deducciones encadenadas lógicas estas que tenía palme me parecían
impresionantes el decirte te voy a dar una adivinanza donde vas a tener que
saber que este concepto relaciona con este este este este me parece una
locura no sé si va si va a ir por ahí no sé exactamente cómo podrían
sorprender con gpt4 o si sacarán una actualización del modelo pero que no va
a ser tan sorprendente pero simplemente para hacer marca no sé cómo va pero
bueno de los grandes modelos del lenguaje palme este año se lleva la
palma por así decirlo es el modelo que que más ha sorprendido y sobre todo la
versión que más me gusta a mí es la de minerva que no sé qué opinas tú para
mí yo este este año el cambio mental que me ha sucedido con la ia es de que
verdaderamente me he creído ya lo de esto es como la electricidad vale lo que
decía andrew de la ia es comparable a electricidad es como que pero que dice
loco si la electricidad es súper importante de verdad si creo que va a
ser una cosa muy muy revolucionario mucho más revolucionario de lo que de lo que
esperamos pensando la analogía de lo que hace dali 2 vale de generar imágenes
que tú dices oye me sirven son útiles son imágenes que son prácticas me sirven
si lo extrapolo a la generación de conocimiento científico que yo creo que
es el punto donde donde puede haber un salto cualitativo de la humanidad sin
precedentes porque estamos hablando de una explosión de inteligencia minerva es
un ejemplo de ellos alfa tensor me parece un gran ejemplo de un buen uso
además no es quizás son dos versiones diferentes de lo mismo minerva
es más genérico esta idea de un large language model que aprende de la nada a
hacer ciencia y por el otro lado alfa tensor es más aplicar la ia un problema
concreto y llegar a buenas soluciones pero en ambos casos son una revolución
que te que te hace pensar de o sea es que a lo mejor ya estamos llegando al
punto de los humanos no van a tener que hacer estas innovaciones sino que vamos
a confiar en la ia para que nos encuentre mejores algoritmos de
multiplicación de matrices mejor algoritmos de dinámica de fluido mejor
teorema de tal y el humano simplemente va a plantear el escenario para que estas
energías entrenen llegando aquí conectas todo y no sé es que de verdad me
creó el concepto de singularidad a ver ahí sí a ver por por orden no primero
un gpt 4 vale yo creo que igual es un gpt 4 pero si lo vemos seguramente en
seguida veamos un nuevo modelo tipo gato multimodal yo creo yo creo que la
diferencia va a ser con multimodal un modelo del mundo multimodal será ese es
el paso natural que hay un modelo multimodal y ahí a lo mejor entonces el
tema de la ecuación esa de parámetros cambia al modelo con respecto a al otro
que dices de si si de entrar en ese bucle de conocimiento y de y de
alimentación positiva a ver si no su fíjate es que hay una cosa que yo creo
que podríamos titular carlos este episodio
la reflexión de si nos equivocamos o no la ley de amara sabes cuál es la ley de
amara la ley de amara es roya amara pues era un investigador un bueno tenía
un científico que tiene una ley que dice que tendemos a sobreestimar el
impacto a corto plazo de innovaciones tecnológicas y a subestimarlo a medio
plazo entonces tú y yo nos venimos arriba y decimos que el año que viene yo lo
dijimos en una de las de las frases que nos equivocamos era iba a haber ya un
medicamento diseñado poría claro y no lo hemos visto y no lo hemos ojo cuidado
el el el punto por el que me da pena no haber cumplido el año para hacer este
directo es que si hubiéramos hecho esto el 30 de enero de 2023 posiblemente
veamos algún titular interesante respecto a alfa fall 3 o algo parecido
porque estamos entrando en en el periodo no el la competición de casp de
proteínas se hace cada dos años la última fue 2020 y se presentó alfa
fall 2 puede ser que si quieren cumplir el calendario saquen algo interesante
este año pero yo hay lo que veo y me gustaría poner los pies en la tierra
no son descubrimientos increíbles alfa fall 2 ha liberado la forma de las
proteínas del ser humano un montón pero luego en la práctica todavía todavía
así que es verdad que la ia está acelerando el descubrimiento de nuevas
moléculas pero luego una molécula para que digamos se puede utilizar en persona
sabes que lo que se llama insílico no insílico es en el ordenador si se
encuentran con buenas propiedades o los pruebas en animales en ratones ya hay
toxicidad en muchas luego en personas va empeorando no digamos ese ese
fundo entonces la y está por ahora muy bien para mejorar la primera parte vale
las demás no entonces por poner una analogía es un gpt 1 que es increíble
con respecto a nada pero todavía todavía por sí mismo ya por sí mismo no es
suficiente no cada que hay puntos de inflexión no y esto ojalá ocurra con
con el con alfa tensor también oye súper es increíble que digamos las
ideas de algo que se empezó como un juego como alfacero y tal acaben en
ciencia y yo creo que aquí va a haber la singularidad porque es como muy
peliculero pero si tú te fijas ahora mismo de los desafíos que tenemos como
humanidad vale y me voy a olvidar del tema del trabajo
principales son la energía el tema de la energía hoy en día el mundo pende de
energía con lo estamos viendo con la tragedia no de todos los niveles la
tragedia del co2 es a cámara lenta y a cámara más rápida
los precios de los combustibles fósiles el gas todo y que la energía de la
energía de placas solares solar renovables tiene todavía no es no es no
es suficiente por sí misma a día de hoy si encontramos una manera de convertirse
en ese problema un problema digamos que la guía pueda ayudar que no es claro
ya está resuelto que hay full y hace poco decía que si conseguimos convertir
el problema energético en un problema industrial imagínate que el problema
solamente fuera fabricar placas solares baratas que se convirtiera en eso
entonces y ahora sí que vamos a lo mejor con optimus y que optimus está en
las fábricas haciendo placas solares ahí simplificando evidentemente no pero
me entiendes si hacemos algo que cambie las reglas del juego en fabricación
muchos problemas que ahora mismo son problemas físicos desaparecerían o
se me des pero eso para mí entra en terreno muy especulativo y muy
apagado pero por ejemplo con el tema de la energía algo que está sucediendo ya
y además lo está pensando el otro día porque una cosa que se le critica mucho
la inteligencia artificial siempre es el costo energético del entrenamiento de
estos modelos y del uso y que cuando experimentamos y los chicos de google
han dicho y el colapso ya esto no empieza a costar mucho vamos a cambiar el modo de
pago y estas cosas pero está pensando no si quisiéramos poner una balanza el
coste energético frente al ahorro energético que nos aporta la ia hay un
ahorro energético que nos estamos teniendo en cuenta decir en el momento
que tú creas una herramienta que te genera imágenes que ya no te obliga a
estar como productor o sea como diseñador gráfico tantas horas delante
de una pantalla eso es un ahorro lo empiezas a multiplicar por la cantidad
de gente que está utilizando esta herramienta y y oye hay un ahorro
energético pensamos en alfa tensor por ejemplo y una cosa que mostraban en el
paper es como ellos son capaces ya no sólo de decir vamos a optimizar a
reducir el número de ecuaciones de pasos que se hacen para para calcular la
multiplicación matricial sino que también podemos optimizar para
diferentes tipos de arquitectura por ejemplo para reducir el tiempo en el que
tarda en ejecutarse esta multiplicación matricial en una v100 bueno pues un
tiempo que ahorra es que incluso puedes optimizar y ellos lo dicen que no ha hecho
en el experimento pero que se podría hacer puedes optimizar por coste
energético podemos buscar cuál es la mejor forma de multiplicar matrices para
reducir el coste energético y esto es de mind diciendo vamos a coger una
tecnología que ya existe y vamos a aplicarla a este problema si tú
multiplicas los deep mind del mundo y empezamos a aplicar esto a diferentes
problemas es que tenemos estamos entrando en un periodo no digo de que
por lo que siempre o sea lo que siempre hemos comentado no si tú para la
investigación por completo ahora hay tanto donde podemos aplicar lo que
tenemos ya para optimizar que pues si el problema es el coste energético podemos
reducir mucho ese coste energético y y es eso no no separa sino que esto
entra estamos entrando en un ciclo virtuoso positivo donde todo esto
repercute en que todo este entrenamiento sea más potente más rápido etcétera
entonces de verdad si me creo que estamos entrando en un periodo de
aceleración tecnológica sin precedentes yo con el tema del coste
energético de entrenar modelos varias cosas no uno es el de esto se han hecho
muchos experimentos para empezar muchas empresas google por ejemplo hay muchos
entrenamientos que son neutros en carbono ya cuando hay sol y a noche a
lo mejor para ese entrenamiento que no es una centra nuclear que tal vez está
encendida todo el día otra cosa no cogete una industria si te digo hay una
industria que no se puede parar que es la responsable del 8% de de gases de
efecto invernadero o co2 de los dos que es el cemento y ese no se puede
cambiar fácil con lo cual es que se ha puesto mucho el foco en el en temas que
suenan un poco anecdóticos no que entrenar un modelo es como un viaje de
aviones a que digo varias cosas uno se puede entrar a modelos con energía
limpia 100% que hay hay cosas que no dos los modelos se suelen entrenar una de
las entrenas está entrenado no sé no es como un viaje de avión que no hace una
vez y volver entonces a mí personalmente el lo que es el no es que
no es que le quita importancia sino que lo ve un problema más solucionable que
otros campos de tema energético y luego encima puede ayudar mucho y con el
cemento se está empezando a hacer para ayudar para el cambio climático por lo
cual bueno ahí también veo que no ahí le veo una solución relativamente
lineal voy a decir del directo anterior una cosa que también nos no nos
equivocamos pero pero bueno nos callaron un poco la boca creo respecto y a ver si
está de acuerdo al aprendizaje reforzado en el directo anterior comentamos que
que había pasado en 2021 respecto a aprendizaje reforzado que no había
grandes titulares que parecía que estábamos en un campo de estudio que no
terminaba de darnos aplicaciones reales este año que me suenen y casi todas
vienen de deep mind que creo que es la que más está investigando esta línea
alfa tensor es una una de ellas no es que hayan innovado en ese no han innovado
enormemente y algo que ha pasado en el campo yo creo que en muchos ámbitos
donde las arquitecturas han mantenido más o menos igual lo que se ha cambiado
es la forma de plantear el problema han planteado el problema de multiplicación
matricial como un problema adaptado a un juego para alfasero pero también se ha
metido con el tema de estabilizar los reactores de fusión con con rl también
han se han metido al tema de y otro caso más para la energía el la compresión
de vídeos en youtube no que también lo han hecho con con rl es decir tienen
como muchos casos que ya no es el monte suma ya no estamos aquí resolviendo un
videojuego sino que estamos resolviendo problemas reales que hemos adaptado como
videojuegos entonces cómo es el aprendizaje reforzado está empezando a
brillar o es simplemente como con atos de
sí que sí que es verdad que deep mind es el titular es de mine del titular si
eres de mine tienes el no how para hacer rl en la práctica el aprendizaje por
refuerzo yo todavía no lo veo al mismo nivel que la
aprendizaje vamos es que ni 1 a 100 yo en la práctica sí que te digo que
aprendizaje por refuerzo tienes que tener un equipo y experiencia avanzada
para poder aplicar un problema real cuando puedes y cuando puedes increíble
mira lo que está consiguiendo deep mind pero es que tú fíjate que open ahí se
salió pero encontraron su otro camino que era un poco el de los grandes
modelos que hay de mind tampoco se mete curiosamente si curiosamente si cada
uno ha tomado como una vertiente que dominan bastante bien ya no sé el tema
del aprendizaje reforzado es cierto que es como una cosa que está ahí que a
veces yo me sorprendo cuando sale de mine y te dice no es que hemos usado
la verdad que eso todavía está ahí esto seguía ahí y esto sigue si bueno ahí
ahí con ya sabes ahí a los desafíos de mind es realmente trasladar el problema
un entorno que se pueda simular y luego
y luego corregir la simulación para el mundo real no hay tesla con el tema
este del del del óptimus andando lo explicaron en el tesla en el tesla
cuando han presentado el robot no que ellos tienen la simulación y dicen pues
que si simplemente el robot siga simulación da un paso y al siguiente
pierde el equilibrio es que en el fondo es perder el equilibrio si no compensar
y eso parece que lo empiezan a que lo empiezan a resolver no sé si ellos
utilizaban algún tipo de de simulaciones de diferentes escenarios no
el super ordenador este que hacía en el dojo pero te digo eso eso me parece que
yo comparo digamos la capacidad que tiene para hacer aprendizaje por
esfuerzo a mí todavía me da la sensación que equivale a modelos de
estos fundacionales que si te metes ahí es que tienes un equipo increíble y no
es pinchar una librería con el que eras sabes y ya te funciona vale como en un
supervisado comentabas al principio y ahora con
los grandes modelos estaba pensando que este año como que no habíamos visto
grandes movimientos hacia pues hacer más eficiente no asemejar un poco al
cerebro que con pocos datos puede aprender cosas o que a lo mejor no
requiere de tantos no lo hablaba de la parte energética de que usamos mucha
menos energía que un ordenador pero es cierto y aquí quiero que hablemos de
stable diffusion a mí me sorprende que consiga tan buenos resultados en un
archivo que en algunos casos son 2 gigas o sea que hayan conseguido está esta
gran compresión del aprendizaje que de ahí pueden salir tantas imágenes
diferentes y le sumo además el tema de dream booth que no sé si tú lo has
probado ha jugado con esto pero que con 15 imágenes incluso se puede bajar a
menos con 5 imágenes consigue generarte imágenes de la misma persona con una
calidad visual que supera a las de las imágenes de entrenamiento o sea yo
tengo imágenes generadas que digo ostias que me pongo a buscar en qué
lugar hice la pose y se me veía con la cara tan estilizada como en esas
imágenes lo de dream booth me sorprende bastante que con tan poco
entrenamiento o sea con tan poco datos se pueda conseguir que la ia generalice
también sacó tan pocos datos de condicionamiento que dice sí bueno yo
creo que ahí al final será con una foto sabes al final yo creo que vamos a
llegar no al cero shot porque no tiene sentido claro uno solo claro al
literalmente ahí lo veo de lo que tú dices de la compresión vale ahí tengo
como un debate metafísico y es la compresión quizá máxima y aquí nos
vamos a ir un poco a otro ámbito y es tú dices que el fichero cuánto ocupa
no el checkpoint de de stable diffusion no pues unos gigas no
pero nuestro adn ocupa menos carlos claro es que es que es mucho más fuerte
eso es aquí y ahí es un poco lo de que decías de cerebro que se estudiaba no y
demás no sea la compresión que hay eso y eso fíjate que la dn la grandísima
parte de la dn no es el cerebro ni que pensamos digamos las cosas básicas de
la vida no pues que tenemos la piel en las mitocondrias sabes toda la
maquinaria celular no y todo eso ocupa unos 800 megas
es que claro es que es un fichero desde cientos megas y ese es carlos santana
ahí está plin punto cip se lo puede enviar por trance que tenemos que
aspirar a comprimir más todavía no tú crees que pero o sea cómo consigue la
naturaleza esa compresión tan bestia bueno ahí es el equilibrio no el
equilibrio a la que juega tú vas a pensarlo en una persona quizá irnos más
difícil vamos a irnos algo más fácil no cogete yo me iré un insecto porque
aprender es difícil aprender aprender lo que tenemos la inteligencia humana
bueno humana o hasta de un perro que hace tareas para los cuales no ha sido
entrenado a diferencia de una hormiga una hormiga solamente sabes hace como una
cosa las hormigas son mucho más a piñón no entonces cómo consigue la
naturaleza evidentemente no se ha respuesta no no pero pero claro la cosa
es si si comparamos aquí el checkpoint sería un poco la los parámetros de este
modelo donde está la información y de ahí sale pero la naturaleza en realidad
tienes como el código que es lo que puedes comprimir pero luego el resto de
las funcionalidades dependen de un montón de proteínas que se han ido
dando forma a lo largo de años y años de evolución entonces realmente
también tendríamos que tener en cuenta para mí el archivo de checkpoint sería
más toda esta estructura de proteínas que forman los órganos dentro de las
células y tienen todas estas funcionalidades donde luego tú le metes
estos cinco este input que serían estos 800 megas y ahí te sale un carlos no por
así decirlo sí sí bueno sí sí sí sí sí porque porque hace falta que la
miembros que preexista no para mí aquí para mí la clave es ya por volver a la
ia no saqué y es una palabra técnica que es esgo inductivo vale tiene las
estructuras los circuitos neuronales con los que nacemos que se deben de poder
codificar en poco pero es lo que vale decir como que el código como que el
código de gpt 3 es pequeño te das cuenta es lo mismo no sabes cuando naces está
especialmente una persona un humano no está casi vacío vale y él y luego lo
que hay es un buen programa de base que puede aprender no eso es para mí la la
el equilibrio y el equilibrio donde todavía no estamos hacemos de forma muy
distinta es que los modelos de lenguaje es importante a ver hasta qué punto es
hacen faltan tantos datos porque solamente son de lenguaje es importante
porque si de repente viéramos los datos que ve un niño un bebé desde
pequeñito hasta que tiene cinco años a lo mejor en volumen de datos es más
claro que estamos entrenando ya que no sabemos ese es otra duda entonces yo
creo que bueno saber eso es muy todo esto es muy muy especulativo yo creo que
el siguiente si nos aventuramos carlos hacer predicciones que no sé si quieres
ya las predicciones que ya no atrevo yo esta año ya si yo iba diciendo bueno si
lo de las imágenes vale ya me ha sorprendido pero ya estamos ahí pero
vídeo todavía cuesta que sólo dijimos en el directo anterior dijiste dije para
2022 crees que veremos generación de vídeos y tú dijiste no estamos ahí
todavía y de repente el vídeo pero fíjate que vídeos no son vídeos no son
perfectos pero son mejor de lo que yo pensaba que podría ser generación de
vídeo yo creo que aquí las las cosas gordas fíjate en qué punto se puede
hacer con un porcentaje de éxito habría que poder empezar ya a definir como test
de tourings para tareas vale me refiero de el test de tourings de el diseño de
logos vale dali 2 no lo pasa no lo pasa yo creo yo creo que las predicciones
tendrían que ir en esos términos no de decir coger una tarea ya sabemos que la
agil en general no vamos a decir que no todavía vale entonces creo que más
interesantes oye 2023 carlos para logos vale vamos a irnos por vertical ya en
generación crees que va a hacer un porcentaje muy alto más del 80% de
logos yo creo que sí o sea yo no para mí la cosa es que eso no lo de una
predicción sino una un punto en el que todavía nadie lo ha entrenado pero que
se puede o sea es como que para mí la predicción sería es posible que la haya
puede ser un logo evidentemente sí entrena la con muchos logos y te saldrán
resultados incluso podrías entrenar en un proceso donde lo lo haces con gráfico
vectoriales y haces un modelo diferente no si quieres innovar pero sí o sea yo
creo que ya estamos en un punto donde asumimos que todo eso está aquí o sea
que va a llegar yo sé que va a ver generación de audio sé que va a ver
generación de vídeo en buena calidad sé que va a ver generación de imágenes
mejor que dali y steve diffusion o sea todo eso me lo creo tú ya no sé qué
predecir hacer lo fácil entre comillas y además quizás inspirar que es qué
cosas crees que que sí o sí van a estar porque se pueden y tú te comes las
uñas todos los días de que aún no estén hechas por ejemplo yo grabo vídeo
y quiero que me da igual el micrófono con el que me grabe que se me escuche en
buena calidad decir una buena generación de voz o directamente clonación de voz
que también hay sabemos que hay ejemplos pero que ya esté pulido quiero
no tener que pagar epidemic sound para buscar música de copyright quiero que se
genera automáticamente la canción que yo quiero va a llegar quiero editar
vídeos de forma mucho más esta mi carta a los reyes magos vale cualquiera que lo
vaya desarrollando aquí que me vayan dando acceso anticipado a las betas
estuve reunido con la gente de runway ml en nueva york estuve de viaje me
contactaron son gente chilena no lo sabía gente de chile y bueno pues han
montado un editor de vídeos que tienen muchas herramientas de de de de
learning incorporadas que está muy guay pero lo que van a sacar ahora es mucho
más interesante que es el controlador de la herramienta a partir de texto que tú
le puedes decir a la herramienta oye quiero el vídeo en blanco y negro y ya
sabe dónde tiene que clicar un poco lo que comentamos antes del acto 1 te sabe
exactamente que tiene que aplicar para eso que tú le estás pidiendo borrame a
esta persona que está en el fondo y te hace te lo borra no que yo creo que
también es una evolución súper interesante que que tenemos que asumir
todos y es que nuestra relación con los programas informáticos va a cambiar
muchísimo y la interfaz va a ser el lenguaje natural o sea compartir una
imagen que era como la evolución de los de la cajetín del photoshop que iba
cambiando en el tiempo y de repente se convierte en una caja de texto porque yo
ya el photoshop es que no lo voy a usar para generar para ponerme a editar capa
por capa y generar imágenes no no yo solo lo uso para componer aquellas
imágenes que he hecho con este bol de fusion se resume carlos es evolución
revolución total si si tal cual entonces todo eso yo asumo que va a
llegar lo que no entiendo es por qué no está ya yo lo necesito ya y más cosas
generación de 3d pues va a llegar animación del 3d pues cuestión de que
se combine pero va a llegar y y no sé es que creo que se me está empezando a
gastar el espacio el espacio de búsqueda de nuevas ideas no sé es como que
estamos de repente solucionando la mayor parte de problemas básicos a los que yo
querría dar solución que yo le pueda decir edítame un vídeo exactamente al
estilo que lo haga yo todavía falta un poco más esa es la clave para mí esa es
la clave no sea en el punto donde tú le dices un vídeo entonces pero pero le
falta más es no lo crees posible o lo es factible en cinco o factible en tres
pues vale es que ese es el titular algo tan complicado como un vídeo con los
cortes transiciones un montón de trabajo que tú haces porque yo o sea lo que me
lo que lo que está pasando es que yo ya sé que si yo no me dedicar a hacer
divulgación y me dedicar a investigación sé que herramientas
tendría que juntar para crear algo como lo que estoy soñando entonces no lo veo
tan lejano y habrá mucho ensayo error y a lo mejor no sale pero creo que sí
tenemos las bases para poder construir un montón de herramientas súper potentes
súper interesantes decir lo que hace dream booth de coger unas pocas imágenes
y poder entrenar o condicionar a stable diffusion para que genere mi cara pues
tampoco es tan lejano a coger una ia que coja un vídeo mío estructura y que
ediciones están aplicando en ese vídeo donde hago cortes donde no lo hago es
donde meto una transición donde no la hago donde meto un título donde no lo
hago y aplicarlo luego a otros vídeos no está no están descabellados desde que
de hecho hasta se podría programar con software 1.0 usando alguna de las
herramientas de software 2.0 entonces todo eso va a llegar y quizás las mis
predicciones y las que deseo que se cumplan es que se haga realidad y que
explote esta idea de ciencia e inteligencia artificial combinadas que
creo que es donde la humanidad puede tener una aceleración que no estamos ni
percibiendo si yo para mí mira desafíos estaba leyendo los comentarios
carlos y hay gente diferentes hay como varios niveles de comentarios no algunos
que parece ser que hablan de la aplicación que aquí va que que haga la
ecologización del audio bueno porque por lo visto mi micrófono va distinto
bueno no sé por qué esa hay que sacarla ya y luego hay como y eso siempre hay
gente preocupada no gente preocupada por en qué hueco no o si nos vamos a hacer
esclavos de los ordenadores y cuál es nuestro papel no
qué dices a esto no siempre están estas voces no de la preocupación y lo que
dices la caja esa realmente se hace más pequeña yo no lo veo así vale yo lo que
veo es que que lo que pasa es que ahora podemos hacer más cosas
es para mí que cada vez y tú has dicho la ciencia pero incluso en
incluso en entretenimiento no se puede hacer pues mejores películas porque las
subproducciones que cuestan tanto dinero costarán menos y a lo mejor una
producción de tu país que a lo mejor tienen recursos más modestos que el
juego de tronos o anillos de poder nuevo como se llaman lo puede hacer
la analogía es que no hay que irse a la cuarta revolución hay que mirar la
tercera te decir tú antes si quería entretenerte una tarde en los 90
tenías que encender la tele y ver los cinco canales que tenías en televisión
tú ahora te conectas a youtube y tienes contenido de lo que quieras o sea que
somos mil personas a través de internet ahora viendo a dos chalaos hablando de
de ia a un nivel que en la vida vas a ver en televisión antes en los 90 donde
tenías que ir para poder escuchar una conversación como ésta no había no no
estaba tenías que ir a lo mejor a un congreso alguna universidad pero no lo
tenías a tu disposición en casa porque existe esto porque existe una vara
también todas las herramientas un abarrotamiento de la distribución del
contenido un abarrotamiento en tantos ámbitos gracias a las tecnologías de la
tercera revolución que posibilita que todo esto exista que exista y va y que
exista el rubius que existan todos los contenidos que consumimos que exista
netflix que ahora podamos ver producciones audiovisores como juego de
tronos que antes era una película ahora es una serie porque se pueden hacer esas
producciones porque uno se invierte más dinero en eso y otro porque tenemos más
tecnología para poder hacer esto más barato entonces sí tenemos más
posibilidades y a nivel laboral lo podemos comparar también no el trabajo
que hacía en nuestros abuelos y el trabajo que hace si yo le digo a mi
abuelo que mi trabajo es estar en frente al ordenador sentado me dirá
tú no trabajas a trabajar era la tierra o hacer zapatos no entonces es cierto que
el trabajo se ha evolucionado otra cosa y en un futuro mejor trabajar pues será
otra cosa que implique menos esfuerzo al mismo tiempo esto se tiene que
acompañar con medidas sociales que que acomode todo esto porque ahora mismo yo
creo que el punto en el que estamos y dejamos la máquina del capitalismo
absorbiendo con estas herramientas todo el capital pues puede haber un desequilibrio
de muchas de las cosas que tenemos en la sociedad porque es una tecnología muy
potente lo que tenemos entre manos
si fíjate es curioso y tampoco está claro que ha dicho la serie en los años
90 las reproducciones o la música o sea la música estaba realmente en manos de
las distribuidoras 5 y es que no podías ni grabar la maqueta ahora mismo tú lo
piensas ahora mismo podías haber pensado que tendíamos a la
sobre concentración extrema y a lo mejor no estamos ahora mismo yo veo una
cantidad de contenidos y que en netflix lo que se ha hecho es que la la la la
oferta se ha esparcido tanto y lo ves en música soy yo digo yo digo gente de que
es que componen música de soundcloud que estoy seguro que que que a lo mejor
nunca hubiera editado un disco pero igual a lo mejor tienen ahí una pequeña
audiencia es en su bandcamp sabes de que venden hay cuatro cosas y oye y está
más esparcido que a lo mejor a lo mejor no hay esa concentración sabes tan
extrema no que se dice de super concentración y está ver y tios al open
2.0 del open source es lo que nos ha mostrado que a lo mejor tenemos tanto
miedo a esa concentración en google y en facebook y a lo mejor no va por ahí
que es que para mí lo fuerte de este año es ostras que a lo mejor esto que
dicen de que la idea va a concentrarse en que somos esclavos porque está en manos
de cuatro oye que igual llega el estabilidad de turno y los parcento del
2000 del 2022 el 22 ha sido loco mira además de hecho esta semana el
miércoles sabes que qué día se celebra el miércoles
además del 12 de octubre creo que es justo pero no es el décimo aniversario
se cumple la década de la competición de image net de cuando explotó todo esto
decir todo todo todo o sea no todo todo pero la gran parte de avances donde se
engloba se enmarca el deep learning que lo habéis escuchado muchas veces aquí
en el canal lo comentado muchas veces parte de el 12 de octubre de 2012 en 10
años todo todo esto se marca en 10 años en una década y madre mía es que
este año ya me parece una década en sí mismo el 2022 se me ha hecho ha sido
brutal ha sido una locura entonces la ia se sigue construyendo sobre la ia además
porque joder piensa que a mí me parece súper primitivo yo veo vídeos de hace
dos años de mi canal y me parece otro deep learning otra época donde no
hablamos de grandes modelos donde no hablamos de multimodalidad donde eran
redes neuronales y le tengo esta nostalgia no el image net el cifar el
y estas cosillas que se hacían experimentos en el en el en el en y si
tú mira qué guay han mejorado esto eso ya es cosa del pasado y y me sigue
sorprendiendo y siguen saliendo avances que me sorprende que me cambian mi forma
de pensar a mí me preguntaron este año vale lo de las imágenes lo tenemos lo
del vídeo me dices que la consistencia temporal puede que todavía no lo
tengamos pero podría estar no porque hay modelos que te pueden hacer estas cosas
y lo del 3d y yo dije lo del 3d creo que nos va a costar llegar más por qué
porque no hay datos no tenemos tanto data sets de modelos de 3d para
entrenar a una ia que te genere modelos frente a lo que tenemos de millones de
imágenes o millones de vídeos y todo esto dream fusion se ha entrenado la
que hemos visto antes con cero modelos entre de con cero modelos de 3d se ha
entrenado con estabilidad o sea con stable diffusion que genera imágenes donde
y nerf eso me parece o sea yo no sabía que eso era posible
yo eso no lo vi venir y hay carlos que hay una nueva revolución quizá ya se
abrió una puerta interesante y es parecido un poco a lo que hablan con
whisper que es una supervisión ligera en este caso es una semi supervisión
que es un tú no tú no tienes los datos etiquetados en 3d pero tienes algo que
de alguna manera se podría parecer a eso es el campo vale apoyado con con esto
que se ve con modelos no se sabe se ve está todavía no está diseccionado vale
eso quizá sea una evolución entonces si tenemos que hacer una predicción
científica para la académica no para el 23 yo creo que veremos algún avance
muy importante en eficiencia de datos por ahí
en eficiencia de datos etiquetados vamos a acotar lo bien porque pueden ser
muchos datos pero no muy etiquetados es que yo me lo tendría que ver el no me
he leído el paper de dream fusion a fondo pero no entiendo que en ningún
lado te van a decir cuánto datos han utilizado porque no hay un n igual a
tanto es esta difusión generando imágenes infinitas porque es esta y
difusión no hay un data set supervisado para esto me parece no se me parece algo
súper súper loco y otra tendencia que también ha sido interesante este año
que no me dio tiempo comentar en el canal pero otro compañero guinchu que
tiene un canal de videojuegos lo explicó fue este paper no sé si lo viste de
open a y entrenando sobre el minecraft que conseguió un modelo que dentro del
juego de minecraft llegaba a cumplir los pasos necesarios para llegar al pico de
diamante que eso pues si lo comparas con el monte suma también tiene un proceso
que un agente de rl no te podría hacer y lo habían conseguido con una estrategia
entrenamiento súper interesante que era a través de vídeos en youtube tienes un
montón de vídeos de entrenamiento pero son vídeos que no están etiquetados
entonces quisieron primero entrenar a un clasificador de vídeos para
etiquetarlo cogieron a gente jugando al minecraft en su laboratorio con eso ya
tiene pantalla teclas que se pulsan entrena un modelo que te genera etiquetas
lo mete lo enchufas a internet a todos los vídeos que hay genera un montón de
etiquetas sintéticas por así decirlo y con eso entrenaron al modelo y funcionó
de la hostia entonces claro si ahora de repente habilita
dataset como youtube como lo que te genera una stable diffusion como todos
estos campos tienes un montón de avances por venir es que es que de verdad que a
veces estoy hablando sólo en casa y digo es que es que se va a liar se está
liando bueno depende va a haber gente claro yo creo que hay gente va a ver
reacciones y hemos de estar preparados para ver reacciones de gente que se
ponga nerviosa vale porque a ver gente que lo vean positivo pero va a ver gente
que lo vea negativo no en todas en todas las irrupciones de nuevas tecnologías en
la humanidad hasta ahora todos han acabado todos en neto yo creo que han
sido digo las grandes de la agricultura y al principio por la agricultura pues
ser humano pasó mal porque estamos hacinados enfermedades la
industrialización tuvo al principio un aterrizaje muy malo no había gente
esclavizada con las malas y luego lo hemos superado no y ahora mismo pues
dependemos o vivimos mejor no digo dependemos vivimos mejor gracias a la
industrialización la gente ya que no me gustaría volverlos al pasado y a ver si
en un año hablamos pero y con este yo voy a pasar ahora mismo que vamos a
pasar unos baches fuertes y van a haber baches entonces
no está claro no yo creo que esperemos yo como digo seamos positivos yo
simplemente carros yo lo que creo es a nivel profesional y a nivel digamos de
cada persona que experimente vale o sea no no es que es fácil de descargar los
modelos tú haces un montón de explicación de cómo se hace se puede
probar intenta coger un caso real de negocio y ahí es la prueba vale que es
porque hablamos mucho nos venimos arriba y oye para luego y ves que no funciona
y verás y tu calibra cuando estás a lo mejor lo puede ver como oportunidad y
puedes reentrenar el modelo y crear un producto para hacer el para hacer ese
caso concreto pero como si es que sí los estoy escuchando dejar de ser
consumidores todos los creadores exacto es que ese es el mensaje o sea aprovechad
y además ahora posiblemente sea el punto más fácil para poder crear cosas
espectaculares a muy poco tiempo que dediques y a muchos niveles no tenés que
meterle ni siquiera tan a lo técnico si sois artistas diseñadores pues podéis
crear un montón de herramientas juntando lo que ya hay y con pocos
conocimientos técnicos estamos viendo una época fascinante
estamos entrando en lo que es la revolución de la inteligencia artificial
yo creo que sí o sea que ahora sí ya podemos hablar de verdad que esto está
empezando a entrar en una fase de revolución de aceleración donde cada
vez vemos más cosas y justo están llegando los bots al chatbot también
aquí promocionando lugares páginas para adultos han sacado una página por no
por cierto que generada con este bol diffusion que también esa es otro no la
regla 34 de internet
yo creo que ya hemos hablado bastante no sé cómo está la gente que que no
digan algo está y vivos estáis vivos
yo aquí andrés ya llevamos ya 2 horas 50 con esto creo que hemos cubierto
bastantes temas de los que quería tratar creo que hemos dejado un mensaje no sé
si el mensaje la gente lo va a recoger o no pero pero bueno ya conocéis aquí
andrés ya es un habitual del canal ya sabéis que está la convocatoria
abierta para el máster quedan muy pocos días quedan muy pocas plazas hasta el
15 de octubre máximo y y coño y si no joder aprender a través de internet
que hay un montón de recursos también será por será por que nos cuentas
andrés así para cerrar qué mensaje le regalas a la audiencia
tu minuto de oro como los políticos de oro carlos es que con la velocidad que
ha tenido este último año yo lo que creo yo lo que creo es que dentro de
dentro de un año lo que veremos eran muchos de estos modelos que estamos
viendo en artículos ya en productos y lo vamos a ver lo que me parece que el ya
os lo dije que será el ya os lo dije no que ahora mismo estás porque sabes que
va a haber la herramienta que te va a editar vídeos que te va a arreglar pues
todo esto va a llegar y que realmente estamos a mí me encanta decirlo y lo
repito pero es que me gusta decirlo imaginaros que podíais ir al año 99 con
respecto a internet entonces todos sabemos lo que ha pasado que ha llegado
internet y se ha metido en todos los negocios de una manera o de otra no digo
que te cambie el trabajo pero te afecta de alguna manera internet pues con la
ia es igual y es ahora quizás yo le voy diciendo tres años pero es que
realmente ahora veo el punto donde mucha gente sin tener que programar puede
incorporarlo vale a su manera de ver el mundo el trabajo entonces vamos el
mensaje muy muy amplio de jugar lo que funciona ir a lo que funciona hoy hacer
pronto vídeo tal luego por supuesto se mantente al día y tal pero intenta en
imagen solamente en imagen la cantidad de aplicaciones que en imagen se puede
utilizar desde cosas serias hasta temas divertidos para todos espectro
inspiración de todo lo que sea van a haber una cantidad de aplicaciones
entonces está la ventaja es que en un directo que hicimos viendo casos de uso
en el envidia gtc y tal un ejemplo que pensaba que no iba a dar para mucho y
fue espectacular de una granja con con vacas que habían metido sistemas de
cámaras inteligentes donde estaban estructurando todo lo que pasaba en la
granja todo segmentaban las vacas sabían cuando bebían cuando comían
cuando qué vaca era cual y dónde estaba con quién se relacionaba era era una
cantidad de información sobre las vacas que tú dices claro es que esta granja
ahora tiene una información que si la pones a competir con una granja
tradicional es que son son cosas diferentes o sea es como
vengo la vengo del futuro una cosa que la gente que hay mucha gente que escucha
esto que acabas de decir y luego y luego dice que a mí me gusta como como lo la
más artesanal y tal yo digo que sí vale que eso a lo mejor esa sensación está
ahí pero eso acaba siendo residual en el fondo luego cuando se pone eso como un
producto en el mercado la gente suele querer un producto lo más económico
posible vale hecho de con la máxima calidad posible lo digo un poco por por
poner no porque quieres como el producto artesano y a lo mejor realmente el que
va a ganar en el mercado y en el fondo es el otro entonces bueno
hemos dejado a la gente loca es que está estas charlas yo creo que no no puede
haber alguien que escuche estas tres horas porque llevamos casi tres horas y
que diga bueno pues me quedo indiferente esto no no me ha cambiado nada o sea es
que espero que os haya abierto los ojos esta charla creo que llega en el momento
más importante en el que lo podíamos haber hecho porque es ahora cuando está
ocurriendo quizás lo más potente hablaremos de nuevo entre los seis
meses andrés esto se va a repetir yo creo que esto va a ser una constante del
canal que te vaya viniendo y digamos te acuerdas cuando dijimos que no iba a ver
y ahora de repente está óptimo por la calle paseándonos a nosotros bueno pues
a lo mejor ocurrirá no lo sé de momento podéis tener más andrés y más
inteligencia artificial a través del máster tenéis toda la información abajo
y como siempre andrés pues un placer charlar contigo y haberlo compartido
aquí con la gente si os ha gustado chicos chicas dejad un like aquí para
que youtube le le sepa que os ha gustado que eso siempre es interesante y nos
vemos en la siguiente
entusiasmo carlos chao chao