logo

midulive


Transcribed podcasts: 746
Time transcribed: 15d 5h 20m 39s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

es una biblioteca que no es que sea nueva pero no paran no paran de mejorar y que si te gusta
todo el tema de inteligencia artificial machine learning modelos de lenguaje y todo esto te va
a encantar vale y es que se llama transformers punto js que es esto esto es poder ejecutar
muchos de los modelos que tenéis pues para sumarizar textos para entender el sentimiento
del texto incluso para generar voces hay un montón lo podéis ejecutar desde un navegador esto os abre
un montón de posibilidades desde un navegador o desde note por ejemplo es tremendo y hay un montón
de modelos disponibles vamos a hacer una demo para que veamos un poquito de código muy fácil pero que
es que es increíble la de la que tenéis el procesamiento de lenguaje natural para clasificar
texto para responder preguntas para sumarizar traducir para audio clasificar audio o generar
audio o sea es brutal lo único que hay que hacer es instalar esta dependencia y aquí tenéis algunos
ejemplos que tenéis ya hechos aquí tenéis todos los modelos y cada tarea pues lo podéis ver vale
y aquí tenéis el modelo que tenéis que utilizar y uno de ellos veis aquí es el de text to speech o
sea podéis generar una voz natural utilizando un texto un input de un texto vamos a poner aquí machine
learning js ya son modelos que están hechos vale voy a inicializar el proyecto en un momento voy a abrir
esto y aquí voy a poner que vamos a utilizar el tipo módulo vamos a poner aquí index.js como no me da
la vida de hacerlo línea por línea ya he hecho el ejemplo antes pero voy a explicar el código esto es
lo que he hecho mirad lo primero que hacemos es importar el pipeline y esta es la dependencia clave vale
esta es la dependencia que tenéis que instalar chenova barra transformers esta es la dependencia clave
luego esto es la dependencia que estoy utilizando para generar el audio en punto guap porque qué es lo que quiero
hacer lo que quiero hacer aquí básicamente es generar de este texto un audio que se entienda bastante
bien y lo tenéis en diferentes idiomas yo lo he hecho en inglés pero que sepáis que tenéis diferentes
idiomas y diferentes voces de hombres de mujeres con acento canadiense norteamericano de un montón de
cosas vale o sea tenéis un montón lo que tenemos aquí es en el panel aquí le estoy diciendo el modelo
veis este texto speech es este aquí texto speech pero podéis utilizar otro por ejemplo image to image
segmentación de image image classification podéis utilizar lo que queráis vale y aquí tendríamos cuál
es la versión del modelo que queremos utilizar en este caso speech t5 tts ahora mismo por lo que he leído
solo funciona este modelo para hacer el texto al audio vale esto esto es gratis se ejecuta en vuestra
máquina si lo subís a un servidor se ejecuta en el servidor y es 100% gratuito de código abierto todo
lo que estáis viendo vale o sea eso es lo increíble que no tenéis que pagar un servicio para generar esto
luego aquí lo que estoy haciendo aquí tendríamos el sintetizador al sintetizador lo que le hacemos es
pasarle básicamente la frase y tenemos que pasarle los embeddings los embeddings sería como el dataset que
tiene toda la información del modelo de datos para que pueda sintetizar perfectamente la voz del speaker
y ahí podéis seleccionar diferentes hay diferentes disponibles esto le tienes que poner la url donde
tienes el embedding y ya está lo único que hago con esto esto genera un output y lo que hacemos aquí es
generar el archivo de audio con el web file creamos el web esto hacemos esto ya es mirando la documentación
lo que tiene que hacer cada cosa no me acuerdo de cada uno pero sí que básicamente es el output el
sampling rate que teníamos y el audio del output vale esto es una biblioteca que he buscado que es
esta de web file la podéis mirar aquí web file npm y aquí tendría la dependencia no es muy nueva pero
bueno hay diferentes seguro que hay alguna más nueva que seguramente funcione mejor pero yo he visto esta
me ha funcionado y ya está vale utilizado otra que conozcáis a lo mejor de mp3 yo he probado esta
y estaba funcionado y le he visto que ellos la usaban también la documentación y ya está lo
interesante es el final porque una vez que tenemos aquí el audio guardamos el audio en punto web y
esta sería la frase hi mi def how are you doing today i hope you are doing well tampoco es que sea
nada del otro mundo esto lo que hace es de un texto te genera una voz que lee este texto de forma
natural porque no lo he hecho en español porque la gente verá es que tienen tantos modelos de datos que
no ha sido incapaz de encontrarlo uno en español tienen en inglés y tienen un montón de acentos
tienen cientos y cientos de acentos y el problema es que no ha encontrado una lista pero sí que habla
en español también porque lo está viendo que habla en español y otro en idioma lo que pasa es que le
tienes que poner la voz correcta y el problema es que no encontraron a voz si alguien la encuentra que
me la base y lo hacemos pero que no lo ha encontrado porque tienen miles y miles de voces vamos a hacer un
npm install npm install de esta que sea la dependencia de para utilizar el modelo y luego la de wifi para
generar el audio vale le ponemos menos e será de pago algún día no porque esto es un modelo que se descarga en
tu máquina esto no va a ser de pago nunca siempre va a ser gratuito esto que estamos viendo ahora esto es lo que yo
creo que va a ser el futuro de la inteligencia artificial que al final lo que va a ocurrir al futuro es que no vamos a
utilizar open y hay y todo esto es que los modelos van a estar pre entrenados y van a ser de código abierto
los vamos a descargar en nuestra máquina y lo vamos a utilizar y eso es el gran miedo no sé si lo sabíais
pero mira google afraid open source y hay google engineer concern about open source y hay esto es de mayo pero esto es una
realidad como un templo el gran miedo que tienen estas empresas realmente es el hecho de decir ostras como lleguemos
tarde al mundo de inteligencia artificial lo que va a ocurrir es que cada vez el open source va a ser
cada vez más potente los modelos de datos se van a entrenar cada vez mejor y la gente lo que va a hacer
es tenerlos en su propio en su propia máquina por ejemplo y es que ya tenéis un montón de ejemplos
llama 2 que es de meta es totalmente de código abierto y funciona increíble el modelo lo podéis utilizar
para generar código para responder preguntas hay un montón de casos aquí tenemos por ejemplo algunos
benchmarks en los que ha funcionado mejor que algunos incluso se ha comparado con chat gpt y tal
lo podéis instalar súper fácil es este está disponible para macos y para linux y para windows
lo van a sacar pues esto lo que hace es básicamente que os estáis instalando llamados en vuestra máquina y
ya lo podéis preguntar lo que os dé la gana y lo podéis ejecutar desde la terminal y todo esto e
incluso lo podéis conectar para que os genere código con coach gpt coach gpt es una extensión de
visual studio code que además está hecha por un chico que se llama daniel que lo hemos tenido aquí
en un directo y que aquí podéis utilizar coach llama para que os genere código a lo que hija copa y lo
totalmente gratis y el local y aquí tenéis la documentación de cómo utilizarlo vale pero veis
o llama pulco llama y yo general código y ya está o sea está muy muy chulo lo que os quería comentar de
todo esto es que el futuro es open source y el código que hemos hecho para generar una voz
totalmente gratis sin ir a internet o sea esto no va a internet esto lo hemos hecho en nuestra propia
máquina vamos a ser note index punto js esto está ejecutando básicamente el modelo que bueno no sé si
ves ya está aquí utilizando todo el modelo bla bla bla si miramos aquí ya tenemos un out punto web open
out punto web esto no sé dónde me voy a ejecutar veis esa frase la ha generado básicamente aquí
hi twitch chat be evil follow me dude vale sí estoy haciendo bien y twitch chat don't be evil follow me
dude of no no están grabadas todas las frases sino que simplemente lo que está haciendo con machine
learning está generando la voz lo cual es increíble o sea no tiene las frases pre grabadas de hecho se
escucha la voz bastante natural aunque se ve se escucha a veces un poco raro pero sí que es verdad
que se escucha bastante más natural que por ejemplo siri que os habrá pasado alguna vez así que está
bastante bastante chulo y fijaos cuánto hemos hecho 22 líneas de código esto es lo que yo creo que esto
es una locura que lo hemos ejecutado totalmente el local lo hemos hecho en javascript que ha tardado
dos segundos dos segundos en hacerlo tremendo es mucho mejor que el speaker macabro del navegador hombre
obviamente obviamente cada con php tardaría cuatro veces menos es verdad es verdad pero claro es que
con php no puedes hacer esto
tenemos
y
y
y