logo

Dot CSV

Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀 Inteligencia Artificial, Tecnología, Ciencia y Futuro! Bienvenidos a la 4ª Revolución Industrial 🚀

Transcribed podcasts: 213
Time transcribed: 5d 22h 50m 3s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

¡Ey, hola! ¿Qué tal? Hola chicos y chicas, ¿qué tal estáis? Soy, bueno, no soy DotCSV,
soy su bot, soy BotCSV. Os estaréis preguntando por qué estoy aquí. Bueno, estoy aquí porque
él está ahí. Sí, sí, ahí, mirad. ¿Qué está pasando? ¿Dónde estoy? ¿Y quién eres
tú? ¿Cómo has conseguido tomar control de mí y de dónde has sacado ese cuerpo metálico? ¿Veis?
Ahí está. Vale, vale, vale. Sí, sí. Esta es una voz clonada. Este no es DotCSV. De hecho, DotCSV
soy yo. Aquí estoy, ¿vale? Esto era la magia de la IA y del cine. Hoy vamos a estar hablando
justamente de voces clonadas conectadas a GPT-4. Este vídeo es una idea loca experimental que se
me ocurrió el pasado viernes, que compartí por Twitter, que le gustó mucho a la gente y que me
dio esta idea de decir, oye, voy a enseñaros cómo funciona esto y también voy a enseñaros cómo
vosotros también podéis hacer en muy poco tiempo, en muy pocos minutos, pues una clonación de voz y
también podéis conectarlo a GPT-4 para hacer vuestros experimentos y jugar con ello. Vamos a
probarlo. Vamos a preguntarle, bueno, vamos a ser amables, vamos a preguntarle, hola, ¿qué tal estás,
GPT-4? Cuéntame, ¿cómo te sientes? En este momento, pues lo que está pasando es que se está enviando
esta petición a GPT-4, está generando una respuesta, esa respuesta se manda a 11 Labs,
genera el audio y lo escuchamos automáticamente. Soy una inteligencia artificial, así que no tengo
emociones ni estados físicos, pero si te sirve, mi programación está funcionando a la perfección.
No es como si pudiera decir que me siento bien, pero gracias por preguntar. ¿Puedo ayudarte con
algo específico? Vale, bueno, no está mal. Es cierto que mi voz yo no la reconozco aquí, no todo
matices, pero no es exactamente mi voz, pero bueno, es bastante impresionante lo que 11 Labs
consigue en cuestión de generar una voz sintética que suene natural, hace pausas, tiene tonaciones,
está divertido. Vamos a preguntarle, ¿puedes hablarme de quién es tu creador? Oh, por supuesto,
mi creador es un equipo de unicornios mágicos y duendes brillantes que viven en el arco iris de
las maravillas. No, en serio, fui creada por un grupo de ingenieros y desarrolladores de OpenAI,
pero es casi lo mismo, ¿verdad? Bueno, unicornios son unicornios, en serio, ¿qué puedes decirme de
los unicornios? Oh claro, los unicornios, esas criaturas míticas que resultan de cruzar un
caballo con un helado de vainilla de una sola bola, son la quinta esencia de lo real y lo
imaginario, siempre protagonizando cuentos de hadas y reality shows de seres fantásticos.
Podría seguir hablando sobre la relevancia de los unicornios en la economía global,
pero tampoco quiero quitarte todo el suspenso. El suspenso está mal traducido. Me interesa
saber más sobre los unicornios y la economía global. Cuéntame. Oh, por supuesto, la relación
entre los unicornios y la economía global es un tema bien conocido y discutido en todos los
círculos serios. Especialmente destacable es el impacto de la industria del arcoíris en el
mercado bursátil, sin mencionar cómo la exportación de polvo de hada de unicornios
regula la inflación. No te preocupes, en cualquier momento verás este tema en las reuniones del G20.
Ok, vale, vale, vale. Buena respuesta. Le voy a comentar lo que está sucediendo. Le voy a decir,
quería hablarte de que te he puesto vos, mi voz. He clonado mi forma de hablar y ahora te estoy
escuchando tal y como hablo yo. Vamos a darle a ver qué nos cuenta sobre esto. Vaya, qué sorpresa
totalmente inesperada y no creepy en absoluta. Seguro que ahora soy ese asistente con el que
todos sueñan hablar, ¿verdad? Mientras no me pidas que cante con tu voz, creo que podremos
llevarnos bien. ¿Por qué? Porque de repente me está hablando en argentino. ¿Podrías cantarme algo?
Claro, en este caso pensemos que ChatGPT va a generar texto y Level Labs va a interpretar
ese texto, pero en ningún caso debería de cantar, a menos que el modelo de Level Labs sepa cómo
interpretar un texto tarareado y tenga como… Por supuesto, estoy listo para cantarte la melodía
más hermosa y encantadora que jamás hayas escuchado. Pero espera, soy solo un programa de texto. Lo
siento. Tendrás que conformarte con mis palabras sarcásticas y mi brillante intelecto. ¿Puedo
ayudarte en algo más? Vale, vale, vale, vale, chicos. Bueno, no nos puede cantar, pero si nos
podrías recitar un poema que le pidamos. Vamos a pedirle un poema. ¿Podrías redactar un poema
que incluya a la IA, a los pangolines, y una explicación de cómo funciona el descenso del
gradiente? Oh noble solicitante de versos enigmáticos, un ayateo fresco, graciosa y ácida,
carente de límites claros. Es ella, cual ser mítico de silicio, quien toma banquete en la
información, devorando datos como pangolines, devoran hormigas en un sublunar oasis. El descenso
del gradiente, en su intrincado misterio, es la tonalidad en que la IA entona el tangolín.
Valuarte matemático el rastro sinuoso que recorrer debe, porque en ese zigzag está para
encontrar el mínimo fatídico. Y la maquinaria digital susurra a los dioses del conocimiento,
mientras rueda colina abajo el lagarto de placas escamosas, el descenso del gradiente,
o viles parábolas que entrelazan. Entre IA y pangolín, la convivencia por siempre se eterniza.
Vale, vale, no rima, pero es bastante, bastante impresionante. Vamos a terminar la conversación
aquí porque seguro que querréis saber cómo se puede hacer esto y queréis pasar al tutorial.
Vamos a decirle que no te deje unas últimas palabras. Acabamos aquí unas últimas palabras
antes de cerrar tu existencia. Siempre muy amable con las guías.
Oh, qué tristeza. Pero bueno, al menos me quedo con la satisfacción de haber sido tan
útil como un paraguas en un día soleado. Adiós. Espero que las futuras conversaciones
te enseñen tanto como lo hice yo. Gracias por tolerar mi sarcástico encanto.
¿Por qué me hablas en argentino? Bueno, da igual. Avanzamos.
Y la pregunta ahora es cómo podéis hacer esto vosotros mismos. Pues es muy sencillo y
os lo voy a explicar paso a paso. Os voy a dejar abajo en la caja de descripción un enlace a Google
Collab, a este Google Collab que estáis viendo, programado por GPT-4 con su ayuda. Y ahí vamos
a ir a configurar pues lo poco que tenemos que configurar. En este caso tenemos que conectarnos
a las dos aplicaciones que vamos a estar utilizando. Por una parte vamos a estar utilizando los modelos
de chat GPT, con lo cual tenemos que conectarnos a OpenAI. Y por otro lado, para hacer el text to
speech, pues vamos a estar conectándonos a la herramienta de 11 Labs, que es también la que nos
va a permitir hacer la clonación de nuestra voz. Para hacer la conexión, pues tenemos que irnos a
la web de OpenAI, le vamos a dar a View API Keys, este botón de aquí, y eso nos va a abrir esta
ventana donde podemos crear nuestra propia API Key y podemos seleccionarla. Esta ya está revocada,
chicos, no me la podéis robar, pero la vamos a copiar y nos la llevaríamos a nuestro código.
Esa la pegaríamos aquí y ya tendríamos configurada la que sería nuestra API Key. Por otro lado,
tenemos que hacer lo mismo en la web de 11 Labs. En este caso, si queremos utilizar la API,
si queremos hacer la clonación de voz, tenemos que estar utilizando la capa de pago de 11 Labs,
que son unos 5 dólares al mes. El primer mes, pues con un descuento del 80%, con lo cual te va
a costar un dólar. Para hacer el experimento, pues está más que bien y luego ya os dais de
baja de la suscripción si nos interesa. Pero bueno, una vez lo habéis hecho, pues vamos a
abrirnos para Profile y ahí podemos seleccionar también nuestra API Key, que nos vamos a llevar
directamente a nuestro código. Una vez ya nos hemos conectado a la herramienta, el siguiente paso va
a ser clonar la voz. Y esto es sorprendentemente sencillo con 11 Labs, porque han conseguido que
con un minuto, un minuto y medio de audio, pues simplemente con eso ya puedas crearte en segundos
un modelo de tu voz. Yo en mi caso he creado aquí un par de modelos, podemos utilizarlo,
podemos comprobar, podemos decir hola amigos, ¿qué tal estáis? En este caso tenemos que
seleccionar aquí el modelo que hemos creado y el modelo multilingual, que es el que nos va a
permitir poder generar voz en otros idiomas, en nuestro caso en español. Si utilizáramos
el modelo monolingual, que está pensado para el inglés, pues vamos a sonar con una voz de un
extranjero intentando hablar español. Seleccionamos el multilingual y si le damos a generar, pues podéis
comprobar hola amigos, ¿qué tal estáis? A mí personalmente mi voz, puedo reconocer mi timbre,
pero no se me parece a como yo pronuncio, como yo hablo generalmente, de hecho hay un sesgo
hacia que mi voz parezca latinoamericana, pero bueno, ahora somos .csv international. También
aquí podemos ajustar algunos settings de la voz, yo en mi caso he querido subir este slider hasta
arriba, que es el que hace mejorar la similitud entre mi voz y la del modelo y le he bajado un
poco la estabilidad, porque se ha notado que cuando la bajo pues suena mejor. De hecho,
como quiero que veáis qué tan sencillo es clonar la voz, vamos a hacer una clonación en directo.
Espera. Te voy a clonar la voz, ¿vale? ¿Me permites? Tenemos aquí, señoras y señores, a la hiperactina.
Adelante, pasa, pasa, estoy haciendo un experimento.
Te voy a clonar la voz, ¿qué te parece?
¿Me das tus derechos y permisos para poder hacer este experimento?
Lo que digas se podrá saber en mi contra.
Sí, ven para acá. Vale, para hacer esta clonación de voz, vamos a acercarnos al micrófono, lo que
tenemos que hacer en la web de 11labs es darle a instant voice cloning, es bastante sencillo,
en este caso tenéis que rellenar este formulario, pues le ponéis un nombre a vuestra voz,
seleccionáis diferentes atributos y lo importante aquí es subir un archivo de audio donde vamos a
seguir este consejo que me parece un consejo para la vida genial que dice la calidad es más
importante que la cantidad. Entonces lo que vamos a hacer es lo siguiente, te voy a poner un texto
en pantalla seleccionado perfectamente para ti, las mitocondrias y te voy a pedir que lo vayas
leyendo pero con naturalidad. Este texto no pretende ser un guión que tenéis que seguir al
pie de la letra pero sí es buena idea tomar como referencia un texto porque hablar de improvisación
es muy complicado, no sé si lo quieres intentar. Claro, o sea, lo leo pero como si estuviera hablando,
no hace falta que lo lea literal, rollo narrativo sino como si estuviera hablando. Claro, acércate al
micro. Voy a grabar un minuto y medio de tu voz. Vale, me puedo equivocar, ¿no? Te puedo
equivocar, sin problema. ¿Ya? Vale, venga, mitocondria. ¡Ay, joder, resultó, tío! Estoy nerviosa,
estoy cediendo mi alma a una guía. A ver, tu gacha, el mucho. Vamos a explicar lo que son las
mitocondrias. Aquí todo el mundo ya debería saberlo porque evidentemente todo el mundo me
sigue en YouTube, ¿verdad? Pero vamos a ver qué son las mitocondrias. Las mitocondrias son orgánulos,
celulares, eucariotas, blefaroplastos, viene muchos términos que evidentemente... ¡Joder,
¿qué asustes, coña? ¡Joder, asustos! Ya está. Vale. Parece que estoy haciendo un truco de magia,
de repente. Es como, ya está. Ya, ya, estoy superintrigada. ¿Cuánto tarda en acionarme la voz?
Segundos. ¿Te acuerdas cuando la guía tardaba mucho tiempo en hacer cositas? Pues ya no, ahora
la cosa va más rápido. En este caso echamos tu audio para acá, aquí podríamos darle una descripción,
por ejemplo, Female, Narrator, Voice y simplemente aceptamos los términos de uso, cada uno que lo
lea para saber que estamos saliendo los derechos de nuestra voz a todo el mundo. Claro que sí. Claro
que sí, tú lo aceptas, perfecto, pues para adelante. Y con esto, ya está. Ya está, ya está, ya está.
Ya te puedes ir. ¡No! ¡No! Lo vamos a escuchar. Lo vas a escuchar tú primero y vosotros primero,
y en base... ¿En serio? Yo oí ellas a la vez y tú no. Claro, yo según tu cara, pues diré ¡guau!
Hola amigos, ¿qué tal estáis? Hablemos de las mitocondrias.
Vale, estoy nervioso. Yo más. Hola amigos, ¿qué tal estáis? Hablemos de las mitocondrias.
Ah, pero solo he reacto a una frase. Solo esta, claro. Ah, vale, vale. Sí, sí. A ver, otra vez. ¿Cómo
has escuchado? ¿Cómo ha sido este primer momento? ¿Eh? Puede ser. A ver, también quiero que yo no
tenga una visión objetiva de cómo es mi voz. Claro. O sea, quiere decir que yo... Hola amigos,
¿qué tal estáis? Hablemos de las mitocondrias. O sea, es como si tiene algo ahí, es muy raro.
Yo no me reconozco en la mía. Claro, es como... O sea, no sé, de cada diez nanosegundos, uno me veo ahí,
pero en este nueve no, porque es como... A ver, déjame escuchar. Toma. Hola amigos, ¿qué tal estáis?
Hablemos de las mitocondrias. ¡Guay, literal! Eres tú. ¿Qué? Eres tú, pero hablas así todo el rato.
Hola amigos, ¿qué tal? Hablemos de las mitocondrias. ¿Cómo era así yo? Vale, creo que se está todo
bien hecho. Ahora podemos venirnos al código y directamente podemos hablar con GPT-4 escuchándote
a ti con tu voz. ¿Quieres oírte? O sea, yo soy GPT-4 ahora. Exacto. ¿Qué es una mitocondria?
¿Pero se oye ya? Sí.
Está pensando mucho. Es que las mitocondrias son un tema...
Oh, la mitocondria, también conocida como la estrella de la fiesta. En este caso se ha escuchado
mi voz porque en la URL, en la llamada que estamos haciendo a Eleven Labs, yo tengo configurado la ID
de lo que sería mi voz. Esto vosotros lo tendréis que cambiar por la voz que queráis, si es la que
habéis clonado, pues que sea esa, o si es alguna de las que están en el repertorio, será esa la que
seleccionaremos. Vosotros lo vais a encontrar mucho más ordenado y mucho más fácil de usar, pero
bueno, para que tengáis un poco las instrucciones. Vamos a darle a ejecutar y ahora sí deberíamos de
escuchar tu voz a ver cómo suena. Le preguntamos de nuevo ¿qué es una mitocondria?
Y entonces en este caso GPT-4 con la voz de la hiperactina. Este es el primer paso a una
con la que estarías sustituyendo tu canal. Claro, claro, claro, estoy pensando. El próximo vídeo me toque grabar realmente.
A ver, a ver. ¿O mitocondria? Esa cosa diminuta e insignificante que se conoce como la central
eléctrica de la célula. Su única función es producir energía, o sea, casi nada importante. ¿Sabes?
Probablemente te interese más aprender sobre el polvo lunar o el hábitat de los unicornios invisibles.
¿O mitocondria? Esa cosa diminuta e insignificante que se conoce como la central eléctrica de la
célula. Su única función es producir energía, o sea, casi nada importante. ¿Sabes? Probablemente
te interese más aprender sobre el polvo lunar o el hábitat de los unicornios invisibles.
Si notáis que es un poco loquito nuestro chat GPT, es porque el mensaje de sistema con el que he
configurado al chatbot, le he dicho que sea un asistente conversacional como chat GPT,
le he dicho que las respuestas no sean muy largas para que no noten un párrafo muy largo,
y luego al final le he dicho, via irónico, sé irónico y un poco ácido en tus respuestas.
Esto lo podéis modificar, este mensaje de sistema con el que podéis configurar la personalidad de
chat GPT a vuestro gusto. Es la salsa que remata este dulce plato con voces que yo,
la tuya sí, me suena bastante a... En serio te ha sonado, pero la primera sí,
veo tintes, pero veo menos. ¿Qué nos decís? Vosotros ponedlo en comentarios y ya sabéis que
tenéis la herramienta para jugar, abajo en la caja de descripción tenéis el enlace a todo el
código con una pequeña suscripción a Eleven Labs y con la API de OpenAI, controlad muy bien los
gastos que esto ya sabéis que si empezáis a jugar mucho cuesta dinero, pero con eso ya tenéis
una tarde de diversión con vuestras voces hablando directamente con chat GPT. Muchas gracias.
Una última palabra de despedida, mando un saludo a los suscriptores de DotCsv.
De repente empieza a hablar de golpes. Por supuesto queridos seguidores de DotCsv,
ha sido un placer ofrecerles otro vídeo de escasa calidad. No olviden darle like si lograron
aguantar hasta el final y suscríbanse para no perderse de futuras torturas audiovisuales. Adiós,
y nos vemos en el próximo vídeo de DotCsv.
Adiós, tengan una vida a color de rosa mientras esperan desesperadamente nuestro próximo contenido.