logo

luachannel


Transcribed podcasts: 46
Time transcribed: 1d 22h 0m 0s

This graph shows how many times the word ______ has been mentioned throughout the history of the program.

¿Ens podries explicar una mica el projecte que esteu fent NACAST, l'incredibilitat artificial?
Sí, bon dia. Doncs NACAST és un software que fins ara portem de deu anys ja al mercat
i grava els programes de ràdio en continuïtat, és a dir, ràdios més clàssics,
que no són produccions de podcast que s'emeten en diferit, sinó que s'emeten en directe i són tot el dia matem.
Nosaltres gravem els programes i els fem disponibles per a programes de podcast, per web, per diferents formats.
Clar, portem milers i milers d'hores gravats, arxius d'àudio molt, molt grossos,
que és difícil d'explorar i cercar o gairebé impossible.
Nosaltres a l'Internet Geològic i Geològic just aquest any, hi ha hagut certs salts tecnològics que permeten, entre altres coses,
hi ha hagut tres punts d'intel·ligència artificial que han millorat molt aquest any,
tot ve d'una mateixa investigació que va fer Google el 2014 i la va publicar, i ara estem veient altres votants,
que s'han vist millores en generació d'imatges, en transcripció d'àudio i en generació de textos.
Aleshores, nosaltres comencem passant els podcasts per a transcripció,
que més ja hi havia en el suport de transcripció, més o menys tothom ho ha provat, els cities, els assistents,
i no han anat mai del tot fins, molt, molt menys en català.
En català sempre havia estat encara més problemàtic, o qualsevol altre idioma que tingui menys parlants.
Aleshores, en aquest cas, OpenAI, la mateixa empresa que ha fet xat GPD, va treure un model de transcripció d'intel·ligència artificial
que potser anava molt bé, en català també.
I nota també Facebook està treballant en això, Facebook s'ha centrat aplicant les mateixes millores tecnològiques,
però en lloc de treure 30 llengües, com ha fet OpenAI, Facebook s'està centrant en 1.400 idiomes.
Facebook està intentant fer un model també que entengui idiomes molt, molt més minoritaris.
Hi ha millores en el sector.
Aleshores, una vegada tens el text, això és la primera part, ara pots començar a treballar amb ell.
És com si tu tens una pàgina de notícies o un fòrum, que tens milers de pàgines de text, ja pots buscar.
Això és molt antic. Pots fer servir qualsevol motor de cerca, Google és un, el més famós,
o pots fer servir interns per buscar quan algú parla d'avançar, quan algú parla de ciclisme.
Això és el més fàcil. Una vegada tens ja l'audio transcrit, pots començar a buscar sobre ell.
Però és que a més, aquest any també hi ha hagut millores en intel·ligència artificial, en generació de textos i comprensió de textos.
J.P.T. és el més famós, que et permeten entendre el contingut dels textos i cercar de manera semàntica,
que això és bastant increïble també.
Pots començar a preguntar, per exemple, o sigui, tu tens totes les podcasts d'una ràdio o d'un programa transcrits
i pots entendre el contingut del podcast també.
I pots fer preguntes de l'estil quan es parla de canvi climàtic.
I encara que les paraules canvi climàtic no apareixin allà, si algú està parlant de l'emprenta de CO2
i en cap moment diuen la paraula canvi climàtic, o si algú simplement està parlant d'eficiència de recursos
en diferents moments de conversa del programa,
podem etiquetar que allà s'està parlant de canvi climàtic o de temes que tenen relació amb canvi climàtic,
fins i tot amb un percentatge. Aquesta conversa és més sobre canvi climàtic
o fins i tot li pots preguntar canvi climàtic en el context de les bicis.
Tu passes a tenir milers i milers d'hores de podcasts que no podies consultar, veure de què es parla...
Fins i tot aquests models entenen el to a la conversa.
Podríem dir-los que els podcasts on la gent parla de manera més enfadada.
Vull que em diguis... o fer relacions.
El que se t'acudeix.
Relacionar temes...
Volem dir que quan la gent parla de política està més exaltada o menys.
Es poden fer el que vulguis.
Ja és un nivell de comprensió i de...
Després, generar resums, òbviament.
Generar titulars sobre un podcast. Una vegada tens el text, es poden fer mil coses.
¿Podràs posar un exemple concret de com això beneficia els usuaris o clients d'anar a cas a la cerca i l'accés al contingut específic?
Sí.
Aquí hi ha dos beneficis en el nostre producte.
Un és el nostre client, el que paga, que és la ràdio.
Després també hi ha l'ullent final.
L'ullent final esperem que tingui també aims per navegar per al contingut.
Fins i tot Google el pugui portar.
El mateix Google no et pot portar un podcast de fa un any.
A no ser que la ràdio en aquell dia hagués posat una descripció molt bona sobre el que es parlava en aquell podcast.
I a vegades hi ha detalls que no pots posar en un resum.
I aquell podcast quedarà, encara que algú estigui buscant a Google, mai trobarà aquest podcast.
Això seria la part de l'ullent final.
I el nostre client té ara accés al seu arxiu, en pot buscar talls.
Per exemple, en èpoques d'eleccions, que ara estem passant vàries.
Aquest polític què va dir jo?
Quant va dir això?
Vull trobar el tall.
Li dona una manera de navegar per al seu contingut molt més còmode.
A més, per exemple, una altra cosa que es pot fer en ràdios petites,
on a nivell tecnològic no tenen tantes eines,
pots també detectar l'inici d'un programa.
No comencen mai al minut 00.
De manera que a vegades van uns minuts darrere, uns minuts...
Nosaltres ara podem detectar quan realment comença el programa i tallar-lo automàticament.
Hi ha moltes coses que...
Al final, la sensació és que tens un empleat més.
Ara mateix no és un humà complet.
No et fa tota la feina que et podria fer un humà.
Però sí que és una persona que fa tasques senzilles i repetitives
que fins ara a les màquines no podíem fer
i que ara comencen a agafar noves tasques que abans no podíem fer i ara sé.
M'he de tallar aquest ator.
Com has convertit-se en programes de ràdio en text?
Com s'assegura a capturar l'essència i el context del contingut auditiu original?
Quins reptes s'enfronten en aquesta conversió?
Ara m'he perdut jo.
A nivell de precisió, exacte.
Has de dir potser errors, noms propis...
En quin punt estem?
Mira, faig aquest.
Com s'adonen els desafiaments relacionats amb els accents, l'entonació, els noms propis
i altres aspectes lingüístics en convertir la part en text?
Això és interessant.
Això són models d'integit artificial.
No són un algoritme clàssic que podríem entendre.
Podríem entendre com funciona un model d'integit artificial,
però s'assembla o s'intenta assemblar i s'inspira en el cervell humà.
A vegades portem molts anys de tecnologia, la revolució,
i a vegades pensem que les màquines ho fan així.
Hi ha coses que no poden fer.
Els models d'integit artificial imiten com funciona el cervell humà,
de manera que moltes de les coses que a vegades pensem
si una màquina fallarà o no pot arribar a fer-ho, se'ns cau.
Dic això perquè, per exemple, el model de transcripció no agafa només això.
El model de transcripció té en compte l'entonació.
Els models d'integit artificial.
I ho fan com ho faries tu.
La pregunta és què pot fer la màquina.
Avui és una cosa, però la tecnologia està millorant.
Ara mateix no hi ha un límit.
Si al model de transcripció se li escapa alguna cosa que a un humà
no se li escaparia, què pot passar?
Això és susceptible a ser enlluïrat en un any o dos.
No hi ha un límit ara mateix.
Parlem de transcripció i parlem d'altres feines
on sí que encara la màquina no arriba.
Però a nivell de transcripció semblaria estar fent servir
les mateixes lògiques i processos que faria el teu cervell.
Si has estat un salgrós, ho fa molt bé.
Entén molt bé els noms, perquè no consulta una baseada o un diccionari.
Podríem dir un nom que no has sentit mai
i intentaria escriure-lo com un humà quan no l'has sentit mai.
També en context d'idioma, per exemple.
Clar, fallaria, potser sí, però com ho faria un humà.
Si jo ara m'invento un nom i et dic Robertet,
intentaré escriure Robertet, potser sí, m'equivoco.
La màquina faria la mateixa lògica.
Té una certa lògica que intenta emetre la lògica humana
i que està entrenada amb l'input d'humans.
Això es diu alineament.
El que estem intentant és que les intel·ligències artificials
s'alinien amb el que faria un humà.
No és perfecte, com no és un humà tampoc,
però és sorprenentment bo.
Dels models que feu,
què utilitzeu a l'OpenAI?
Sí, OpenAI és una empresa
que està fent desenvolupament de productes
i el model seria com una base d'ales
i el model és un fitxer, un fitxer gegant.
I heu hagut d'entrenar aquests models?
No, aquí diferenciaríem entre diferents tipus de model.
S'està començant a fer una nomenclatura,
és una mica nova, també.
S'està petant de models base,
que són models que només poden entrenar OpenAI,
Facebook, Microsoft i Google.
Costa milions i milions d'entrenar-los
i costa mesos d'entrenar-los.
Aquests serien els models base.
Després tu entrenes sobre el model base,
pots entrenar especificitat.
Per exemple, jo podria agafar el model de xat GPT
i vull fer-lo específic per documents legals,
perquè vull fer un producte que t'ajudi a navegar documents legals.
Això es pot fer, són entrenaments sobre el model base,
però el model base és impossible entrenar-lo de zero.
I després hi hauria un tercer nivell
que és fer servir el model com si fos un programa normal.
El model de transcripció és un model base
que és molt complicat d'entrenar,
costa milions i milions i milions.
Aquest no l'entrenem.
Després, sobre les transcripcions,
també hi ha altres models base,
tipus el de xat GPT.
El xat GPT és un producte, no és un model.
I en aquest model sí que pots fer una cosa
que es diu embeddings,
que és fer-lo una mica més específic de la teva àrea.
I això sí que ho podem fer i ho fem.
Aleshores, hi ha aquest nivell...
Pots afinar models base,
aquest ambient resultats,
els alinies a...
Si tu ja li dius que estàs en el context d'entrevistes,
et donaran millors resultats,
és igual que a un home.
Si a un home no li dones context, li dius mira,
tinc aquests textos.
Això va passar en una ràdio, va passar aquest any.
Per tant, si li dones context,
és més precis.
I en quines àrees d'indústria específica
es veu més potencial,
si teniu algun pla per expandir-vos
a part de ràdios o...?
Bueno, sí.
Ràdios per a nosaltres és un pas lògic,
perquè ja ho tenim.
Els àudios també podem aportar valor directe molt ràpid,
però bueno, m'imagino,
i m'imagino que hi ha moltes empreses treballant en això,
però pot ser reunions d'empresa que quedin ben indexades.
Hi ha també requisits legals
sobre, per exemple, contents accionistes.
Podria ser una molt bona eina.
Aquesta mateixa reunió?
Sí, aquesta mateixa reunió.
Podríem tenir clar...
penjada.
Després, plataformes de vídeo.
Hi ha altres plataformes de vídeo locals,
tipo TV3,
que podria també fer...
La transcripció pot ser també
per a l'accessibilitat de persones
que no puguin escoltar.
Bueno,
qualsevol traducció
en temps real,
hi ha moltíssimes coses, clar.
El nostre valor serà combinar
transcripció
amb la cerca semàntica
i entendre
el context en el nostre cas ràdio
i anirem veient si és el tema d'altres coses.
O podcasts més clàssics, també,
podcast tipus Jordi Wild,
que no són ràdio,
però que tot també puguis buscar
en totes aquelles hores i hores de contingut.
Quan s'ha parlat d'una cosa, quan va dir això...
Jo personalment m'ho he fet saber en alguns podcasts
que jo escolto i que fem proves,
els tinc allà, i és molt interessant.
Quan van dir això?
Què pensa aquesta persona d'aquest tema?
I és molt, molt curt.
Una de les poses que hi ha actualment
és si aquestes tenen noves tecnologies
revolucionàries, traurem llocs de treball,
en aquest cas,
els vostres actors del periodisme.
No sé si tu creus que podrien treure llocs.
A primera jo crec que no.
Jo crec que són feines de moment, encara,
de moment són feines generalment repetitives.
La realitat és que transcriure un podcast
pot fer un home
i la realitat és que no ho fa ningú.
Ningú agafa tots els podcasts de la ràdio
perquè és massa ca.
Una radiogram potser sí,
o algun programa específic,
però jo no ho he vist ni en ràdio.
És una feina que no es feia abans
i que ara s'afegeix.
Hi ha altres parts
de la procés
que poden millorar
o poden ser més àgils.
Jo crec que no traurà feines.
Hi ha altres, per exemple,
que fan una reducció.
La fan molt bé.
Una ràdio podria fer el seu polític
amb altres idiomes,
una feina que tampoc s'està fent ara mateix.
En realitat, ara mateix,
en el parlant de producte de ràdios
estem fent una feina que no es feia.
Ara, que en desig artificial
substituirà feines que sí que s'estan fent,
si passarà,
i com ha passat amb altres coses,
ens haurem d'anar adoptant.
En general sembla que ho farem sempre expositiu
amb més riquesa.
Sempre hi ha un impàs
on hi ha gent
que el valor de mercat baixa
i que s'ha de mirar què fa amb això.
Això ja és feina d'economistes.
Finalment, quina és la teva visió
per al futur d'aquesta tecnologia en el cas
com que això podia influir de manera
en què s'aixecen les persones i consumeixen
el contingut auditiu en línia?
Sí, jo crec
que farà el contingut
molt més accessible
i espero que es pugui descobrir
de manera orgànica, a través de Google,
i espero que avui dia,
per exemple, és difícil
quan escrius una notícia
fer referència
al que va dir algú,
o al que es va dir en una entrevista,
o quan s'ha comentat aquest tema.
Jo espero que el contingut
sigui molt més accessible ara.
Que el puguis linkar
i que l'àudio
i el text
estiguin
més interconnectats.
També és interessant,
i aquí hi ha un cercle virtuós
en què la següent, el xat GPT-sínosis,
s'entrenarà també amb el text
que nosaltres ens escrivim,
perquè ells intenten entrar-ho a l'internet.
I també els cercadors
estan...
a tipus Google,
estan perdent una mica de relevància,
perquè és possible, i ja està passant
d'alguna manera en alguns sectors,
que comenci a preguntar, no als cercadors,
sinó als àngels artificials.
Aleshores també, si ja ens anem,
ja potser estem parlant 10 anys en el futur,
però
fer accessible tot aquest contingut
com a corpus,
que es diu d'entrenament,
d'àngels artificials,
també farà que, per exemple,
si tenim molt àudio
de la política de Sánchez,
Pedro Sánchez
té hores registrades
al Parlament,
en les televisions, en tot.
Curiosament, també farà que
el xat GPT-sínosis
entengui molt millor qui és Pedro Sánchez,
perquè ara mateix el xat GPT
sap qui és Pedro Sánchez, principalment
la política i els diaris.
Serà interessant també
veure com els àngels artificials
noves
són més intel·ligents
i coneixen millor com funciona el món,
perquè guanyaran també accés
a aprendre
amb tot el text que ens fit.
Jo crec que també per això PNI
ha alliberat el model aquest
de manera gratuïta,
per tenir més informació.
O sigui, els noves àngels artificials
són diferents, perquè
és diferent si tu agafes un extraterrestre,
és l'exercici que ve a la Terra
i sap parlar anglès, català i tot.
És diferent que li diguis
mira, apren com és la humanitat i com és tothom
a través dels diaris que tens a internet,
a la Wikipedia i tot.
Però no poden veure YouTube,
no poden veure...
Tu tindràs una imatge diferent de Pedro Sánchez,
tu no saps qui és Pedro Sánchez.
Només pots saber qui és Pedro Sánchez
a través del país,
la BBC, la Razón, la Vanguardia,
New York Times, Wikipèdia
i ja està. En canvi,
ara també et dona accés a YouTube,
a entrevistes...
La cosa canvia, llavors serà interessant
l'exercici artificials del futur
entendran una mica millor com és el nostre món.
Moltes gràcies Oriol per aquesta estona,
ha sigut un plaer
i espero que salveixi molt bé per aquest treball.
Gràcies a tu.