Experimentant amb models de llenguatge per crear una presentació científica llarga

Pere Quintana Seguí
17 d'abril de 2026

Estem en una època en què tots estem aprenent a utilitzar els models de llenguatge de gran escala (LLM) per al nostre treball: quins usos són legítims i quins no; quines maneres d'utilitzar-los són intel·ligents i quines no, etc. Durant l'últim any, he fet moltes proves, especialment en programació, amb resultats molt positius, utilitzant eines com Claude Code, Codex CLI i Gemini CLI. Aquests últims dies, però, he estat realitzant una nova prova: com utilitzar la IA per crear una xerrada d'una hora sobre un tema nou per al qual no tenia material previ.

Imatge d’un robot

Fa un temps, els Bombers de la Generalitat de Catalunya em van convidar a fer la xerrada d'obertura a les “I Jornades Intercomunitàries de Rescat Aquàtic”. Em van demanar que els parlés sobre el canvi climàtic i les inundacions. Em va semblar una proposta interessant, tot i que no tenia gaire temps per preparar la presentació perquè, després d'uns anys dedicats a tasques de gestió, estava una mica desactualitzat, i aquesta era una molt bona oportunitat per posar-me al dia. A la pràctica, tenia dues setmanes per actualitzar-me i preparar una xerrada d'una hora sense poder dedicar-m'hi a temps complet. Aquesta era una bona situació per provar d'utilitzar eines d'IA per ajudar-me a crear la presentació mantenint uns nivells alts de qualitat científica. Utilitzar la IA per generar contingut mediocre o sense valor ("slop") no m'interessa.

El primer que vaig fer va ser crear una carpeta nova amb un fitxer GEMINI.md. Aquest fitxer és el que utilitza Gemini CLI per conèixer el context del projecte. Allà, vaig escriure un paràgraf proporcionant context sobre la petició dels bombers i un esquema força detallat de l'estructura de la presentació. Després, vaig preguntar a Gemini CLI quin seria el millor format per a la presentació. Com que estava treballant amb IA, vaig pensar que el millor seria treballar en format text i vaig proposar utilitzar LaTeX i Beamer, però també vaig preguntar si hi havia millors opcions. L'agent va suggerir Quarto, i realment em va semblar una gran idea. Quarto és similar a LaTeX però utilitza Markdown i és més modern i flexible.

Després vaig demanar al model que fes una primera versió de la presentació seguint l'estructura proposada. Va fer una presentació força dolenta, però va ser un bon punt de partida. Ja tenia una estructura sobre la qual treballar. La síndrome del full en blanc havia desaparegut.

L'endemà, vaig fer una cerca bibliogràfica tradicional per posar-me al dia del que s'ha publicat sobre les inundacions sobtades al Mediterrani durant els darrers anys. Vaig utilitzar l'habitual Google Scholar (la nova versió d'IA no em va funcionar) i, a poc a poc, estirant el fil, vaig generar una bibliografia de més de cent articles. Aquest no és un tema nou per a mi; per tant, coneixia el 80% dels autors dels articles, molts d'ells en persona. Així, des del principi, tenia una idea molt clara de la qualitat dels documents que havia recollit. Vaig importar la bibliografia a Mendeley, com de costum, i vaig exportar un fitxer BibTeX perquè Quarto el pogués utilitzar.

El dia següent, vaig pujar tots els PDF de la bibliografia del projecte al NotebookLM de Google. Va ser una molt bona idea. NotebookLM és similar a ChatGPT o Gemini, però les respostes que dóna es basen en els documents que tu has pujat. Així, deixant de banda les al·lucinacions, sabia que les respostes vindrien totes dels documents de la bibliografia. A més, NotebookLM et diu en quins documents basa les seves respostes, de manera que saps d'on prové la informació. No només vaig importar articles científics; també vaig incloure alguns informes governamentals i notícies de premsa.

A partir d'aquí, vaig començar un procés iteratiu. Copiava el codi d'una diapositiva, l'enganxava a NotebookLM i li demanava que millorés el contingut de la diapositiva basant-se en la bibliografia. El feedback era d'alta qualitat. Com que NotebookLM sap de quins documents treu la informació, li vaig demanar que afegís cites (amb codis BibTeX) a les diapositives. Així, cada afirmació anava acompanyada d'una o més cites. És la primera presentació que faig on gairebé cada punt té una cita. Després, copiava el text millorat al document de Quarto i l'analitzava. L'anàlisi consistia a obrir els articles citats, llegir el resum i les conclusions, i buscar seccions rellevants per confirmar que les afirmacions eren correctes. En la majoria dels casos ho eren, però de vegades el model generava al·lucinacions. Per tant, és molt important revisar-ho tot i anar a les fonts manualment. La IA només pot fer la primera iteració; les següents han de ser sempre manuals. Després de llegir (parcialment) els articles, editava la presentació i millorava el seu discurs i fluïdesa. Llavors, passava a la diapositiva següent.

El procés va ser llarg, però la IA va ser una gran ajuda perquè sempre m'apuntava cap als dos o tres articles rellevants per a la diapositiva en qüestió. A poc a poc, a mesura que feia diapositives, vaig veure que hi havia un subgrup d'articles que dominaven les cites, i així vaig fer meva la bibliografia essencial sense haver de llegir els cent articles. La IA em va ajudar a saber què era més rellevant i què no ho era tant.

Un cop acabat aquest procés, vaig repassar el fil del discurs, fent edicions i afegint diapositives noves sobre temes que considerava que s'havien de tractar. Així, la presentació va créixer i millorar significativament. Crec que vaig afegir unes vint diapositives noves basant-me en el meu propi criteri.

Quan ja tenia una presentació força ben formada, amb text però sense imatges, vaig començar el procés de selecció d'imatges. De vegades extreia figures dels articles (degudament citades), de vegades buscava imatges a internet i, finalment, de vegades creava il·lustracions científiques amb Gemini (en aquest cas, amb el Gemini estàndard, que utilitza el magnífic model Nano Banana per a la creació d'imatges). No sempre hi havia lloc per a les imatges a la diapositiva. Aquí vaig decidir utilitzar fotografies com a fons per a algunes diapositives, amb una opacitat relativa. Això va quedar molt bé.

En alguns casos, les diapositives resultants eren com murs de text. Vaig tenir la idea de passar aquests textos a Gemini per generar infografies. Així, vaig substituir alguns murs de text per infografies molt visuals i professionals. Gemini no sempre les encertava a la primera, però en general el resultat va ser molt positiu.

Per donar un toc més professional a la presentació, vaig utilitzar Nano Banana per generar aquarel·les de situacions de rescat aquàtic en inundacions sobtades al Mediterrani, cosa que va donar un toc molt especial a la presentació.

Quarto converteix el document base de Markdown en una pàgina web. Això dóna molta flexibilitat perquè pots modificar l'estil de la presentació amb CSS, exactament com qualsevol pàgina web. Vaig utilitzar Gemini CLI per millorar l'estètica de la presentació. També vaig editar els estils CSS jo mateix directament. Estic molt content amb el resultat.

A poc a poc, editant i millorant, vaig fer la presentació més meva i em vaig familiaritzar més amb la bibliografia i el tema. Vaig acabar la presentació el dia abans de la conferència, així que només vaig poder assajar una vegada, aquell mateix matí (la xerrada era a la tarda). Em va sorprendre molt que l'assaig anés molt bé al primer intent. Tenia la bibliografia al cap i un bon coneixement del tema, fins i tot dels punts que no dominava tant al principi. Això em va fer molt feliç.

Aquest procés d'iterar progressivament amb assistents és molt efectiu. Fer preguntes a NotebookLM és molt útil per aprendre sobre un tema i també per familiaritzar-se amb la bibliografia. Això, combinat amb la verificació de les fonts originals, va ser molt efectiu per aprendre tot el que necessitava aprendre. En certa manera, el paper de la IA no és fer la feina per tu, sinó actuar com aquell col·lega que et fa preguntes i et dóna pistes, facilitant la superació dels bloquejos i la priorització de la documentació que cal llegir.

Per escriure les conclusions, vaig demanar una primera versió a Gemini CLI, però no em va agradar gens el que va fer. Així que les vaig escriure jo mateix directament. Quan vaig acabar, com que tenia por que la IA hagués pogut cometre algun error, vaig demanar a Gemini CLI que llegís cadascuna de les frases del document i verifiqués amb la literatura (li vaig donar accés a versions de text de tots els PDF) si les afirmacions eren certes. Va trobar tres o quatre errors, que vaig corregir immediatament, després de consultar les fonts.

Després d'aquesta experiència, crec que un ús intel·ligent de la IA pot ser molt útil per millorar la qualitat de la feina que fem. Però compte: la IA no farà la feina per nosaltres. Perquè la IA ens sigui útil, és essencial que tinguem un bon coneixement de l'àrea i que tinguem un bon criteri. Els que hem viscut la meitat de la nostra vida sense IA sabem com treballar sense ella i, per tant, sabem ser crítics. És una sort que tenim. A més, és important que utilitzem la IA només per trencar bloquejos (fent esbossos, cerques d'informació, resums, etc.; després, els textos han de passar sempre per les nostres mans) i lubricar el procés, no per substituir-nos. No és gens bona substituint-nos.

Un risc de la IA és que vulguem ser massa ambiciosos i inflem molt les expectatives del projecte, de manera que no tinguem temps de comprovar-ho tot. A més, pot generar una falsa sensació de seguretat, i correm el risc de tractar temes que no hem estudiat o no dominem. Hem d'anar amb compte.

El dubte que tinc, després de tot això, és si hauria trigat més o menys temps a fer la presentació “a l'antiga”. La veritat és que no ho sé. No estic segur que la IA accelerés el procés, però sí que crec que en va millorar la qualitat, especialment gràcies a les il·lustracions i al fet que cada afirmació de la presentació està recolzada per una cita.

Podeu consultar les meves diapositives aquí i podeu veure el vídeo de la xerrada aquí.