L’esperienza ICIJ sul “machine learning” e le nuove frontiere sull’esplorazione dei dati

Intelligenza artificiale e giornalismo investigativo

ROMA – L’esperienza sul campo dell’International Consortium of Investigative Journalists, pro e contro nell’uso del machine learning per indagare su enormi basi di dati (Panama Papers, Implant Leaks, Offshore Leaks, Paradise Papers), è al centro di un’interessante intervista di Samuel Beckett, direttore di Polis, London School of Economics and Political Science, e Venuri Perera, stagista della Polis e Msc student della Lse.
Fa parte di una serie di interviste JournalismAi, con donne che lavorano dove giornalismo e intelligenza artificiale si incontrano, ed ha come protagonista Emilia Díaz-Struck, direttore di ricerca e coordinatrice per la regione Latino Americana dell’International Consortium of Investigative Journalists (ICIJ). Il suo compito è supervisionare data project ed è stata coinvolta in alcune importanti indagini internazionali, tra cui i Panama Papers, i Paradise Papers e gli Offshore Leaks.
L’ICIJ riceve grandi quantità di file da whistleblower e utilizza tecnologie basate sull’Intelligenza Artificiale per setacciare queste informazioni in modo più efficiente. Emilia Díaz-Struck spiega nell’intervista, diffusa dall’Osservatorio Intelligenza Artificiale dell’Ansa, come l’ICIJ impiega l’IA nelle sue indagini e l’impatto che avrà sul giornalismo investigativo.

– Lei ha un background molto diversificato nel giornalismo, avendo lavorato con importanti organizzazioni come il Washington Post e il Press and Society Institute of Venezuela e avendo co-fondando il sito di notizie Armando.info. Come è approdata al suo ruolo attuale?

Emilia Díaz-Struck

«Quando ho iniziato a lavorare come giornalista, non ero coinvolta in progetti di IA, ma è interessante come una cosa porta ad un’altra. Ero di sede a Caracas e avevo già iniziato a lavorare con i dati, non perché fosse di moda, ma per necessità: era un modo per portare più trasparenza e rendere le storie “a prova di proiettile”.
È stato allora che ho iniziato a collaborare con colleghi di altri Paesi del mondo. Il primo rapporto ICIJ che ha coinvolto quasi 100 giornalisti all’opera insieme è stato l’Offshore Leaks. L’uso della tecnologia era già essenziale per mettere in contatto persone e informazioni, ma da allora le cose si sono evolute e l’IA è diventata un potente strumento per il giornalismo investigativo. Ho visto crescere in modo significativo la dimensione dei file, dei documenti e dei dati che esploriamo e questo è legato sia all’evoluzione della tecnologia, sia al modo in cui i giornalisti possono oggi ricevere notizie da fonti e informatori.
Dall’Offshore Leaks ai Panama Papers – dove stavamo lavorando su milioni di documenti – abbiamo utilizzato sempre più spesso la tecnologia per estrarre i dati, esplorarli e condividerli con altri colleghi. Il nostro approccio ai dati si è evoluto perché ci siamo chiesti: Come possiamo soddisfare al meglio alle nostre esigenze giornalistiche? Quali sono i modi migliori in cui l’analisi dei dati e la tecnologia possono aiutarci? C’è altro che possiamo fare?».

– In che modo l’IA e il machine learning sono stati integrati da ICIJ nel processo di scoperta e reporting di storie così significative?

Rigoberto Carvajal

«Ricordo che fu un analista di dati ICIJ del Costa Rica, Rigoberto Carvajal, a suggerire per primo di provare a usare il machine learning. Abbiamo pensato “perché no?”, e abbiamo deciso di trovare un caso d’uso su cui sperimentare. Abbiamo finito per usarlo per identificare i contratti di prestito nei 13,4 milioni di documenti che costituiscono i Paradise Papers.
Il machine learning ci ha aiutato a identificare un tipo specifico di documento che era interessante per seguire il denaro, ovvero i contratti di prestito legati a una grande società. Abbiamo anche usato il machine learning sugli Implant Files, per identificare nei rapporti inviati alla U.S. Food and Drug Administration, i decessi dei pazienti potenzialmente causati da dispositivi medici difettosi, che sono stati erroneamente classificati come malfunzionamenti o lesioni dai produttori di dispositivi e da altri che archiviano le informazioni.
Durante una borsa di studio a Stanford, la nostra allora direttrice delle iniziative strategiche Marina Walker ha anche portato a ICIJ nuove partnership per il machine learning, in modo da poter continuare a sviluppare la nostra conoscenze nel settore e vedere come l’IA può aiutare i giornalisti a indagare sulla corruzione e il riciclaggio di denaro sporco, tra gli altri argomenti.

Marina Walker

Quello che abbiamo capito è che l’IA può essere davvero potente, ma non è magia. Vedo che c’è molto potenziale per usare il machine learning nel tipo di lavoro che facciamo perché abbiamo a che fare con grandi quantità di dati. Per questo tipo di indagini, ci vorrebbero anni per esaminare manualmente e vagliare milioni di record e dare loro un senso. Abbiamo anche tutta la parte di reporting da fare: parlare con le fonti, fare controlli incrociati dei dati con i pubblici registri e così via. L’apprendimento automatico può aiutarci a trovare un ago in un pagliaio, aiutarci ad essere più efficienti e aiutare i giornalisti a capire se gli sfuggono connessioni che potrebbero effettivamente aiutarci con il nostro reportage.
L’altra cosa interessante dell’apprendimento automatico è che in realtà richiede un lavoro di squadra come quello cui siamo già abituati: si addestra un computer, si costruisce un modello e si insegna al computer a identificare le cose, ma il fattore umano è fondamentale. È necessario che gli esseri umani diano l’input al computer, per controllare se le cose sono corrette e per verificare se il modello può essere migliorato».

– Rispetto agli eventi recenti, ritiene possibile implementare strumenti basati sull’IA per migliorare la comunicazione di emergenze come la pandemia Covid-19?

«Sì, penso che ci sia un potenziale per questo, anche se la chiave è anche avere il tempo e le risorse, poiché coprire l’emergenza può già essere abbastanza impegnativo. Il machine learning è già stato utilizzato in medicina per analizzare le immagini mediche, ad esempio. Per il reporting e la ricerca, dovremo vedere che tipo di dati vengono raccolti al momento, quali dati vengono resi disponibili, la qualità degli stessi e per quali casi l’apprendimento automatico sarebbe un buon approccio. Dovremo anche fare attenzione, perché ci sono già delle difficoltà dovute alle variazioni e alle differenze nella qualità e nella disponibilità dei dati tra i vari paesi.
Con il machine learning esistono diversi modelli, tra cui modelli di classificazione e modelli di regressione predittiva. Nelle nostre indagini abbiamo utilizzato soprattutto i primi. Penso che ci sia la possibilità di utilizzare i modelli predittivi in modo efficace nel contesto della copertura Covid-19. A patto che sia sempre in atto un processo di controllo approfondito dei fatti per analizzare i risultati del modello».

La diffusione del Coronavirus nel mondo alla data dell’11 aprile 2020

– La ICIJ è stata tra i primi ad adottare l’IA e il machine learning nel giornalismo, mentre altre organizzazioni di media sembrano essere meno ricettive. Secondo lei perché?

«Penso che il caso della ICIJ sia speciale in un certo senso, perché esplorare il potenziale dell’IA è stata una risposta alle nostre esigenze. Non tutti hanno a che fare con milioni di documenti ogni giorno. Lavoriamo su grandi collaborazioni e dedichiamo molto tempo alle nostre indagini, per cui sperimentare l’IA è stato il risultato di alcune considerazioni: Come possiamo essere più efficienti? Ci sono cose nuove nel mondo dell’analisi dei dati che possono aiutarci? Ci sono nuovi approcci che possiamo applicare e implementare?
Quello che cerchiamo di fare è trovare i modi migliori per soddisfare le esigenze giornalistiche che abbiamo in ogni progetto e ciò non significa utilizzare solo l’IA. Usiamo anche altri approcci all’analisi dei dati mentre lavoriamo a un’indagine. La chiave è distinguere quando ciò che abbiamo davanti a noi è un problema che il machine learning può aiutarci a risolvere. Penso che altri giornalisti impareranno allo stesso modo, ci vorrà solo un po’ di tempo».

– Lei ha già detto quanto sia importante il fattore umano in tutte le indagini che ha condotto. Pensa che ci possa essere un malinteso sul fatto che questo fattore umano alla fine sarà reso superfluo dagli sviluppi dell’intelligenza artificiale?

«Sì, credo che ci sia un’idea sbagliata, soprattutto nel campo del giornalismo investigativo. Prendiamo l’esempio del caso Implant FIles, dove abbiamo analizzato circa 8 milioni di cartelle cliniche per rintracciare i danni causati da dispositivi medici che sono stati testati in modo inadeguato o non sono stati testati affatto.
Una fonte ha detto a uno dei nostri colleghi che erano stato sottovalutato il numero di decessi dei pazienti potenzialmente causati da dispositivi medici, quindi ci siamo chiesti: come possiamo indagare su questo? Come possiamo leggere 8 milioni di documenti? Con l’aiuto della tecnologia e l’analisi di Rigoberto Carvajal, siamo stati in grado di identificare più di 3.400 modi in cui i decessi erano stati riportati nei dati. Successivamente, abbiamo avviato un processo approfondito di affinamento in cui i giornalisti, i ricercatori e i membri del nostro team contribuito con riscotri in modo che il computer fosse adeguatamente addestrato per identificare i decessi nella parte non strutturata dei dati.
Poi c’è stata la fase di analisi dei risultati. Volevamo sapere se il dispositivo medico avrebbe potuto contribuire al decesso o meno. Per questo abbiamo anche usato l’apprendimento automatico, ma c’erano una serie di falsi positivi che fortunatamente sono stati identificati dai ricercatori. Il computer era in grado di riconoscere i decessi nei documenti, ma a volte non era il paziente a morire: era un parente del paziente, o era il dispositivo indicato come “morente”, nel senso che era “scaduto”. Questi errori potevano essere colti solo dall’occhio umano.
Il processo di verifica dei fatti ha coinvolto un team di undici persone che ha esaminato manualmente i risultati, per assicurarsi che ogni caso segnalato dall’algoritmo fosse identificato correttamente. Questo ci ha permesso di arrivare finalmente a un numero preciso di casi in cui un dispositivo medico era coinvolto nella morte di un paziente e tuttavia l’evento non è era segnalato come tale alla Fda. Sarebbe stato possibile senza il machine learning? No. Chi avrebbe letto 8 milioni di registrazioni? Ma il lavoro dei giornalisti e dei ricercatori è stato altrettanto essenziale per arrivare ai risultati con la massima precisione».

– Lei ha parlato del potenziale dell’IA e delle sue speranze su come possa portare a un giornalismo più efficace. Ma c’è la possibilità che l’IA possa anche essere sopravvalutata?

«Penso che sia importante riconoscere che l’IA non è la risposta a tutto. La chiave è imparare per quale tipo di problemi possiamo usare l’IA per contribuire a migliorare il nostro giornalismo.
Quello che stiamo facendo è integrare l’IA con altre tecnologie. Per esempio, utilizziamo uno strumento chiamato Datashare, sviluppato dal nostro team tecnico, per estrarre ed esplorare i documenti su cui decidiamo di indagare. Nel caso dei Luanda Leaks, in collaborazione con l’AI Quartz Studio, abbiamo utilizzato il machine learning per ottenere alcuni cluster di tutti i tipi di documenti simili che ci ha permesso, ad esempio, di raggruppare tutte le fatture che abbiamo trovato nei documenti trapelati, di cui c’erano più di 700.000 record. Abbiamo integrato questi risultati in Datashare, in modo che anche gli utenti che non avevano familiarità con l’IA e le tecniche di analisi dei dati, avessero un filtro su cui poter cliccare per vedere tutte le fatture, o uno qualsiasi degli altri cluster identificato dal modello di machine learning.
Quando si combina il meglio della reportistica tradizionale con le grandi cose che la tecnologia può fare, si possono ottenere ottimi risultati. Ma non vale per tutto e questo è dobbiamo tenerlo ben presente».

– L’intelligenza artificiale e la tecnologia in generale tendono tradizionalmente a essere settori dominati dagli uomini. L’essere donna ha rappresentato per lei una sfida in questo settore?

«Fortunatamente, il nostro team è molto eterogeneo e abbiamo alcune donne veramente grandiose che sono esperte di analisi dei dati e tecnologia. Ma lo squilibrio di genere in questi campi è un dato di fatto. È una sfida e dobbiamo riconoscere che ci dovrebbe essere più spazio per le donne per lavorare e dirigere dove si incontrano dati, tecnologia e giornalismo. Quando si hanno grandi persone con competenze diverse e background diversi, allora si ha un giornalismo migliore. Questo è ciò in cui credo ed è ciò che promuovo nei nostri team. Le nostre indagini coinvolgono giornalisti di tutto il mondo e posso dire per esperienza che questa diversità è una combinazione potente, che rende le storie migliori e di maggiore impatto».

– La collaborazione globale è chiaramente fondamentale per il lavoro di ICIJ e per il successo dei vostri progetti. Pensa che ci sia una differenza nella percezione dell’IA e nel modo in cui viene utilizzata in diversi contesti e in diverse parti del mondo?

«Dobbiamo comprendere che ci sono molte sfide che il giornalismo deve affrontare al di là della tecnologia. Ci sono sfide per la stampa libera in tutto il mondo e quello che abbiamo visto è che quando i giornalisti sono presi di mira per il loro lavoro, la collaborazione può fare la differenza. Consente di indagare sulle storie in luoghi dove non sarebbe possibile per un giornalista locale da solo, a causa della censura e di altri rischi. Ci sono anche notevoli diversità in termini di accesso alla tecnologia e alle risorse in tutte le regioni che hanno un ruolo nella capacità di adottare l’IA e di beneficiare del suo potenziale. Nelle nostre collaborazioni, condividiamo i risultati del nostro lavoro con tutta la nostra rete globale, in modo che tutti i giornalisti di tutte le regioni possano beneficiare del potenziale che il machine learning può portare al loro lavoro durante un’indagine giornalistica».

Christopher Ré

– Rispetto al ruolo che l’IA potrebbe svolgere nel giornalismo, quali sono gli sviluppi che ritiene dovremmo tenere d’occhio nei prossimi anni?

«Penso che vedremo sempre più strumenti basati sull’IA che i giornalisti potranno utilizzare senza bisogno di competenze di codifica. Monitorerei da vicino qualsiasi sviluppo di nuovi strumenti che coinvolgano e integrino l’IA per consentire ai giornalisti di esplorare i dati in modo più efficiente.
Vedremo anche più collaborazioni interdisciplinari, come la nostra partnership con il laboratorio di IA di Stanford e il professor Christopher Ré. Ma anche più collaborazioni tra organizzazioni di media, come abbiamo fatto con il Quartz AI Studio. Più le organizzazioni esplorano questo tipo di collaborazioni, prima ci renderemo conto come industria del valore che la collaborazione può portare per aiutarci a sfruttare al meglio il potenziale offerto dalla tecnologia basata su intelligenza artificiale». (ansa)

 

I commenti sono chiusi.