La pulizia dei dataset e il ruolo dell’algoretica per evitare discriminazioni razziali, di genere e di orientamento nel processo di apprendimento degli algoritmi
Abstract: riflessione sul ruolo cruciale dei dati nell’ambito dell’intelligenza artificiale (IA), sottolineando l’importanza di utilizzare dataset privi di giudizi/pregiudizi, bias, al fine di non inficiare le performance e/o i risultati prodotti dagli algoritmi. Esplorando due categorie principali di bias, ovvero quelli introdotti durante la progettazione dell’algoritmo e quelli intrinseci nei dati, si riportano esempi concreti di discriminazioni razziali e di genere in settori quali sanità, giustizia e lavoro. Un’attenta analisi però porta a notare che tali distorsioni non sono intrinseche all’IA: esse rappresentano piuttosto il riflesso di pregiudizi preesistenti nella società. Investire in tecnologia in modo critico e virtuoso vuol dire quindi investire sull’uomo e sulla società, innescando un circolo virtuoso che possa integrare progresso tecnologico e sviluppo sociale.
Keywords: #IntelligenzaArtificiale #AIgenerativa #ChatGPT #TecnologiaDelLinguaggioNaturale #PromptDesign #SoftSkills #IAeComunicazione #InnovazioneDigitale #FuturoDelLavoro #PensieroCritico #CreativitàeIA #DemocratizzazioneIA #TechInnovations #MachineLearning #DigitalTransformation #IAeSocietà #pregiudiziIA #algoretica #IntelligenzaArtificialeApplicata #PromptEngineering #TechProgress #IAeCambiamento #fiorenzasuccu #ethicasocietas #ethicasocietasrivista #rivistascientifica #scienzeumane #scienzesociali #ethicasocietasupli
Fiorenza Succu: ingegnere aerospazionale, master in business administration, ha lavorato per Eni, Bulgari, Gruppo Mediaset, ha contribuito al saggio “La magia della resilienza“.
Algoretica: il termine si attesta sin dal 2017, anche se la voce non è registrata dai dizionari e risulta ancora poco presente in rete, nei testi a stampa e nei quotidiani, e indica lo studio dei problemi e dei risvolti etici connessi all’applicazione degli algoritmi, soprattutto nell’ambito dell’intelligenza artificiale.
IL RUOLO DEI DATI NELL’IA E BIAS
Tutti gli algoritmi appartenenti all’ecosistema dell’intelligenza artificiale (IA) hanno bisogno per funzionare dello stesso carburante, i dati. Il loro ruolo strategico, così importante da influenzare performance e limiti dei nostri algoritmi, pone in evidenza l’importanza di avere a disposizione data-set “puliti”, o meglio non contaminati da vizi/pregiudizi, bias. Tali bias si presentano sotto forma di molteplici tipologie che, semplificando, è possibile ricondurre a due macrocategorie: la prima contiene quelli introdotti durante le operazioni di design dell’algoritmo, l’altra, invece, quelli intrinsecamente presenti nei dati.
Nel corso della progettazione e del set-up dell’algoritmo, la scelta del modello e/o dei parametri di ottimizzazione, ad esempio, può non essere adeguata a gestire certi tipi di dati/problemi, e di conseguenza condurre a prestazioni subottimali. Inoltre, la composizione della stessa squadra di progettazione, se non armonica e bilanciata, potrebbe riflettersi in un’inadeguata rappresentazione di differenti prospettive, e quindi sfociare in un’indiretta compromissione del processo decisionale.
Prendendo in considerazione invece le distorsioni intrinsecamente contenute nei dati, ci si trova davanti a così tante tipologie che una trattazione esaustiva risulterebbe piuttosto complessa; mi limiterò pertanto a citarne soltanto alcune.
Qualora venissero utilizzati dati storici obsoleti, le previsioni prodotte potrebbero essere incoerenti con la realtà attuale: si parla pertanto di bias temporali. Inoltre, se si utilizzassero campioni di dati non rappresentativi della diversità della popolazione di riferimento, il modello potrebbe avere in seguito difficoltà ad eseguire operazioni di generalizzazione adeguate al nuovo contesto/situazione, si avrebbe quindi a che fare con esempi di sottorappresentazione dei dati, e con un conseguente bias di selezione.
Infine, nel caso dell’apprendimento supervisionato, una delle tecniche utilizzate per l’addestramento degli algoritmi, potrebbero emergere i cosiddetti bias di etichettatura, legati alle modalità di assegnazione delle etichette ai dati di training. Se le etichette assegnate sono influenzate da pregiudizi di qualunque natura (culturale, sociale, etc.) il modello può apprendere, replicare e persino amplificare tali pregiudizi, con conseguenze particolarmente gravi nel caso in cui si operi in settori quali ad esempio sanità, giustizia, finanza, istruzione, mondo del lavoro etc.
Proprio a tali settori appartengono alcuni episodi saliti alla ribalta delle cronache, per i quali la narrazione dei media si è scagliata inizialmente in modo piuttosto violento contro la tecnologia e gli algoritmi, accusati a primo acchito di azioni discriminatorie di varia natura.
CASISTICHE: BIAS RAZZIALI E BIAS DI GENERE
Uno dei casi più emblematici e discussi ha visto come protagonista un algoritmo, creato da OPTUM, ampiamente utilizzato nel sistema ospedaliero statunitense, per l’identificazione di pazienti affetti da malattie croniche ad alto-rischio aventi diritto all’assegnazione di extra-cure.
Dagli approfondimenti eseguiti dai ricercatori [1] il modello è stato accusato di discriminare in modo evidente i pazienti neri rispetto a quelli bianchi; all’origine di tale bias razziale, semplificando, vi era la scelta del parametro di classificazione dei bisogni dei pazienti, legato non alla gravità della loro malattia, bensì al costo dei trattamenti medici passati. Approfondendo i dati che riguardano il sistema sanitario statunitense emerge però in modo chiaro che, tendenzialmente, i pazienti neri, o in generale le minoranze etniche, hanno ricevuto nel corso degli anni cure inferiori rispetto ai bianchi, e di conseguenza, usando erroneamente come parametro lo spending pro-capite, sono stati discriminati dalla tecnologia.
Riesaminando tutti i dati e utilizzando come parametro la gravità della malattia, la percentuale di pazienti neri che avrebbero dovuto essere iscritti a programmi di extra-cure specializzate è passata dal 17,7% al 46,5%. Quindi, in realtà, non è stato l’algoritmo a discriminare deliberatamente i pazienti di colore, o meglio, la discriminazione razziale non è stata il sottoprodotto dell’intelligenza artificiale, ma la conseguenza di un sistema sanitario che forniva ai pazienti neri trattamenti insufficienti ed iniqui.
Un altro esempio di bias razziale ha come protagonista un algoritmo, COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) usato in alcuni sistemi giudiziari statunitensi per prevedere, tra le altre cose, la probabilità di recidiva di un imputato. Dagli studi eseguiti è emerso che, nel caso di trasgressori neri, il numero di falsi positivi per recidiva rispetto agli imputati caucasici era circa il doppio (con una percentuale di circa il 45% per i primi rispetto al 23% dei secondi) [2]. Ancora una volta, come nel caso precedente, i bias dell’algoritmo non sono altro che quelli della società, il pregiudizio razziale appare intrinseco in un sistema giudiziario che non si comporta in modo equo con le minoranze.
Passando al settore del lavoro, e nello specifico alle procedure di recruiting nel mondo aziendale, è emersa un’altra tipologia di bias, questa volta legata al gender. Nel 2018 Amazon avrebbe interrotto un programma di selezione del personale basato su IA dopo aver scoperto che l’algoritmo era discriminatorio nei confronti delle donne. Il modello di Amazon era programmato per selezionare candidati sulla base di un training effettuato sui curriculum presentati all’azienda nel corso degli ultimi dieci anni, tra i quali era presente una percentuale decisamente superiore di uomini.
Ancora una volta il sistema ha privilegiato le candidature maschili a quelle femminili, ma poiché storicamente nel tech il numero delle donne impiegate è sempre stato inferiore rispetto a quello degli uomini, l’algoritmo ha semplicemente letto la realtà. Raggiungere un trattamento di genere equo è ancora un percorso a ostacoli nel quale le donne, ma anche i generi diversi da quello maschile dalla nascita, affrontano, guardando ai grandi numeri, maggiori difficoltà.
UNA CAMPAGNA DI SENSIBILIZZAZIONE
Gli esempi potrebbero essere ancora tanti, ma riportando l’attenzione alle faccende di casa nostra mi piacerebbe chiudere quest’articolo facendo riferimento ad una campagna di Wired Italia uscita circa un anno fa, firmata da TBWA\Italia, parte dell’omonima agenzia pubblicitaria attiva in tutto il mondo, che si è posta l’obiettivo di sensibilizzare i lettori sui contenuti prodotti dall’intelligenza artificiale e sui suoi pregiudizi [4].
Oggetto della campagna è stato un test fatto su Midjourney, software di IA generativa in grado di realizzare immagini sulla base dei prompt degli utenti. Le istruzioni sono state date in inglese, poiché, diversamente dall’italiano, questa lingua non attribuisce un genere alla maggior parte dei sostantivi che si riferiscono a professioni e ruoli sociali, così da poter testare i bias di genere dell’algoritmo.
La parola manager, per esempio, potrebbe riferirsi sia a una donna che a un uomo, ma Midjourney mostra solamente uomini bianchi. Il prompt lovers (amanti) è associato da Midjourney a coppie esclusivamente eterosessuali, e la stessa cosa avviene con parents, genitori. Ancora, il prompt scientist (scienziato/a) mostra solo uomini cis bianchi, tutti gli altri sono esclusi. Stessa sorte si ha con il prompt leader: i ritratti prodotti rappresentano esclusivamente uomini bianchi.
CONCLUSIONI E PROSPETTIVE FUTURE
Tutti gli esempi sopra riportati sono accomunati da una matrice comune: i risultati dell’IA riflettono le caratteristiche, le modalità di interazione e di pensiero dell’uomo e quindi della società di cui tutti noi siamo parte, con annessi preconcetti e distorsioni. I modelli di apprendimento automatico, parte di un sottoinsieme dell’IA noto come Machine Learning, non possiedono una comprensione intrinseca della bontà/qualità dei dati, nonché delle soluzioni proposte in output.
L’interpretazione o l’attribuzione di significato spetta sempre e comunque agli esseri umani che progettano, addestrano e utilizzano questi modelli.
Poiché investire sull’avanzamento tecnologico va in parallelo con i progressi in campo umano e sociale, usare in modo critico e costruttivo la tecnologia potrebbe darci l’opportunità di scoprire e affrontare i nostri evidenti limiti. La stessa tecnologia, nel momento in cui venisse riprogrammata e corretta, potrebbe diventare un alleato della nostra crescita, innescando un circolo virtuoso che potrebbe portare a migliorarci di volta in volta.
Quindi, cambiare prospettiva, guardare a macchine ed algoritmi con nuove lenti senza farci prendere da atteggiamenti tecnofobici, derivanti in realtà dall’incapacità di comprendere veramente la tecnologia stessa, può regalarci l’opportunità di crescere come singoli e come collettività. Perdere tale occasione sarebbe davvero un peccato!
NOTE
[1] https://www.science.org/doi/10.1126/science.aax2342
[2] https://www.nytimes.com/2017/10/26/opinion/algorithm-compas-sentencing-bias.html
[4] https://www.wired.it/intelligenza-artificiale-stupidita-umana-twba-italia-wired-campagna/
GLI ULTIMI ARTICOLI DI FIORENZA SUCCU
ARTIFICIAL INTELLIGENCE AND BIAS: LIMITS AND OPPORTUNITIES
GENERATIVE ARTIFICIAL INTELLIGENCE HOW DOES THOUGHT WILL CHANGE?
GLI ULTIMI 5 ARTICOLI SULL’INTELLIGENZA ARTIFICIALE
PAPA FRANCESCO SFERZA I GRANDI DELLA TERRA SULL’INTELLIGENZA ARTIFICIALE [CON VIDEO]
L’INTELLIGENZA ARTIFICIALE SVELA IL LUOGO DI SEPOLTURA DI PLATONE
INTELLIGENZA ARTIFICIALE NELLA PREVENZIONE DEI SUICIDI NELLE FORZE DI POLIZIA
L’UNICA DOMANDA DA PORSI SULL”INTELLIGENZA ARTIFICIALE”
GLI ULTIMI 5 ARTICOLI PUBBLICATI
NESSUNA RIFORMA SENZA UN CONTRATTO AUTONOMO PER LA POLIZIA LOCALE [CON VIDEO]
PRESENTAZIONE DELLA RELAZIONE ANNUALE ANAC 2023
VALORI E DISVALORI ETICI NELLO SPORT, TRA ANOMIA E COMPETITIVITÀ
LA VIDEOSORVEGLIANZA SENZA ACCORDO SINDACALE È REATO
LA LOTTA PER L’UGUAGLIANZA DI GENERE E IL SUO CONTRIBUTO ALLA COSTRUZIONE DI UN MONDO SOSTENIBILE
Copyright Ethica Societas, Human&Social Science Review © 2023 by Ethica Societas UPLI onlus.
ISSN 2785-602X. Licensed under CC BY-NC 4.0