Riassunto analitico
L'equità nel Machine Learning è diventata un tema di ricerca fondamentale, affrontando le implicazioni sociali legate ai sistemi decisionali algoritmici. Questa tesi analizza l'interazione tra modelli di Machine Learning orientati all'equità e i dataset, con un'attenzione particolare all'impatto delle strategie di stratificazione dei dati sia sull'equità che sulle performance predittive. Lo studio parte da un'analisi approfondita del concetto di bias, esplorando come si manifesta nel Machine Learning e come può essere misurato attraverso diverse metriche di equità. Successivamente, vengono utilizzati diversi dataset, ognuno con caratteristiche specifiche, per testare e confrontare vari modelli di equità. I metodi analizzati includono approcci di pre-elaborazione, elaborazione interna e post-elaborazione, valutandone l'efficacia nel ridurre i bias senza compromettere l'accuratezza delle previsioni.
Uno degli elementi innovativi di questo lavoro è l'esame delle strategie di stratificazione durante la suddivisione dei dati in training e test, per capire quanto i modelli riescano a generalizzare ciò che hanno appreso. Vengono analizzate diverse tecniche, tra cui la stratificazione casuale, quella basata sull'attributo sensibile, sulla label, sulla loro distribuzione congiunta e persino uno schema di stratificazione progettato per introdurre bias artificiale. L'obiettivo è evidenziare i casi in cui i meccanismi di equità finiscono involontariamente per amplificare o attenuare specifici bias, offrendo nuove prospettive sulle dinamiche dei modelli.
Gli esperimenti condotti valutano i modelli utilizzando diverse metriche, come l'errore predittivo, l'equità delle probabilità (equalized odds) e la parità demografica (demographic parity), fornendo una visione chiara dei punti di forza e delle limitazioni di ogni approccio. Inoltre, vengono messi in luce importanti compromessi, come il bilanciamento tra equità e accuratezza, e l'importanza di adattare i modelli alle caratteristiche specifiche dei dataset.
Attraverso un'integrazione di teorie, metodologie algoritmiche e valutazioni pratiche, questa tesi si propone di contribuire al progresso dell'equità nel Machine Learning, con l'obiettivo di spingere verso sistemi di intelligenza artificiale più giusti e affidabili.
|
Abstract
Fairness in Machine Learning has emerged as a critical area of research, addressing the societal implications of algorithmic decision-making. This thesis explores the intersection of fairness-aware Machine Learning models and datasets, with a focus on how different data stratification strategies affect both fairness and predictive performance. We conduct a comprehensive study, firstly analyzing what bias is and how it affects Machine Learning and consequently, how to measure it with multiple fairness metrics, we, then, showcase and utilize several well-established datasets with different characteristics to assess the performance of various fairness models. These models span preprocessing, inprocessing, and postprocessing approaches. Each method is analyzed for its effectiveness in mitigating bias while maintaining predictive accuracy.
A key novelty of this work lies in its evaluation of stratification strategies during train-test splitting to determine how well models are able to generalize what they've learnt. We examine random stratification, stratification on sensitive attributes, on the target labels, on their joint distribution and an artificially biased stratification scheme to illuminate cases where fairness mechanisms inadvertently amplify or mitigate specific biases, offering new insights into model dynamics.
Our experiments evaluate models against a range of metrics, including predictive error, equalized odds, and demographic parity, to provide a detailed understanding of strengths and limits of said models. We identify critical trade-offs, such as the tension between fairness and accuracy, as well as the alignment of fairness models with underlying dataset characteristics.
By integrating theoretical frameworks, algorithmic methodologies, and empirical evaluations, this thesis hopes to contribute in advancing fairness in Machine Learning to, ultimately, push towards more equitable and reliable ML systems.
|