Riassunto analitico
La tesi affronta il problema dell'identificazione di comportamenti malevoli mediante modelli e algoritmi di machine learning. Il dataset di analisi e' costituito da traffico di rete aggregato in network flows e da etichette provenienti da Intrusion Detection System. Tale problema può essere descritto come un problema di classificazione: a partire da un certo numero di esempi dati, già etichettati, si vuole apprendere la suddivisione degli esempi in classi e si vuole imparare a classificare nuovi esempi, privi di etichetta. Sono state confrontate le performance di diverse tecniche di machine learning applicate al problema in esame. Tra gli algoritmi di apprendimento supervisionato sperimentati è emerso che il Random Forest possiede un significativo vantaggio. Si è tentato di migliorare le capacità predittive del classificatore agendo sul dataset, tramite tecniche di feature selection e feature extraction, e sugli iperparametri dello stimatore stesso. Infine, sono state valutate le prestazioni del Random Forest su parti del dataset originale, suddiviso, prima, sulla base dei valori delle feature, e poi, sulla base della categoria di minaccia a cui ciascun esempio positivo appartiene. Dalle prove fatte è risultato che, gli esempi malevoli, se considerati complessivamente, non sono chiaramente separabili da quelli legittimi. Al contrario, considerando singolarmente le varie tipologie di attacco che sono state registrate nel dataset, risulta che alcune di esse sono separabili molto più efficacemente di altre.
|