Riassunto analitico
Il progetto di questa tesi consiste nella creazione di un sistema per la memorizzazione e l'analisi di grandi volumi di dati in ambito sicurezza con una particolare attenzione sull'evoluzione temporale delle informazioni ricavate. I dati utilizzati provengono da un processo di estrazione da notizie scritti in linguaggio naturale eseguito da un semantic engine esterno a questo progetto. Da essi, attraverso una prima fase di parsing, vengono estratti dati relativi ai fatti descritti all'interno delle notizie. Ogni fatto comprende la data in cui è avvenuto e informazioni relative all'argomento trattato, al settore di interesse, alle entità coinvolte ed alla loro tipologia. Questi dati vengono memorizzati su un'architettura scalabile ad alte prestazioni basata sull'utilizzo di Apache Accumulo, database NoSQL di tipo Triple Store, sfruttando una indicizzazione temporale secondo la data del fatto a cui sono legati. La memorizzazione avviene utilizzando lo schema D4M che garantisce prestazioni equivalenti per la ricerca di dati sia sulle righe che sulle colonne. L'ultima fase del progetto consiste nell'analisi dei dati memorizzati. Per questa fase sono stati studiati due approcci: il primo prevede il download dei dati su un client e l'analisi tramite il software GNU Octave, mentre il secondo prevede lo spostamento di parte della computazione sul server grazie all'utilizzo della libreria Graphulo. Entrambi gli approcci sfruttano una mappatura dei dati su array associativi, permettendo così analisi complesse tramite l'esecuzione di semplici operazioni di algebra lineare. L'analisi avviene su periodi di tempo finiti e con una granularità definita dall'utente, consentendo in questo modo una chiara visualizzazione dell'evoluzione temporale delle relazioni tra i dati ricercati. Al termine dell'analisi il sistema permette la creazione in output di serie temporali e grafi oltre che delle loro metriche. I grafi sono esportabili in un formato standard per consentire ulteriori analisi su di essi tramite software specializzati. In questa tesi vengono analizzati sia i risultati qualitativi della fase di analisi che le prestazioni garantite dai due approcci attraverso lo studio di esempi.
|