Riassunto analitico
Questa tesi è il risultato di una ricerca sviluppata in collaborazione con la Saint Louis University di Saint Louis, negli Stati Uniti. In particolare, ho trascorso 6 mesi come visiting student presso il Networking Research Group, guidato dal Professore Flavio Esposito.
Le tecniche di misurazione della rete e telemetria sono fondamentali per la gestione delle reti di computer odierne, ad esempio Internet o reti cellulari. Alcune di queste tecniche si basano su previsioni o inferenze e vengono utilizzate per diverse operazioni di ingegneria del traffico, ad esempio analisi delle prestazioni, pianificazione della capacità, rilevamento dei picchi di carico del traffico, sicurezza della rete e business intelligence, solo per citarne alcuni.
Sebbene esistano metodi efficaci per eseguire la stima del traffico una volta che i dati sono disponibili, la raccolta effettiva dei dati è costosa. La frequenza delle misurazioni di solito aumenta solo quando viene rilevato un problema. Per aggregare le misurazioni del traffico di rete ed estrarre modelli a grana fine, sono necessari storage ed elaborazione costosi. Gli approcci esistenti di inferenza del traffico che utilizzano metodi statistici formulano ipotesi sulla struttura della matrice che potrebbero non essere verificate. I metodi basati sui dati, invece, spesso utilizzano informazioni dettagliate sulla topologia di rete che potrebbero non essere disponibili o di difficile raccolta
Ispirandosi al campo dell'elaborazione delle immagini, in questo lavoro proponiamo una tecnica di super risoluzione per l'inferenza della matrice di traffico che non richiede alcuna conoscenza sulle proprietà strutturali degli elementi della matrice per inferire, né una grande raccolta di dati. La nostra soluzione mira a ridurre la quantità di dati raccolti, archiviati e trasmessi per operazioni di addestramento e inferenza. In particolare, il nostro approccio utilizza un'architettura di deep learning adattata da un modello esistente originariamente progettato per applicazioni di super risoluzione di immagini, ma personalizzato per l'elaborazione della matrice di traffico.
Per affrontare i problemi di scalabilità e privacy dei dati, espandiamo anche il nostro design impiegando un modello di federated learning. Come previsto, tale federazione aumenta la precisione della nostra inferenza rispetto alla sua controparte centralizzata, dopo un numero significativamente inferiore di epoche di addestramento. Inoltre, i client che partecipano al processo di formazione non scambiano né espongono mai i propri dati.
Conduciamo esperimenti con tracce di traffico Internet reali ed anonime dimostrando che l'approccio proposto è in grado di inferire traffico di rete a grana fine con alta precisione, superando le esistenti tecniche di interpolazione dei dati, come l'interpolazione bicubica.
A nostra conoscenza, questa è la prima volta che le tecniche di super risoluzione vengono applicate alla stima di matrici di traffico. La validità di questo metodo è in qualche modo sorprendente perché le matrici di traffico non conservano piene "relazioni spaziali" tra elementi adiacenti. Questo non è vero nelle applicazioni classiche delle tecniche di super-risoluzione nell'ambito della visione artificiale, in cui l'adiacenza dei pixel si traduce tipicamente in prossimità della posizione.
|
Abstract
This thesis is the result of a research developed in collaboration with the Saint Louis University of Saint Louis, in the United States. In particular, I spent 6 months as a visiting student at the Networking Research Group, led by Professor Flavio Esposito.
Network measurement and telemetry techniques are central to the management of today's computer networks, e.g., Internet or cellular networks. Some of these techniques are based on prediction or inference, and they are used for several traffic engineering operations, e.g., performance analysis, capacity planning, traffic load peak detection, network security, and business intelligence, to name a few.
While effective methods to perform traffic estimation once data is available exist, the actual collection of data is costly. The frequency of measurements usually increases only when a problem is detected. To aggregate network traffic measurements and extract fine-grained patterns, expensive storage and processing are required. Existing traffic inference approaches that use statistical methods make assumptions on the structure of the matrix that may not be verified. Data-driven methods, instead, often use detailed information about the network topology that may be unavailable or impractical to collect
Inspired by the field of image processing, in this work we propose a super-resolution technique for traffic matrix inference that does not require any knowledge on the structural properties of the matrix elements to infer, nor a large data collection. Our solution aims at reducing the amount of data collected, stored, and transmitted for training and inference operations. In particular, our approach uses a deep learning architecture adapted from an existing model originally designed for image super-resolution applications, yet customized for traffic matrix processing.
To address scalability and data privacy concerns, we also expand our design by employing a federated learning model. As expected, such federation increases the accuracy of our inference with respect to its centralized counterpart, after a significantly lower number of training epochs. Moreover, clients who participate in the training process never exchange or expose their data.
We conduct experiments with real anonymized Internet traffic traces demonstrating that the proposed approach can infer fine-grained network traffic with high precision, outperforming existing data interpolation techniques, such as bicubic interpolation.
To our knowledge, this is the first time that super-resolution techniques are applied to traffic matrix estimation. The validity of this method is somehow surprising because traffic matrices do not preserve full "spatial relationships" between adjacent elements. This is not true in classical applications of super-resolution techniques to computer vision, in which pixel adjacency typically translates to location proximity.
|