Riassunto analitico
Questa tesi affronta le problematiche della gestione degli stream di dati per le applicazioni e i servizi real-time data-intensive. Essa presenta i principali obiettivi ottenuti nella attività di ricerca svolta durante il mio Ph.D nell’ambito del Progetto Pegasus(Industria 2015) che ha come scopo principale la costruzione di un Sistema di trasporto Intelligente Avanzato(ITS). Pegasus mira a introdurre una nuova tipologia di ITS che sfrutti i dati provenienti dalle On-Board Units (OBUs), installate sui veicoli, per offrire ai guidatori servizi avanzati volti a migliorare la mobilità urbana quali, per esempio, il monitoraggio e la prevenzione del traffico e degli incidenti stradali, il suggerimento di percorsi alternativi, di parcheggi disponibili, etc. In generale, dispositivi come smartphone, OBUs e sensori sono capaci di raccogliere informazioni sull’ambiente che li circonda e di trasmetterle. Ciò permette lo sviluppo di nuove applicazioni data-intensive che sfruttino non solo stream di dati in real-time, ma anche dati storici e dati statici. Alcuni esempi sono le applicazioni di monitoraggio (ITS, monitoraggio dell'aria), le applicazioni militari (tracciamento del plotone), le applicazioni di rete (sistemi di rilevazione di intrusioni). Questa tipologia di applicazioni compie interrogazioni sui dati che vanno ben oltre le standard Continuous Query (CQ), supportate dai tradizionali Data Stream Management Systems (DSMSs) perché necessitano di un livello più alto di conoscenza dato proprio dai dati storici e statici. Per rispondere a questi requisiti, vari contributi in letteratura propongono di integrare i DSMS con le funzionalità dei Database Management Systems (DBMSs). Tuttavia, questo approccio non soddisfa completamente i requisiti progettuali e prestazionali richiesti da queste applicazioni. Questa tesi perciò presenta la prospettiva opposta e pone le fondamenta per rendere un qualsiasi DBMS capace di gestire nativamente stream di dati. A tal fine, introduciamo una nuova tipologia di tabella, la Streaming Table (ST), come una nuova struttura di memorizzazione dove i dati in stream entrano e rimangono memorizzati per un lungo periodo, idealmente per sempre. Le STs presentano un nuovo paradigma d’accesso: scritture continue e letture sia continue che one-time. Per supportare efficacemente sia update che letture a rate elevati, abbiamo inoltre introdotto due nuove tipologie di indici. Una dettagliata serie di risultati sperimentali mostra l’efficacia della tecnologia proposta rispetto allo stato dell’arte attuale. Nonostante le STs abbiano buone performance, negli scenari con alto workload, come Pegasus, potrebbe essere necessario ridurlo sul sistema centrale e trasferirlo sui dispositivi periferici. Consideriamo il contesto del progetto Pegasus, dove i veicoli sono equipaggiati con dei dispositivi con sensori e sono capaci di processare e trasmettere informazioni al sistema centrale. In questa prospettiva, lontani dal costruire un sistema distribuito, la tesi presenta i risultati sperimentali della nostra ricerca su diverse tecniche di Data Reduction al fine di minimizzare le comunicazioni Vehicle to Infrastructure (V2I). Abbiamo esplorato due categorie di tecniche: le independent techniques, dove i veicoli inviano in maniera completamente autonoma i dati al sistema centrale e le information-need techniques, dove i dati sono inviati al sistema tenendo conto di informazioni aggiuntive che giungono da esso. Infine, abbiamo integrato queste soluzioni tecnologiche in un middleware comune per gestire dati real-time, storici, statici e per fornire un ampio range di query possibili, supportando sia le CQ che le one-time queries. Il middleware è stato contestualizzato in uno scenario che trae spunto dalle smart city dove vari servizi sono basati sulla disponibilità immediata dei dati. Infine la tesi mostra i risultati promettenti ottenuti da una varietà di prove sperimentali effettuate su di esso.
|
Abstract
This thesis focuses on Data Management for data intensive real-time applications and services. It presents the main goals achieved during the course of my Ph. D. that was linked to the Pegasus Project, a project funded by Industria 2015 programme and having the overall goal to build an advanced Intelligent Transportation System (ITS). The Pegasus Project aims to introduce a new ITS paradigm that exploits data coming from On-Board Units (OBUs) to provide drivers with advanced services to enhance mobility, i.e traffic congestion prevention and warnings, alternative route prompting, crash monitoring, parking availability, gas station cheapness, aso.
Generally speaking, recent technologies, such as smartphone, OBUs, sensors, aso, are able to collect a large amount of environmental information and to transmit it in different ways. They offer the basis to new modern data-intensive applications that exploit not only live data but also relatively past as well historical information and static data. Some samples of these novel application scenarios are, for instance, monitoring applications (ITS, smart cities), military applications (platoon tracking), network applications (intrusion detection). These kinds of applications show querying needs that go beyond the standard Continuous Queries (CQs) over data stream paradigm supported by traditional Data Stream Management Systems (DSMSs) because they take advantage from an upper level of knowledge given by historical and static data.
In order to cope with these new needs, some authors proposes the idea of moving DSMSs towards the integration of Database Management System (DBMS) functionalities to augment their capabilities. However, this approach does not completely meet the design and performance needs required by this new kind of applications.
This thesis presents the opposite perspective and lay the groundwork for extending DBMSs to natively support streaming facilities. To this end, we introduce a new kind of table, the streaming table, as a persistent structure where streaming data enters and remains stored for a long period, ideally forever. Streaming tables feature a novel access paradigm: continuous writes and one-time as well as continuous reads. Streaming table are equipped with two novel types of indices that efficiently support both update and scan high rates. A detailed experimental evaluation shows the effectiveness of the proposed technology and that no related state-of-the-art approach is able to achieve the same results.
Although streaming tables achieve good performances, in high workload scenarios, like Pegasus, it could be necessary to reduce the workload on centralized systems and move it to neighbour devices. We considered the context of the PEGASUS Project, where vehicles are equipped with sensor-based devices able to compute and communicate to the system information like vehicles’ position and speed. In this perspective, far from building a distributed system, the thesis presents the result of our experimental investigation about the employment of different data reduction techniques to minimize V2I communication in an ITS. We explored two categories of data reduction techniques: independent techniques, where vehicles autonomously send data to the centralized system, and information-need techniques, where data is sent by taking into account additional data received from the centralized system.
Finally we integrate the above technological solutions in a data management middleware that offers the robustness of a common framework to manage real-time/historical/static data and that provides a wide range of query capabilities by efficiently supporting continuous as well as one-time queries. The middleware has been contextualized to scenario coming from the smart city context where various services are based on the prompt availability.
As a proof of its good performances, the thesis shows the very promising results obtained on a variety of traffic conditions.
|