Riassunto analitico
In una realtà in cui i processi di business risultano sempre più guidati dai dati, un mondo in cui la maggior parte delle aziende fonda il proprio modello decisionale sulle analisi delle informazioni spesso autogenerate; un mondo in cui il concetto stesso di “dati” ha modificato la propria natura, portando alla luce nuove caratteristiche che stanno evolvendo la tradizionale definizione di Big Data, trovare nuovi e più adatti metodi per processare la mole di dati in ingresso diventa innegabilmente una sfida significativa. In questo scenario, e considerando il numero sempre crescente di soluzioni disponibili all’interno dell’infrastruttura per la gestione dei dati, la rilevanza di eseguire analisi comparative su motori di elaborazione, valutandoli in specifici campi di applicazione, assume un valore notevole. Questa tesi fornisce uno studio approfondito su una nuova piattaforma distribuita, Apache Flink, considerata tra le più competitive e general purpose all’interno dell’ Apache Software Foundation. Il risultato principale ottenuto è stato lo sviluppo di parte della prima implementazione del benchmark BigBench eseguita su motore Flink in ambiente Hadoop/YARN, testando e comparando i risultati raccolti con quelli originali dell’implementazione in HiveQL eseguita su infrastruttura Apache Hive. Test al variare del volume dei dati hanno dimostrato come, attraverso un’implementazione ottimizzata su motore Flink, è stato possibile raggiungere un risparmio in tempo di esecuzione medio all’incirca dell’80%, con picchi in valore puntuale anche del 90% per determinati casi d’uso. Ulteriormente, un importante panoramica sulle applicazioni di business di natura distribuita mostra come, l’utilizzo di un motore di elaborazione nativamente streaming porti notevoli vantaggi in termini di prestazioni, latenza e funzionalità. Elaborazioni su flussi di dati streaming infatti, rappresentano una significativa evoluzione accolta da un numero sempre maggiore di aziende, per le quali l’integrazione all’interno del proprio sistema di Business Intelligence di analisi in tempo reale assume un valore strategico.
|
Abstract
In an increasingly data-driven business reality, a world where most companies base the own decision-making model on the analysis of their often self-generated data and where the concept of “data” itself has changed its nature, leading to emphasize new features that are evolving the traditional definition of Big Data, finding new and suitable ways to process the incoming information undeniably becomes a significant challenge.
Against the proposed background, and considering the always increasing number of available solutions within the data management infrastructure, the relevance to perform comparative analysis on data processing engines, evaluating them against proposed scopes and applications, assumes a remarkable value.
This dissertation provides a deep inspection of a new and, widely regarded as one of the most general purpose distributed platform under the umbrella of the Apache Software Foundation: Apache Flink.
The main goal has been to develop part of the first BigBench benchmark implementation executed on Flink engine in Hadoop/YARN Ecosystem, testing and comparing collected results with those from the original BigBench HiveQL implementation running on Apache Hive infrastructure.
Tests on variable data volumes have shown how, through an optimized Flink implementation, it has been possible to achieve a time savings percentage averaged around 80%, with peaks up to 90% for some use cases.
Furthermore, an important insight into distributed business-oriented applications shows how a streaming dataflow engine brings considerable advantages in terms of performance, latency and functionality. Streaming processing indeed, represents a significant trend of moving welcomed by an increasing number of companies, for which real-time analytics integration results strategic within their own Business Intelligence environment.
|