Riassunto analitico
Lo scopo di questa tesi è quello di implementare e valutare le prestazioni di algoritmi di ensemble learning, basati su alberi di regressione, nel campo della modellazione dei motori a combustione interna. Lo scopo è quello di prevedere il CA50MFB, un indice di combustione cruciale per la stima dell'efficienza di combustione, la riduzione delle emissioni e la possibilità di strategie di controllo più efficienti. Inizialmente, sono state condotte ricerche approfondite sugli alberi decisionali e i metodi di ensemble learning, come bagging, boosting e random forests, con l'obiettivo di implementarli e stabilire una solida base per una procedura affidabile che sarà adottata in questo lavoro. In questa tesi vengono presi in considerazione modelli basati sul machine learning e sono disponibili due tipi principali di dataset: dataset stazionari, che rappresentano misurazioni ripetute di punti del motore e dataset dinamici, che rappresentano registrazioni continue del motore al banco di prova o sul veicolo. L'obiettivo primario è quello di addestrare i modelli sui dati stazionari e testarli su quelli dinamici. Inoltre, è importante accertare se questi modelli di ensemble learning sono in grado di identificare le anomalie nel processo di combustione, come il taglio del carburante o la mancata combustione. In questo lavoro, verranno adottate diverse tecniche di ottimizzazione per determinare l'insieme di valori degli hyperparameters più adatti. Inizialmente, verrà condotta una procedura di messa a punto manuale, successivamente i risultati verranno valutati rispetto a una procedura di ottimizzazione automatica presente nell'ambiente software. L'intero lavoro è stato svolto con la suite MATLAB, dove sono stati sviluppati una serie di script per raggiungere tutti i risultati desiderati. Inoltre, è stato condotto un confronto completo delle prestazioni dei diversi metodi di ensemble, analizzando principalmente l'accuratezza della previsione sui dati di testing. Le prestazioni sono valutate utilizzando metriche standard come l'errore quadratico medio (RMSE) e il coefficiente di determinazione/correlazione (R2). Gli approcci di ensemble learning, che utilizzano alberi di regressione, sono stati selezionati per la loro robustezza nel gestire relazioni complesse e non lineari e per la loro capacità di migliorare l'accuratezza predittiva attraverso l'aggregazione dei modelli. I risultati cercano di dimostrare il potenziale dei modelli motore basati sull'ensemble learning e la loro applicazione pratica nei sistemi di controllo in tempo reale e nel rilevamento dei guasti. Inoltre, i risultati definiranno una procedura robusta per trovare il miglior insieme di hyperparameters e comprendere i limiti dei modelli, con l'obiettivo di generalizzare questi verso la stima di altri indici di combustione e lo scopo di affrontare e superare i loro limiti.
|
Abstract
The aim of this thesis is to implement and evaluate the performance of ensemble learning algorithms, based on regression trees, in the field of internal combustion engine modelling. The purpose is to predict the CA50MFB, a crucial combustion index for the estimation of the combustion efficiency, reducing emissions, and enabling more efficient control strategies. Initially, in-depth research on decision tree and ensemble learning approaches, such as bagging, boosting, and random forests, have been conducted with the purpose of implementing them and establishing a solid foundation for a reliable procedure that will be adopted in this project.
In this thesis machine learning-based models are considered and in this thesis two main type of dataset are available: steady-state datasets, which represent repeated measurements of engine points and dynamic datasets, which represent continuous engine recordings of the engine at the test bench or on the vehicle.
The primary objective is to train the models on the steady-state dataset and test them on the dynamic ones. Additionally, it is important to ascertain whether these ensemble learning models can identify anomalies in the combustion process, such as a fuel cut-off or misfire.
In this work, different optimization techniques will be adopted to determine the most suitable set of hyperparameter values. Initially, a deep hand-tuning procedure will be conducted, and then the results will be evaluated with respect to an automated optimization procedure present in the software environment.
The entire work has been carried out with the MATLAB suite, where a series of scripts have been developed in order to reach all the desired outcomes.
In addition, a comprehensive comparison of the performance of different ensemble methods is conducted, analyzing mainly the prediction accuracy on the testing datasets. The performance is assessed using standard metrics as the root mean square error (RMSE) and the coefficient of determination/correlation (R2).
The ensemble learning approaches, using regression trees, have been selected due to their robustness in handling complex, non-linear relationships and their capacity to enhance predictive accuracy through model aggregation.
The results attempt to demonstrate the potential of ensemble learning-based engine models and their practical application in real-time engine control systems and fault detection.
Moreover, the results will define a robust procedure to find the best set of hyperparameters and understand their limitation, with the objective of generalizing these models towards the estimation of other combustion indexes and the purpose to address and overcome their limitations.
|