Riassunto analitico
La quantità e la qualità dei dati forniti ad un qualsiasi modello di deep learning è fondamentale per le sue prestazioni, ma allo stesso tempo la costruzione e l'etichettatura di un dataset è una delle fasi più lunghe e costose del ciclo di vita del modello stesso. L'obiettivo del tirocinio curriculare presso CNH Industrial, e di conseguenza della mia tesi, è stato quello di esplorare diverse tecniche di dataset augmentation, con particolare attenzione ai metodi che sfruttano l'intelligenza artificiale generativa per generare immagini sintetiche e le relative annotazioni. Questo ha permesso di completare la distribuzione dei dati già acquisiti da CNH e contemporaneamente di etichettare automaticamente la grossa quantità di immagini generate. Al termine della fase di esplorazione ed implementazione delle tecniche di intelligenza artificiale generativa, è stata effettuata una fase di valutazione di un modello di segmentazione addestrato con diverse quantità di immagini sintetiche aggiunte a un dataset reale, al fine di valutare la presenza di eventuali miglioramenti delle prestazioni dopo aver arricchito il dataset con immagini generate. L'utilizzo di dati sintetici e la loro etichettatura automatica potrà consentire all'azienda di migliorare ulteriormente i modelli di intelligenza artificiale supervisionati utilizzati, come quelli di segmentazione e detection, per poterli impiegare in futuro sul campo e ottenere informazioni e statistiche ancora più rilevanti
|
Abstract
The quantity and quality of data provided to any deep learning model is critical to its performance, but at the same time the construction and labeling of a dataset is one of the most time-consuming and expensive phases of the model's lifecycle.
The goal of the curricular internship at CNH Industrial, and consequently of my thesis, was to explore different dataset augmentation techniques, with a focus on methods that exploit generative artificial intelligence to generate synthetic images and their corresponding annotations. This work made it possible to complete the distribution of the data already acquired by CNH while automatically labeling the large amount of generated images.
At the end of the exploration and implementation phase of generative artificial intelligence techniques, an evaluation phase of a segmentation model trained with different amounts of synthetic images added to a real dataset was performed in order to assess the presence of any performance improvements after enriching the dataset with generated images.
The use of synthetic data and its automatic labeling will allow the company to further improve the supervised artificial intelligence models used, such as those for segmentation and detection, so that they can be exploited in the field to obtain even more relevant information and statistics.
|