Riassunto analitico
L'object detection è un compito cruciale nella computer vision e le sue prestazioni dipendono fortemente dalla disponibilità di dataset ampi e diversificati. Tuttavia, la creazione di dataset reali può essere dispendiosa in termini di tempo e costosa, soprattutto in domini specifici come quello del fitness. Questa tesi presenta un approccio innovativo basato sulla generazione di dataset sintetici per il rilevamento di oggetti nel campo del fitness.
Il metodo proposto si basa su due approcci differenti: - Tecniche avanzate di segmentazione: isolare gli oggetti di interesse dai loro sfondi originali. - Modellazione 3D: utilizzando Blender, sono state create rappresentazioni 3D dettagliate di attrezzi da palestra come manubri e kettlebell. Questi modelli sono stati renderizzati da più angolazioni con diverse configurazioni di illuminazione, permettendo la generazione di immagini sintetiche altamente realistiche. Sfruttando la flessibilità di Blender, è stato possibile controllare l'orientamento, la grandezza e l'aspetto di ogni oggetto per aumentare la varietà del dataset, simulando ambienti da palestra.
Questi oggetti isolati vengono quindi integrati in nuovi sfondi con prospettive, condizioni di illuminazione e trasformazioni variabili, creando un dataset sintetico che copre la maggior parte dei casi reali.
La pipeline di generazione del dataset sintetico permette una selezione flessibile degli oggetti, consentendo la creazione di dataset personalizzati, adattati a specifiche applicazioni nel campo del fitness. Inoltre, è stata condotta una valutazione per verificare l'efficacia dei dataset sintetici generati nell'addestramento di modelli di rilevamento di oggetti, con un focus su YOLOv5.
Dopo aver addestrato YOLOv5 sui dataset sintetici, ciascuno con varie tecniche di data augmentation, dimostriamo che la generazione di immagini di training sintetiche, realistiche e diversificate può ridurre significativamente il tempo e i costi associati alla raccolta dei dati. Inoltre, questo approccio migliora la capacità del modello di generalizzare in diversi scenari reali. Il metodo del dataset sintetico offre una copertura completa di diverse prospettive, grandezze e condizioni degli oggetti, equipaggiando il modello per affrontare sfide come dimensioni variabili, orientamenti diversi, condizioni di illuminazione e occlusioni.
Questa tesi evidenzia il potenziale dei dati sintetici come strumento potente nel rilevamento di oggetti, offrendo una soluzione scalabile ed efficiente per migliorare le prestazioni in domini specializzati come quello del fitness. Sfruttando questo approccio, è possibile ottenere progressi significativi nei modelli di object detection, rendendoli più adattabili ed efficaci nelle applicazioni del mondo reale.
|
Abstract
Object detection is a crucial task in computer vision, and its performance heavily relies on the availability of large, diverse datasets. However, creating real-world datasets can be time-consuming and expensive, especially in specific domains like the fitness field. This thesis presents a novel approach based on generating synthetic datasets for object detection in the fitness domain.
The proposed method leverages two different approaches:
- Advaced segmentation techniques: isolate objects of interest from their original backgrounds.
- 3D modeling: using Blender we created detailed 3D representations of gym tools such as dumbbells and kettlebells. These models were rendered from multiple angles with varying lighting setups, allowing for the generation of highly realistic synthetic images. By leveraging Blender's flexibility, we was able to control the orientation, scale, and appearance of each object to enhance the dataset's diversity, simulating real-world gym environments.
These isolated objects will be seamlessly integrated into new background images with varying perspectives, lighting conditions, and transformations, creating a synthetic dataset that covers most of the real-world cases.
The synthetic dataset generation pipeline allows for flexible object selection, allowing the creation of customized datasets tailored to specific fitness applications. Furthermore, an evaluation is conducted to assess the efficacy of the generated synthetic datasets in training object detection models, with a focus on YOLOv5.
After training YOLOv5 on the synthetic datasets, each incorporating various augmentation techniques, we demonstrate that generating diverse and realistic training images can significantly reduce the time and cost associated with dataset collection. Moreover, this approach enhances the model’s ability to generalize across different real-world scenarios. The synthetic dataset method provides comprehensive coverage of diverse object appearances, scales, and conditions, equipping the model to handle challenges such as varying sizes, orientations, lighting conditions, and occlusions.
This thesis highlights the potential of synthetic data as a powerful tool in object detection, offering a scalable and efficient solution for improving performance in specialized domains like fitness. By leveraging this approach, it is possible to achieve substantial advancements in object detection models, making them more adaptable and effective for real-world applications.
|