Riassunto analitico
In questa tesi sono affrontati due problemi centrali della visione artificiale: il riconoscimento e la segmentazione di oggetti. In entrambe le problematiche vengono utilizzate immagini del mondo reale, in cui i vincoli imposti (dal punto di vista alla forma e posa degli oggetti) andranno a definire la complessità del problema in esame. Il riconoscimento di oggetti si occupa di identificare la classe di un oggetto non noto tra un insieme di possibili categorie, la segmentazione ha invece l’obiettivo di trovare i contorni di un oggetto ed è solitamente utilizzata come stadio precedente ad altri algoritmi di visione artificiale. Un nuovo descrittore di immagine è stato proposto per migliorare l’accuratezza dei sistemi di riconoscimento, costruito in modo tale da essere indipendente dal contesto dei dati utilizzati. Il descrittore proposto è stato utilizzato per problemi large-scale (centinaia di migliaia di immagini) e su differenti applicazioni (dalle immagini legate al Cultural Heritage alla ricerca di immagini online). Per quanto riguarda la segmentazione di oggetti, inizialmente ci siamo concentrati su oggetti di classe nota, dove l’informazione della categoria viene utilizzata per costruire modelli di segmentazione specifici. La similarità tra oggetti è utilizzata per identificare immagini di training simili a quella da segmentare, che vengono poi utilizzate in una One Class Support Vector Machine per trovare il modello di segmentazione ottimo. In un confronto con una recente soluzione basata su Structural Support Vector Machines il nostro metodo è in grado di ottenere le stesse performance con una velocità di training di un ordine di grandezza superiore. Il secondo algoritmo proposto studia la segmentazione su grafi tramite l’algoritmo graph-cut, applicato a superpixel (gruppi omogenei di pixel) e introduce uno schema di apprendimento per la ricerca dei bordi degli oggetti sfruttando le caratteristiche visuali dei superpixel adiacenti. L’ultimo algoritmo proposto nella tesi riguarda la segmentazione di oggetti indipendente dalla categoria e studia la connessione tra similarità visuale e similarità di segmentazione, definita come la proprietà di due oggetti di condividere lo stesso approccio alla segmentazione. Un albero di prototipi di segmentazione è creato in fase di apprendimento, in cui ogni nodo è composto da oggetti che presentano sia alta similarità visuale che di segmentazione. Le caratteristiche visuali di un oggetto da segmentare vengono utilizzate per selezionare il prototipo di segmentazione migliore. L’ultimo capitolo della tesi è dedicato alle applicazioni dei metodi proposti, dove le idee presentate sopra vengono utilizzate per risolvere problemi pratici. Tutti i metodi della tesi sono stati testati su dati pubblici per correttezza e per stimolare il confronto con le idee proposte.
|
Abstract
In this thesis, two main problems in computer vision are analyzed: object recognition and object segmentation. Real world images are used in both settings where the imposed constraints (object dimensions, pose, number of objects, etc…) will define the complexity of the problem.
Object recognition deals with recognizing the class of an unknown object among a set of possible categories, object segmentation has the goal of finding the contours of an unknown object and is usually used as a pre-processing step for further image understanding algorithms.
A new image descriptor is proposed to enhance object recognition accuracy while introducing dataset independence in the computation of the image signature. The proposed descriptor is tested on large scale datasets and in various applications (from Cultural Heritage Imaging to Online Image Retrieval).
In object segmentation, we first focus on class-specific supervised segmentation, where the category of the object to be segmented is known a priori, and it is used to build class-specific models.
Object similarity is used in our proposal to identify similar training images and exploited by a One Class Support Vector Machine to find the appropriate segmentation model. When compared to a state-of-the-art proposal based on Structural Support Vector Machines, our method is able to obtain the same segmentation accuracy with a training procedure of one order of magnitude faster.
A second proposal focuses on the graph-cut segmentation algorithm on superpixels (homogeneous groups of pixels) and introduces a learning scheme to find the borders of objects analyzing adjacent superpixels appearance.
The last algorithm proposed in the thesis is about class-independent object segmentation, and investigates the connection between visual similarity and segmentation similarity, defined as the property of two objects of sharing the same segmentation challenges. A tree of segmentation prototypes is created at training time, formed by objects that share both visual and segmentation similarity. The visual appearance of an unknown object is used to search for the best prototype at testing time.
The last chapter of the thesis is dedicated to applications of the proposed methods, where the ideas discussed above are tested to solve practical problems.
All the methods proposed in this thesis are tested on publicly available datasets, to promote comparison with our works and for the sake of fairness.
|