Riassunto analitico
L'obiettivo di un sistema di apprendimento automatico è catturare la struttura e le regolarità presenti nei dati in ingresso in modo da permettere la classificazione di dati futuri. I metodi di apprendimento artificiale sono in grado di astrarre modelli di classificazione da dati di training precedentemente annotati, ma riscontrano difficoltà quando la distribuzione di tali dati non è esplicitamente modellata. Una considerevole quantità di dati visuali è oggi disponibile in varie applicazioni, le difficoltà, sfortunatamente, risiedono nell'avere a disposizione dati annotati e nella possibilità di etichettare i dati sulla base delle risorse di tempo disponibili o della conoscenza accessibile. Questa tesi è focalizzata sull'apprendimento automatico di modelli discriminativi in scenari con una scarsa disponibilità di dati annotati o con dati incompleti. Con dati incompleti ci riferiamo sia al caso in cui solamente un sottoinsieme dei dati di ingresso sia annotato, sia al caso in cui solo una frazione delle classi di addestramento sia annotata. Il problema dell'apprendimento automatico con dati parzialmente etichettati è stato qui valutato in tre diverse applicazioni nel campo della visione artificiale, ovvero localizzazione e inseguimento di persone, classificazione di nuove categorie di immagini e analisi di immagini di documenti. Nella video sorveglianza l'input di un sistema di tracking può essere visto come un insieme di dati solo parzialmente annotati, dove sono presenti alcuni esempi del target da seguire e diversi esempi non etichettati. Tali dati non etichettati possono discostarsi anche notevolmente dal modello dei dati annotati a causa di occlusioni, cambiamenti di posa o di illuminazione, rendendo il problema di associazione tra dati etichettati e non ancora più complicato. In questa tesi viene proposto un metodo di apprendimento automatico semi supervisionato per risolvere il problema di inseguimento di persone e viene dimostrato mediante un’analisi sperimentale l’efficacia della soluzione proposta. Riguardo alla classificazione di immagini, un'interessante sfida è rappresentata dall’individuazione di nuove categorie e sottocategorie di oggetti. Assumendo che gli oggetti siano organizzati in tassonomie, può verificarsi il caso in cui gli elementi da classificare differiscano dalla gerarchia appresa o condividano solo parte dei nodi parentali. Il lavoro è qui dedicato all’apprendimento di un modello dai dati di training che sia in grado di generalizzare anche su classi non viste durante la fase di apprendimento. Infine, l’ultima parte affronta la segmentazione di figure in scansioni di testi antichi e il recupero di immagini simili da altre sorgenti. Lavorare sulla segmentazione di documenti datati risulta in una considerevole quantità di elementi illustrativi e quindi nella difficoltà di avere a disposizione esempi rappresentativi di questa eterogeneità. Viene proposta una rappresentazione efficace delle caratteristiche delle immagini e l’utilizzo di Support Vector Machines come metodo di classificazione. L'uso di queste due tecniche ha condotto ad un miglioramento nei confronti di altri metodi esistenti anche nel caso in cui un modello dettagliato dei dati di training non è disponibile.
|
Abstract
The goal of a learning system is to capture patterns and regularities in training
data which allow for future classification. Machine learning methods are able
to generalize a classification model from labelled training data but difficulties
arise when the distribution of the training data is not explicitly modelled. Real
world applications offer a massive amount of visual data, but unfortunately
labelled data are not always easy to find and the labelling process is costly and
time consuming or may not be possible for a lack of knowledge. This work
is focused on the learning of discriminative visual models in scenarios with
partially annotated or incomplete data. With incomplete data we refer either
to the case where only a subset of the training data is labelled or where only a
fraction of the training classes is known. We evaluate the problem of learning
from incomplete data in three separate computer vision applications, namely
people tracking, novel image classification and document image analysis.
In video surveillance the input of a tracking system might be interpreted
as a set of partially labelled data where there are only few annotated instances
of the target and several not annotated samples. Not annotated test data might
also deviate from training data because of occlusions, changes in pose or appearance
making the target association problem challenging. We exploit a semi
supervised learning method to solve the problem of people tracking and we
demonstrate with an experimental analysis the effectiveness of the proposed
approach.
Regarding image categorization, an interesting challenge is represented by
the detection of novel categories and subcategories of objects. Assuming that
objects can be organized in taxonomies, the instances to be classified may differ
from the hierarchy learned from training data and they might share only parent
nodes. Our work is devoted to derive a learning model from labelled data able
to generalize over data coming from classes not seen during training.
Finally, the last part addresses the picture segmentation in document images
of old books.
Dealing with the layout segmentation of old documents
results in a variety of pictorial elements, thus in the difficulty of being able
to collect samples representative of this heterogeneity. We propose an effective
feature representation and a Support Vector Machines classification along
with an experimental evaluation that demonstrate an improvement over baseline
methods of document layout analysis even if a detailed model of the input
space is not available.
|