Riassunto analitico
Questa tesi affronta la nuova sfida nel campo del multimodal learning dell'apprendimento tramite l'interazione di modalità non viste durante l'allenamento. L'obiettivo di questa tesi è studiare un modello multimodale addestrato su un training set dove alcune combinazioni di modalità non sono disponibili, in grado di gestire efficacemente combinazioni di modalità non viste durante l'inferenza. L'apprendimento multimodale rappresenta una sfida significativa nel campo del machine learning, poiché cerca di integrare fonti di dato, note come modalità, che differiscono nella loro rappresentazione, nelle dinamiche di apprendimento e nel potere discriminante, per risolvere un determinato task. Le metodologie recenti di apprendimento multimodale tipicamente assumono che durante l'addestramento siano disponibili tutte le modalità, situazione che in applicazioni reali spesso non capita a causa di limitazioni relative alla privacy, oppure per guasti ai sensori o corruzione dei dati. Molti approcci precedenti si sono focalizzati sull'affrontare la sfida della mancanza di dati in alcune modalità sviluppando metodi che possano gestire e utilizzare efficacemente dati incompleti. In questa tesi, invece, affrontiamo la nuova sfida dell'apprendimento tramite l'interazione di modalità sconosciute. La metodologia utilizza un modulo di proiezione per proiettare le features multidimensionali delle diverse modalità in uno spazio comune, preservando il più possibile le informazioni distintive. Le features allineate possono, dunque, essere sommate e date in input ad un transformer per effettuare la predizione. Durante l'addestramento, per mitigare l'overfitting alle combinazioni di modalità meno discriminanti, il metodo genera una tecnica di pseudo-supervisione che viene integrata insieme alle labels tramite una predizione a dual branch. L'efficacia della metodologia viene testata su due tasks differenti: riconoscimento delle azioni utilizzando come modalità immagine ed audio e classificazione utilizzando come modalità immagine e testo.
|
Abstract
This thesis addresses the new challenge in multimodal learning of learning by unseen modalities interactions.
This thesis aims to study a multimodal model trained on a modality-incomplete training set where some modality combinations are not available, that can effectively handle unseen modality combinations during inference.
Multimodal learning represents a significant challenge in the field of machine learning as it seeks to integrate various data sources, known as modalities, which differ in their input representations, learning dynamics, and discriminative power for a given target task.
Recent multimodal learning methodologies typically require the completeness of modality, which may not be the real-world case due to privacy concerns, budget limitations, sensor failures, privacy concerns, or data corruption. Many prior works focused on addressing the challenge of missing modalities by developing methods that can effectively manage and utilize incomplete data.
In this work, instead, we tackle the new challenge of learning by modality combinations not seen during training. The framework uses a feature projection module to project the multidimensional features of different modalities into a common space while preserving as much distinguishing information as possible. In that way, the aligned representations can be summed and given as input to a transformer model to perform the prediction. To mitigate overfitting to less discriminative modality combinations during training, the framework generates a pseudo-supervision and incorporates it alongside the ground-truth labels with dual branch prediction.
We test the method's effectiveness on two different tasks: action recognition by using image and audio as modalities and classification by using image and text as modalities.
|