Riassunto analitico
La rappresentazione numerica dei tessuti biologici è un elemento fondamentale dell'analisi biomedica, poiché la sua accuratezza influenza significativamente il successivo trattamento dei dati. I recenti progressi negli strumenti di profilazione cellulare hanno incrementato la risoluzione delle misurazioni e, in alcuni casi, hanno permesso di preservare la posizione spaziale delle cellule campionate. La maggiore disponibilità e eterogeneità dei dati hanno stimolato lo sviluppo di strumenti di rappresentazione basati sull'impiego di modelli di Intelligenza Artificiale. Questi strumenti mirano a imparare rappresentazioni numeriche accurate sfruttando le correlazioni tra diverse modalità di analisi per produrre rappresentazioni multimodali espressive dei tessuti biologici. Tuttavia, manca ancora un approccio completo che integri sia le diverse modalità sia le informazioni spaziali fornite dai più recenti strumenti biotecnologici.
In questa tesi, presento un framework rappresentazionale multi-omico che integra le informazioni spaziali nel processo di apprendimento, sfruttando un modello allo stato dell'arte basato su Graph Neural Networks. Questo framework è progettato per essere indipendente dal contesto biologico sottostante, rendendolo adattabile a una vasta gamma di applicazioni biomediche. Incorporando le informazioni spaziali, il modello rappresenta più accuratamente gli stati cellulari considerando lo stato del microambiente circostante. Questo approccio sottolinea l'importanza del contesto spaziale nel migliorare l'interpretabilità e l'efficacia delle rappresentazioni multimodali nell'analisi biomedica.
Una caratteristica cruciale del framework presentato è la sua capacità di affrontare il problema comune nel campo biomedico della mancanza di dati di controllo con cui guidare il processo di apprendimento. Ciò è possibile attraverso l'uso di tecniche di Self-Supervised Learning, che consentono al modello di apprendere dai dati stessi identificando schemi e strutture intrinseche senza fare affidamento su ampi dataset etichettati. Sfruttando il Self-Supervised Learning, il framework può generare rappresentazioni robuste e generalizzabili, anche in assenza di dati etichettati. Questa combinazione di integrazione spaziale e Self-Supervised Learning migliora la capacità del framework di produrre analisi multi-omiche accurate e approfondite, migliorando lo stato dell'arte nella ricerca biomedica.
|
Abstract
The numerical representation of biological tissues is critical in biomedical analysis, as its accuracy significantly influences subsequent data processing. Recent advancements in cellular analysis tools have increased measurement resolution and, in some cases, allowed to preserve the spatial location of sampled cells. The increased data availability and heterogeneity have fostered the development of AI-based representational tools. These tools aim to learn accurate numerical representations by leveraging correlations between different omics to produce expressive multimodal representations of biological tissues. However, a comprehensive approach that integrates both multiple modalities and the spatial information provided by the latest biotechnological tools is still lacking.
In this thesis, I present a multi-omics representational framework that integrates spatial information into the learning process, leveraging a state-of-the-art model which exploits Graph Neural Networks. This framework is designed to be task-agnostic, making it adaptable to a wide range of biomedical applications. By incorporating spatial information, the model more accurately represents cellular states by considering the state of their surrounding microenvironment. This approach underscores the significance of spatial context in enhancing the interpretability and effectiveness of multimodal representations in biomedical analysis.
A critical feature of the presented framework is its ability to tackle the common problem in the biomedical field of lacking ground-truth data. This is achieved through the use of self-supervised learning techniques, which enable the model to learn from the data itself by identifying intrinsic patterns and structures without relying on extensive labelled datasets. By leveraging self-supervised learning, the framework can generate robust and generalizable representations, even in the absence of ground-truth data. This combination of spatial integration and self-supervised learning enhances the framework's capability to produce accurate and insightful multi-omics analyses, thereby advancing the state of the art in biomedical research.
|