Riassunto analitico
Nell’analisi d’espressione genica, i campioni tissutali sono spesso eterogenei in termini di componenti cellulari. Considerando che l’espressione genica può variare in modo sostanziale tra tipi cellulari diversi, mRNA derivanti da un miscuglio di tipi cellulari differenti possono portare a risultati fuorvianti e difficili da interpretare biologicamente. Il problema dell’eterogeneità è particolarmente importante in ambito patologico, per esempio nello studio di campioni tumorali, dove i livelli di cellule immunitarie infiltranti possono essere associate alla crescita del tumore, alla progressione del cancro o alla sopravvivenza del paziente. Pertanto, valutare la composizione cellulare si dimostra sempre più importante quando si indagano sia stati patologici che stati fisiologici degli organismi e dei loro tessuti eterogenei. Poiché i metodi standard per studiare l’eterogeneità cellulare, come la citometria a flusso e l’immunoistochimica, possono essere influenzati da limitazioni dovute al ristretto repertorio di marcatori fenotipici e dalla perdita o dal danneggiamento di cellule durante la disaggregazione del tessuto, recentemente sono stati proposti diversi metodi computazionali per ricostruire le diverse componenti cellulari di un campione direttamente dai suoi dati trascrittomici whole-genome. Tra i vari metodi per la deconvoluzione di profili d’espressione genica, Cibersort sembra essere il più robusto e promettente, essendo in grado di quantificare accuratamente le frazioni relative di 22 classi di sottotipi leucocitari umani da dati di espressione genica di tessuti eterogenei. In questa tesi, ci siamo basati sull’algoritmo di Cibersort per definire un metodo che sia in grado di predire le frazioni di tipi cellulari di campioni sia umani che murini a partire dai loro profili d’espressione genica. Inizialmente, l’algoritmo originale è stato testato con i suoi parametri e la sua signature matrix originali su dati di espressione da sottotipi di leucociti sani derivanti da dataset pubblici. Poi la signature matrix originale è stata modificata aggiungendo due tipi cellulari del sangue (eritrociti e basofili) per testare la capacità di questo metodo di individuare tipi cellulari addizionali. Una volta dimostrata l’efficacia del metodo, abbiamo creato una serie di signature matrix completamente nuove per identificare un ampio numero di sottotipi cellulari mieloidi (da 7 a 50), partendo da un dataset di circa duecento campioni mieloidi murini. Queste matrici sono state poi convertite da murino ad umano per poter essere utilizzate anche con campioni umani. I risultati sui dati murini hanno mostrato che tutte le signature matrix riescono, in generale, ad identificare correttamente diversi set di sottopopolazioni cellulari mieloidi. Le analisi effettuate sui dataset umani hanno indicato che alcuni tipi cellulari vengono identificati meglio di altri, ad esempio le cellule dendritiche ed i granulociti, probabilmente a causa di una maggiore similarità di profili d’espressione genica di specifici marcatori nel topo e nell’uomo. Complessivamente questi risultati suggeriscono che i dati murini possono essere sfruttati, per sottotipi cellulari specifici, come campioni di riferimento per creare una signature matrix per la deconvoluzione di dati d’espressione genica da campioni umani. In conclusione, con questo progetto abbiamo definito un metodo per identificare diversi tipi e sottotipi cellulari dai dati trascrizionali di campioni eterogenei.
|
Abstract
In gene expression profiling, tissue samples are often heterogeneous in terms of cellular components. Since gene expression can vary substantially among cell types, mRNA deriving from a mix of different cell types can lead to confounding and difficult to interpret biological results. The problem of heterogeneity is particularly important in the pathological setting, for example when studying tumor samples, where the levels of infiltrating immune cells could be associated to tumor growth, cancer progression or patient outcome. Therefore, to assess the cellular composition is increasingly important when investigating both physiological and pathological states of the organisms and of their complex tissues.
Since standard methods for studying cell heterogeneity, like flow cytometry and immunohistochemistry, can be affected by limitations due to the small repertoire of phenotypic markers and by the cell loss or damage during tissue disaggregation, several computational methods have been recently proposed to reconstruct the different cellular components of a sample directly from its whole-genome, transcriptional data. Among the various methods for gene expression deconvolution, Cibersort seems the most robust and promising, being able to accurately quantify the relative fractions of 22 classes of human leukocyte subsets from gene expression data of complex tissues.
In this thesis, we built on Cibersort algorithm to design a method that can predict the cell type fractions of both human and murine samples starting from their gene expression profiles. Initially, the original algorithm has been tested with its original parameters and signature matrix on expression data from subtypes of healthy leukocytes derived from public available datasets. Then, the original signature matrix has been modified adding two additional blood cell types (erythrocytes and basophils) to test the ability of the method to detect additional cell subtypes. Once proved the efficacy of the method, we created a series of completely new signature matrices to identify a wider number of myeloid cell subtypes (from 7 to 50), starting from a dataset of about two hundreds murine myeloid samples. These matrices have been then converted from murine to human to be used also with human samples. Results on murine data showed that all the signature matrices can in general correctly identify different sets of myeloid cell subpopulations. The analysis performed on the human datasets indicated that some cell types are better identified than others, such as dendritic cells and granulocytes, probably because of a larger similarity of gene expression profiles of specific markers in mouse and human. Overall, these results suggest that murine data can be used, for specific cell subtypes, as reference samples to create a signature matrix for the deconvolution of gene expression data from human samples. In conclusion, with this project we defined a method to identify different cell types and subtypes from the transcriptional data of heterogeneous samples.
|