Riassunto analitico
Negli ultimi anni le tecnologie di sequenziamento dell’RNA a singola cellula hanno permesso di fare importanti passi avanti nella comprensione dello scenario trascrittomico. La principale conquista ottenuta grazie a questi metodi è la possibilità di districare la complessità molecolare dei tessuti biologici con una risoluzione a livello di singola cellula, portando a una dettagliata classificazione dei tipi cellulari presenti nel tessuto e a caratterizzarne il trascrittoma. Nonostante il suo grande potenziale, questo tipo di tecnologia mostra dei limiti notevoli, dovuti soprattutto alla fase di preparazione della libreria che precede il sequenziamento. Infatti i dati di espressione a singola cellula sono caratterizzati da un notevole rumore di fondo, per questo i geni poco espressi rischiano di non essere rilevati, una condizione che prende il nome di “dropout”. D’altro canto, trascritti molto abbondanti potrebbero fuoriuscire dalle goccioline di reazione e contaminare il trascrittoma associato ad altre cellule. Per superare alcuni di questi ostacoli, i comuni protocolli di analisi computazionale prevedono una fase di analisi dei gruppi (clustering) che permette di raggruppare assieme cellule che condividono un certo assetto trascrizionale, seguito da uno step di annotazione fatta manualmente o in automatico che permette di stabilire l’identità delle singole cellule. Tuttavia, questo approccio dipende dalla capacità di suddividere adeguatamente il campione in gruppi di cellule omogenei dal punto di vista trascrizionale, condizione spesso raggiunta solo per i tipi cellulari più generici. Di conseguenza, una annotazione dettagliata anche di tutte le sottopopolazioni cellulari dall’identità biologica ben definita è ancora lungi dall’essere raggiunta. In questo lavoro di tesi è stato sviluppato un nuovo protocollo di analisi basato sul linguaggio di programmazione R che ha permesso di migliorare il raggruppamento con l’obiettivo di distinguere le sottopopolazioni cellulari a partire da dati di espressione ottenuti con sequenziamento a singola cellula. In primo luogo, è stata eseguita la procedura di analisi dei dati di espressione implementata nel pacchetto popsicleR su dati pubblici derivati da un campione di midollo osseo umano, caratterizzato da 14000 cellule e dati molto rumorosi. In seguito, a partire dal calcolo di una analisi delle corrispondenze multiple (MCA) che permette di rappresentare nello stesso spazio a dimensionalità ridotta sia le cellule che i geni, le distanze tra ogni singola cellula e ogni singolo gene vengono stabilite in modo tale da stilare una classifica di tutti i geni per ciascuna cellula. In seguito, viene applicata una funzione sigmoide ai valori di posizionamento in classifica dei geni per trasformare i dati in modo che siano contenuti in un intervallo di valori continui tra 0 e 1. A questo punto, ogni cellula è rappresentata da un vettore che corrisponde a una classifica dei geni ponderata sulla base della loro distanza da quella cellula, e i valori che si avvicinano maggiormente a 1 coincidono con i geni più importanti e più caratterizzanti per la cellula. Successivamente, sulla matrice con tutte le classifiche dei geni viene eseguita una analisi delle componenti principali (PCA) i cui dati in uscita possono essere sfruttati per fare trasformazioni non-lineari dei dati e per eseguire analisi di clustering. Grazie a questo nuovo protocollo di analisi computazionale è stato ottenuto un miglioramento considerevole nella identificazione dei sottotipi cellulari rispetto alla procedura basata sui soli dati di espressione, in particolare per quanto riguarda le sottopopolazioni del compartimento dei linfociti T. Per quantificare l’entità del miglioramento, sono state utilizzate tre misure: purezza dei cluster, Normalized Mutual Information (NMI), dipendenti dal raggruppamento, e una nuova misura indipendente dal raggruppamento detta kNN-Purity.
|
Abstract
In the last years the advent of single-cell RNA sequencing (scRNA-seq) paved the way for a new comprehension of cell transcriptional landscape in healthy and disease contexts. The principal advance of this technique is the capability of disentangling tissue complexity at a cellular level, providing a fine classification of cell types within the tissue and the characterization of their transcriptomes. Despite its astonishing power, this method shows considerable drawbacks, mainly due to issues that can arise during library preparation. For instance, single cell expression data are subject to high levels of noise and low-expressed genes could be missed, resulting in dropout events. On the other hand, extremely abundant transcripts could leak and contaminate other cells. To overcome some of these hurdles, current scRNA-seq analysis pipelines include clustering step, which allows to group cells on the basis of their transcriptional similarity, followed by manual or automatic annotation, that consists in establishing cell identity. However, this approach depends upon clustering ability to correctly dissect the sample, which is often accurate only at a coarse resolution. Thus, a deep annotation of all biologically relevant subpopulations is still an ongoing challenge.
This thesis addresses the development of a new analysis pipeline based on R computational environment which enhances clustering procedure to better distinguish cell subpopulations in scRNA-seq samples. First, a RNA-based pipeline implemented in popsicleR package was applied on a public sample of human bone marrow with 14,000 cells, whose data are characterized by high levels of noise. Starting from a Multiple Correspondence Analysis (MCA), both cells and genes are first represented in a dimensionally reduced common space, then gene-to-cell distances are computed to generate gene rankings for each single cell. Next, a sigmoid transformation is applied to convert rankings to a continuous range from 0 to 1. Thus, each cell is described by a vector of weighted ranks where genes with values close to 1 are the most important and specific to describe the cell. Afterwards, gene signature weighted ranks are used as input to a Principal Component Analysis (PCA) which can then be employed to perform non-linear dimensionality reductions and cluster cells.
As a result, a noticeable amelioration in cell subpopulation identification was achieved in comparison to RNA-based pipeline, especially regarding T cell subtypes. To quantify clustering improvement, two commonly used clustering-dependent metrics were considered: Cluster Purity and Normalized Mutual Information (NMI). Lastly, a measurement called k-Nearest Neighbors (kNN) Purity was newly developed to obtain a clustering-independent validation of accomplished results. In conclusion, this study covers the development of a novel computational approach that improves clustering robustness with the ultimate goal of enhancing cell type identification. This method could be useful when handling datasets containing cell subpopulations that are transcriptionally difficult to distinguish.
|