Riassunto analitico
Il sequenziamento dell'RNA a singola cellula (scRNA-seq) è una nuova tecnologia che consente la caratterizzazione del trascrittoma alla risoluzione di una singola cellula. Uno dei principali obiettivi dell'analisi di questo tipo di dati è l'identificazione del tipo cellulare, chiamato "annotazione"; questa tecnologia infatti consente di caratterizzare, attraverso il profilo trascrizionale, diversi fenotipi cellulari. Questo aumento del livello di risoluzione produce ovviamente un'enorme quantità di dati. Per risolvere i problemi emergenti relativi a scRNA-seq, numerosi protocolli sono stati e sono ancora in fase di sviluppo; questo sta accadendo a un ritmo ancora più veloce per gli strumenti computazionali. In questo studio abbiamo eseguito un'analisi bioinformatica di un set di dati scRNA-seq del midollo osseo generato nell'ambito del progetto Tabula Muris e testato diversi approcci per l'identificazione dei tipi cellulari. L'annotazione può essere eseguita manualmente, monitorando in ciascun cluster l'espressione di geni marcatori noti, o automaticamente, questi strumenti assegnano ogni singola cellula a una popolazione attraverso un classificatore e liste di geni predefinite. Abbiamo eseguito la pre-elaborazione della matrice di dati disponibile (controlli di qualità, visualizzazione dei dati, normalizzazione e filtro) utilizzando il pacchetto Scater in R. Per il clustering e per l'identificazione dei geni marker per ciascun cluster identificato abbiamo utilizzato il programma SC3. Abbiamo eseguito l'assegnazione manuale dei cluster alle loro sottopopolazioni tramite marker noti e abbiamo confrontato i geni marker per ciascun cluster identificato attraverso test di arricchimento e strumenti online: Gene Skyline (RNA-Seq) e My geneset di Immgen. Abbiamo anche testato tre diversi pacchetti R per l'annotazione automatica: SingleR, AUcell, ScMCA. I risultati delle annotazioni per ciascuna cellula sono stati quindi confrontati con le vere etichette riportate dal consorzio Tabula Muris e ciascun metodo è stato valutato per la sua qualità di annotazione. Ciò che è emerso da questo studio è che i metodi automatici consentono una buona caratterizzazione dei fenotipi cellulari; anche se l'annotazione manuale è ancora, in alcuni casi, la più efficiente.
|
Abstract
Single-cell RNA sequencing (scRNA-seq) is a novel technology that allows the characterization of the transcriptome at single cell resolution.
One of the main objectives of the analysis of this kind of data is the identification of the cellular type, called “annotation”; this technology in fact allows to characterize, through the transcriptional profile, different cellular phenotypes. This increase in the level of resolution obviously produces an enormous quantity of data. To solve emerging problems related to scRNA-seq, numerous protocols have been and are still being developed; this is happening at an even faster rate for computational tools.
In this study we performed a bioinformatics analysis of a bone marrow scRNA-seq dataset generated within the Tabula Muris project and tested different approaches for the identification of cell types.
The annotation can be performed manually, monitoring in each cluster the expression of known marker genes, or automatically, these tools assign each single cell to a population through a classifier and pre-defined gene lists.
We performed the pre-processing of the available data matrix (quality controls, data visualization, normalization and filtering) using the Scater package in R. For clustering and for the identification of marker genes for each identified cluster we used the SC3 program.
We performed manual assignment of clusters to their subpopulations through known markers and we compared the marker genes for each identified cluster trough enrichment tests and online tools: Gene Skyline (RNA-Seq) and My geneset by Immgen. We also tested three different R packages for the automatic annotation: SingleR, AUcell, ScMCA.
The results of the annotations for each cell were then compared with the true labels reported by the Tabula Muris consortium, and each method was scored for its annotation quality.
What emerged from this study is that the automatic methods allow a good characterization of cellular phenotypes; even if manual annotation is still, in some cases, more efficient.
|