Riassunto analitico
L’analisi dell’accessibilità alla cromatina tramite trasposasi seguita da sequenziamento massivo (ATAC-seq) identifica le regioni di cromatina aperta in tutto il genoma, utilizzando la trasposasi iperattiva Tn5 che taglia il DNA a doppio filamento ed inserisce gli adattatori per il sequenziamento, in un processo chiamato "tagmentation". Il protocollo di ATAC-seq è veloce e richiede poche cellule per ottenere un profilo di accessibilità alla cromatina di alta qualità. Negli ultimi anni, lo studio dell'accessibilità alla cromatina a livello di singola cellula è diventato possibile attraverso lo sviluppo di un protocollo di ATAC-seq a singola cellula (scATAC-seq). Tuttavia, l'analisi computazionale dei dati di scATAC-seq rimane impegnativa a causa della mancanza di una procedura standard per valutare la qualità dei dati e per definire l'identità cellulare direttamente dal profilo di accessibilità della cromatina. Recentemente, diversi software e strumenti bioinformatici sono stati sviluppati per l'analisi dei dati di scATAC-seq. In questo studio, abbiamo svolto un’analisi bioinformatica di un dataset di scATAC-seq di tessuto polmonare di topo, dalla pre-elaborazione dei dati alle analisi a valle, compresa l'integrazione con i dati di scRNA-seq. Abbiamo usato CellRanger ATAC per generare la matrice di dati a partire dai file grezzi di sequenziamento, e i pacchetti Signac e Seurat in R per eseguire controlli di qualità, filtri, normalizzazione, clustering e integrazione con i dati scRNA-seq. Lo scopo principale del nostro studio è stato quello di comprendere l'identità cellulare dei clusters ottenuti dall'analisi dei dati di scATAC-seq del polmone di topo. L'annotazione dell'identità cellulare dei clusters deve essere eseguita con cura poiché un'assegnazione errata può portare a un'ipotesi biologica errata durante le analisi a valle dei dati di scATAC-seq. Esistono diversi strumenti e database di riferimento per l'annotazione automatica di dati di scRNA-seq, tuttavia, esiste solo un numero limitato di strumenti per i dati di scATAC-seq. Pertanto, per eseguire correttamente l'annotazione dei clusters ottenuti da scATAC-seq, è necessario sfruttare dei dati di scRNA-seq di riferimento dello stesso tessuto che siano stati ben caratterizzati. Dopo l'elaborazione e l'annotazione dei dati di scRNA-seq di tessuto polmonare di topo, abbiamo applicato i metodi per l'integrazione multimodale e il trasferimento delle etichette fornito dal pacchetto Seurat in R per interpretare i dati di scATAC-seq. Questa procedura ha restituito una classificazione delle cellule basata sulle etichette definite nel dataset scRNA-seq. Abbiamo trovato che le etichette trasferite erano altamente coerenti con i cluster identificati nei dati di scATAC-seq. Infine, i dati scATAC-seq ci hanno aiutato a separare meglio le popolazioni di cellule che non erano ben discriminate nei dati scRNA-seq (ad esempio, cellule epiteliali AT1 e AT2, e cellule T e NK).
|
Abstract
The assay for transposase-accessible chromatin with high-throughput sequencing (ATAC-seq) identifies open chromatin regions genome-wide, using a hyperactive Tn5 transposase that cuts and labels double-stranded DNA with sequencing adapters, in a process called "tagmentation". ATAC-seq protocol is fast and requires few cells for a high-quality chromatin accessibility profile. In the last years, the study of chromatin accessibility at single-cell resolution has become possible through the development of single-cell ATAC sequencing (scATAC-seq). However, computational analysis of scATAC-seq data remains challenging due to the lack of a standard pipeline to evaluate the quality of the data and to define the cell identity directly from the chromatin accessibility profile. Recently, several software and tools have been developed for the analysis of scATAC-seq data. In this study, we addressed the bioinformatics analysis of a mouse lung scATAC-seq dataset, from data pre-processing to downstream analyses, including integration with scRNA-seq data. We used CellRanger ATAC to generate the data matrix from the raw sequencing files, and the Signac and the Seurat R packages to perform quality controls, cell filtering, normalization, clustering and integration with scRNA-seq data. The main purpose of our study was to understand the cellular identity of the clusters obtained from the analysis of mouse lung scATAC-seq data. Annotation of cellular identity of cell clusters must be performed with care since an incorrect cell type assignment can lead to an incorrect biological hypothesis during downstream analysis of scATAC-seq data. Several tools and reference databases exist for automated cell type annotation of scRNA-seq data; however, only a limited set of tools exists for scATAC-seq data. Therefore, to correctly perform cluster annotation on scATAC-seq data, it is necessary to take advantage of a well-annotated reference scRNA-seq dataset of the same tissue. After the processing and annotation of a mouse lung scRNA-seq, we applied methods for multimodal integration and label transfer provided by the Seurat R package to interpret scATAC-seq data. This procedure returned a cell classification based on the cell type labels defined in the scRNA-seq dataset. We found that the transferred labels were highly consistent with the clusters identified in the scATAC-seq data. Finally, scATAC-seq data helped us to better separate cell populations that cannot be well discriminated in scRNA-seq data (e.g. AT1 and AT2 epithelial cells, and T and NK cells).
|