Riassunto analitico
I genomi contengono differenti sequenze regolatrici, quali promotori, enhancers, insulators e silencers, che sono cruciali nel controllare l'espressione dei geni. In particolare, i promotori sono sequenze di DNA che dirigono l'RNA polimerasi ad iniziare la trascrizione a livello del sito di inizio della trascrizione; la loro funzione è quindi di promuovere la trascrizione di un gene (o di più geni). Gli enhancers sono invece regioni di DNA che permettono di aumentare l'espressione genica di un loro gene target. Gli enhancers si trovano lontani dal sitod’inizio della trascrizione e, diversamente dai promotori, sono definiti come elementi cis-regolatori tessuto-specifici. Enhancers specializzati, indipendentemente dal promotore, coordinano la trascrizione di un gene in diversi tessuti in risposta a diverse cascate di segnali cellulari e in differenti stadi del differenziamento cellulare. I promotori e gli enhancers sono caratterizzati dalla presenza di fattori trascrizionali e da specifiche modificazioni istoniche, la cui identificazione è cruciale per definire in maniera completa i moduli regolativi.Tuttavia, mentre è noto che i promotori attivi risiedono frequentemente in regioni che presentano bassi livelli di alcune specifiche modificazioni istoniche (H3K4me1 e H3K4me3), per gli enhancers non è ancora chiaro quali siano i marcatori istonici o le proteine che possano permettere la loro identificazione e localizzazione nel genoma. Una conoscenza sistematica di queste sequenze regolatrici e di come agiscono assieme nei moduli di regolazione genica sta cominciando solo ora a emergere grazie alla disponibilità di tecnologie di sequenziamento massivoche consentono di investigare in maniera completa un intero genoma. Negli ultimi anni, l'immunoprecipitazione della cromatina seguita da sequenziamento massivo (ChIP-seq) del DNA e l'impiego di analisi bioinformatiche, sono diventati approcci largamente utilizzati e importanti per localizzare i siti di legame di fattori trascrizionali, le modificazioni istoniche nelle cellule e la localizzazione di moduli cis-regolatori. Dall'introduzione di queste tecnologie, sono stati sviluppati diversi algoritmi, basati su diversi approcci, per l'identificazione dielementi cis-regolatori, quali ad esempio Hidden Markov models, metodi basati sulla statistica Bayesiana. Tuttavia, però, l’identificazione delle sequenze regolatrici richiede ancora notevoli sforzi da parte della biologia computazionale e della bioinformatica. Infatti, benché tutti questi algoritmi richiedano l'utilizzo di dati di ChIP-seq per diverse modificazioni istoniche, non è ancora stato trovato un consenso sulla combinazione ottimale di modificazioni istoniche e soluzioni algoritmiche che consenta un’efficiente identificazione dei moduli di regolazione trascrizionale. In questo lavoro presento una procedura computazionale basata su Support Vector Machine (SVM2CRM) per l'analisi di dati di ChIP-seq al fine di i) determinare ilnumero ottimale di modificazioni istoniche necessario per l'identificazione in tutto il genoma degli elementi cis-regolatori e ii) identificare promotori ed enhancers mediante l'integrazione di dati di ChIP-seq con profili genici ottenuti da Cap Analysis of Gene-Expression. Le analisi bioinformatiche sono state progettate e sviluppate utilizzando dati di ChIP-seq ottenuti da vari tipi cellulari (cellule ematopoietiche, neuronali, endoteliali, epiteliali) a differenti stadi di differenziamento (staminali, progenitori, cellule terminalmente differenziate) e hanno fornito come risultato una collezione unica di geni e regioni regolatorie coinvolti nei processi differenziativi di cellule staminali umane edella loro progenie terminalmente differenziata. Gli algoritmi e le funzioni utilizzate in questo lavoro sono state assemblate in un pacchetto R, denominato SVM2CRM, le cui performance computazionali sono state ottimizzate utilizzando specifiche librerie per l'analisi di dati di grandi dimensioni.
|
Abstract
The genome-wide identification of cis-regulatory elements (CRE), i.e., those DNA sequences, as promoters, enhancers, insulators, and silencers, required to regulate gene expression, still represents a major challenge for computational biology. Several types of cis-regulatory elements are present in a genome, all with different characteristics and functions. In particular, promoters are DNA sequences that direct RNA polymerase to initiate at the transcription start site (TSS) and then promote the transcription. Enhancers are DNA regions that increase gene expression of their target gene (or genes). Differently from promoters, enhancers have the characteristic to drive gene expression at distance and are defined as tissue-specific cis-regulatory elements. Distinct, specialized enhancers, uncoupled from promoters and positioned away from the transcription start site, coordinate the transcription of a given gene in multiple tissues, in response to distinct signaling cascades, and at different stages during differentiation. Promoters and enhancers are co-localized with different proteins, such as transcription factors (TF) or histone modifications (HM), whose identification is required to characterize cis-regulatory modules. However, while it is well accepted that active-promoters co-localize in regions with low levels of specific histone modifications (as mono and try-methylation of lysine 4 in histone 3, H3K4me1 and H3K4me3), which histone-marks or proteins co-localize with enhancers remains only partially understood. Recently, Chromatin immunoprecipitation (ChIP), followed by high-throughput DNA sequencing (ChIP-seq) and bioinformatics analyses, has become a valuable and widely-used approach to map the genomic location of transcription-factor binding and histone modifications in living cells, i.e., to identify cis-regulatory modules. Since the introduction of the experimental technique, several bioinformatics approaches have been developed to identify genome cis-regulatory elements from ChIP-seq data, as Hidden Markov Models, dynamic Bayesian networks, and profile methods. All these approaches require ChIP-seq data for a variety of histone marks, but a consensus on the optimal combination of histone modifications and algorithmic solutions for an efficient identification of CRE has not been reached, yet. Here, I present a computational procedure based on support vector machine (SVM) models and ChIP-seq data to i) determine the optimal number of histone marks necessary for the genome-wide identification of cis-regulatory elements, and ii) detect promoters and enhancers through the integration of ChIP-seq data with Cap Analysis of Gene Expression profiles. The bioinformatics procedure has been designed, developed, and tested using ChIP-seq data obtained from various cell types (hematopoietic, neuronal, endothelial, epithelial) at different differentiation stages (stem cells, progenitors, terminally differentiated cells) and provided a unique collection of genes and regulatory regions involved in self-renewal, commitment, and differentiation of human stem cells and their progeny in different tissue types. The procedure has been coded in an R package (SVM2CRM) and the computational performances have been optimized using libraries specifically designed for the analysis of large datasets.
|