Riassunto analitico
La regolazione genica è un meccanismo complesso che porta a un aumento o una diminuzione dell'espressione di un gene specifico. Questo meccanismo è principalmente controllato da fattori di trascrizione (TFs), proteine che si legano a sequenze regolatorie del DNA. Queste sequenze contengono motifs, piccole sequenze di nucleotidi, che rappresentano i siti di legame per vari fattori di trascrizione. La conseguenza di questo legame può essere l'attivazione o la repressione dell'espressione di un gene bersaglio. Per decodificare questo processo di regolazione genica, è possibile studiare gli stati della cromatina e dell'espressione genica a livello di singola cellula. Negli ultimi anni, sono stati proposti molti metodi computazionali per fare ciò. Ad esempio, cisTopic è in grado di identificare tipi cellulari ed enhancer senza utilizzare informazioni dalla sequenza del DNA. cisTopic si basa sul topic modeling, una tecnica di machine learning che identifica topics nascosti (tipi cellulari) in un insieme di documenti (regioni del DNA) raggruppando parole simili (cellule). D'altro canto, sono stati proposti anche molti approcci basati sul deep learning, la maggior parte dei quali fa uso di sequenze di DNA. I modelli allo stato dell'arte includono scBasset, Enformer e Borzoi. Questi tipi di modelli sono stati utilizzati per diversi downstream tasks al fine di ottenere informazioni biologicamente significative. Spiegando le previsioni di un modello basato su sequenze, è possibile svelare i siti di legame dei fattori di trascrizione. Questi modelli possono anche prevedere l'influenza delle mutazioni nelle sequenze di DNA. Queste previsioni possono essere utilizzate per progettare sequenze enhancer sintetiche specifiche per determinati tipi cellulari. Infine, gli approcci di machine learning si sono dimostrati efficaci anche nel decifrare l'intera rete di regolazione genica (GRN). Questo significa prevedere gli enhancer genomici, i fattori di trascrizione a monte e collegare questi enhancer ai geni bersaglio candidati. Sebbene questi approcci si siano dimostrati estremamente utili nel decodificare il meccanismo di regolazione genica, manca una dimensione importante nella loro modellizzazione: il tempo. Ogni cellula deve attraversare un diverso percorso di sviluppo per raggiungere il suo stato finale. Questo è il caso dei neuroni nella nostra corteccia, che si sviluppano, ad esempio, dalle cellule gliali radiali. Questo processo avviene nel tempo e può essere studiato modellando gli stati della cromatina o dell'espressione genica in diversi stadi dello sviluppo. Questa tesi presenta vari metodi computazionali per studiare i processi complessi e dinamici alla base della regolazione genica. In particolare, introduce un nuovo modello di deep learning chiamato DynamicDeepTopic, un modello ibrido che combina una rete convoluzionale (CNN) con un layer long short-term memory (LSTM). Partendo dalle sequenze di DNA, DynamicDeepTopic predice l'appartenenza a un topic in diverse fasi dello sviluppo, imparando motifs regolatori specifici per ogni fase. Un confronto con approcci esistenti non dinamici, che modellano solo dati di singoli punti temporali, dimostra che DynamicDeepTopic non solo apprende questi motifs in modo più efficace, ma fornisce anche preziose informazioni sulla loro dinamica temporale. Infine, questa tesi mostra come il modello possa essere integrato in altre architetture di deep learning per decifrare le reti di regolazione genica, funzionando come un generatore di embedding di sequenze di DNA, capace di produrre rappresentazioni distinte della sequenza per diversi stadi temporali, migliorando così la comprensione dei meccanismi regolatori nel tempo. I risultati presentati in questa tesi sono stati ottenuti durante il mio tirocinio presso il Laboratory of Computational Biology presso VIB / KU Leuven.
|
Abstract
Gene regulation is a complex mechanism which leads to an increase or decrease in the expression of a specific gene. This mechanism is mainly controlled by transcription factors (TFs), which are proteins, that bind to DNA regulatory sequences. These sequences, contain smaller sequences of nucleotides, called motifs, which represent the binding sites for multiple transcription factors. The consequence of this binding can be the activation or repression of a target gene’s expression.
To decode this gene-regulatory dynamics both chromatin and gene expression states at single-cell level can be studied.
Over the past few years, many computational methods have been proposed. For example, cisTopic can identify cell types and enhancers without using any information from the DNA sequence. cisTopic is based on topic modeling, a machine learning technique that identifies hidden topics (cell types) in a set of documents (DNA regions) by clustering similar words (cells). On the other hand, many deep learning based approaches have been proposed too, most of them relying on the use of DNA sequences. State-of-the-art models include scBasset, Enformer and Borzoi.
These kinds of models have been utilized for a different set of downstream tasks to gain biologically meaningful insights. By explaining a sequence-based model’s predictions, one can unravel transcription factors binding sites. They can also be applied to predict the influence of mutations in DNA sequences. These predictions can be used to design synthetic, cell-type specific enhancer sequences. Finally, machine learning approaches also proved effective in deciphering the whole gene regulatory network (GRN). This means predicting genomic enhancers, upstream transcription factors and linking these enhancers to candidate target genes.
Although these approaches proved to be extremely helpful in decoding the gene regulation machinery, they lack one dimension in their modeling, which is time.
Each cell must undergo a different developmental pathway to eventually reach its final state. This is the case with neurons in our cortex, which develop from radial glial cells for example. This process happens through time and can be studied by modeling chromatin or gene expression states at different stages during development.
This thesis presents various computational methods to study the complex and dynamic processes underlying gene regulation. In particular, it introduces a novel deep learning model called DynamicDeepTopic, a hybrid model that combines a deep convolutional neural network (CNN) with a long short-term memory (LSTM) layer. Starting from DNA sequences, DynamicDeepTopic predicts topic membership at different stages, effectively capturing relevant time-specific regulatory motifs. A comparison with existing non-dynamic approaches, which only model data from single time points, demonstrates that DynamicDeepTopic not only learns these motifs more effectively but also provides valuable insights into their temporal dynamics. Furthermore, this thesis shows how the model can be integrated into other deep learning architectures to decipher gene regulatory networks, functioning as a versatile DNA sequence embedding generator capable of producing distinct representations of the sequence for different time points, thus enhancing the understanding of regulatory mechanisms over time.
The results presented in this thesis were obtained during my internship at the Laboratory of Computational Biology at VIB / KU Leuven.
|