Riassunto analitico
La previsione dell'espressione genica è essenziale per far progredire la nostra comprensione dei complessi processi biologici e dei meccanismi di regolazione che influenzano il comportamento cellulare. Previsioni accurate dell'espressione genica possono chiarire come interagiscono le variabili genetiche ed epigenetiche, fornendo preziose indicazioni sui meccanismi delle malattie e sui potenziali bersagli terapeutici. Sebbene l'influenza delle modifiche epigenetiche, come la metilazione del DNA, sia ben nota, la maggior parte dei modelli predittivi esistenti si basa esclusivamente sui dati della sequenza genetica, trascurando spesso questi fattori regolatori cruciali. La metilazione del DNA, che regola l'attività dei geni senza alterare la sequenza del DNA, svolge un ruolo chiave nello sviluppo, nell'invecchiamento e nella progressione delle malattie, in particolare nel cancro; tuttavia, il suo potenziale predittivo rimane in gran parte inesplorato. Nonostante la relazione consolidata tra metilazione ed espressione genica, i modelli che combinano efficacemente i dati di sequenza e metilazione sono ancora rari. Modelli come Xpresso, basato su una rete neurale convoluzionale (CNN) combinata con strati completamente connessi, e Genomic-Transformer e HyenaDNA, che sfruttano architetture a trasformatori per l'analisi delle sequenze, non prevedono ancora l'integrazione dei dati di metilazione. Un'ulteriore sfida in questo campo è la scarsità di database completi e accessibili che integrino i dati di sequenza genica, metilazione ed espressione. Questa lacuna limita la riproducibilità della ricerca e il potenziale innovativo, complicando l'accesso ai dati da parte degli scienziati. La creazione di un set di dati coesivo contenente dati di sequenza e metilazione insieme a misure di espressione genica aprirebbe la possibilità di modelli predittivi più accurati e sofisticati. In questa tesi, affronto queste sfide con un duplice contributo. In primo luogo, ho sviluppato un set di dati integrato, curato meticolosamente dai dati grezzi e progettato per essere facilmente accessibile agli scienziati dei dati e ai ricercatori computazionali. Questo set di dati consente l'analisi combinata dell'espressione genica in relazione ai marcatori di sequenza e metilazione, aprendo nuove possibilità di ricerca e approfondimenti sperimentali. In secondo luogo, presento un approccio innovativo alla previsione dell'espressione genica che integra modelli avanzati come Xpresso, Genomic-Transformer e HyenaDNA con caratteristiche ingegnerizzate basate sulla metilazione, che ho sviluppato e configurato aggiungendole agli strati finali completamente connessi della rete. Queste caratteristiche epigenetiche migliorano la capacità dei modelli di identificare schemi regolatori complessi, andando oltre le sole informazioni sulla sequenza. Il mio approccio dimostra un sostanziale miglioramento delle prestazioni, con un aumento fino a 0,09 del coefficiente di determinazione (R²), che rappresenta un progresso significativo rispetto ai modelli esistenti. Questo miglioramento è particolarmente notevole nei set di dati relativi al cancro in tre tipi di tessuto - cervello, seno e polmone - evidenziando il potenziale di una maggiore accuratezza predittiva in diversi contesti biologici.
|
Abstract
Gene expression prediction is essential for advancing our understanding of complex biological processes and regulatory mechanisms that influence cellular behavior. Accurate gene expression predictions can clarify how genetic and epigenetic variables interact, providing valuable insights into disease mechanisms and potential therapeutic targets. Although the influence of epigenetic modifications, such as DNA methylation, is well-known, most existing predictive models rely exclusively on genetic sequence data, often neglecting these crucial regulatory factors. DNA methylation, which regulates gene activity without altering the DNA sequence, plays a key role in development, aging, and disease progression, particularly in cancer; however, its predictive potential remains largely unexplored. Despite the well-established relationship between methylation and gene expression, models that effectively combine sequence and methylation data are still rare.
Models like Xpresso, based on a convolutional neural network (CNN) combined with fully connected layers, and Genomic-Transformer and HyenaDNA, which leverage transformer architectures for sequence analysis, do not yet include the integration of methylation data.
A further challenge in this field is the scarcity of comprehensive and accessible databases that integrate gene sequence, methylation, and expression data. This gap limits research reproducibility and innovation potential, complicating data access for scientists. The creation of a cohesive dataset containing both sequence and methylation data alongside gene expression measurements would open up possibilities for more accurate and sophisticated predictive models.
In this thesis, I address these challenges with a twofold contribution. First, I developed an integrated dataset, meticulously curated from raw data and designed to be easily accessible for data scientists and computational researchers. This dataset enables combined analysis of gene expression in relation to sequence and methylation markers, opening up new research possibilities and experimental insights.
Second, I present an innovative approach to gene expression prediction that integrates advanced models like Xpresso, Genomic-Transformer, and HyenaDNA with engineered methylation-based features, which I developed and configured by adding them to the final fully connected layers of the network. These epigenetic features enhance the models' ability to identify complex regulatory patterns, extending beyond sequence information alone. My approach demonstrates a substantial performance improvement, with an increase of up to 0.09 in the coefficient of determination (R²), representing significant progress over existing models. This improvement is particularly notable in cancer-related datasets across three tissue types—brain, breast, and lung—highlighting the potential for greater predictive accuracy in diverse biological contexts.
|