Riassunto analitico
Le tecniche di sequenziamento di seconda generazione sono considerate lo strumento ideale per una più profonda, e auspicabilmente esaustiva, comprensione della biologia dei processi tumorali, tale da permettere un’identificazione più accurata di bersagli farmacologici e, in prospettiva, la formulazione di strategie terapeutiche personalizzate. L’impegno congiunto di diversi laboratori in tutto il mondo ha permesso la creazione di database pubblici di dati genomici (come l’International Cancer Genome Consortium o il Cancer Genome Atlas) che, di fatto, contengono l’impronta digitale molecolare di quasi tutti i tipi tumorali, descrivendoli a livello genomico, trascrittomico ed epigenomico. Tra gli altri, il tumore al seno rappresenta una delle neoplasie più studiate, poiché il suo tasso di incidenza è secondo solo a quello del tumore al polmone e la sua eterogeneità pone, tuttora, seri problemi di trattamento terapeutico. Questo è particolarmente vero per il cancro al seno triplo negativo (TNBC), un sottotipo che non esprime il recettore degli estrogeni (ER), il recettore per il progesterone (PR) e il recettore per il fattore di crescita epidermico umano di tipo 2 (HER2), e che rappresenta il 10-20% di tutti i tumori al seno, con un fenotipo clinico aggressivo e una prognosi sfavorevole. I TNBC sono un gruppo profondamente eterogeneo e per questo motivo si sono applicate tecniche genomiche (in particolare l’analisi del trascrittoma) al fine di ottenere una caratterizzazione molecolare accurata dei sottogruppi che lo compongono. Nella maggior parte dei casi l’espressione genica è stata misurata mediante l’uso di microarray, una tecnologia high-throughput che, pur permettendo di quantificare l’espressione genica di tutti i trascritti presenti in una cellula, è limitata nella sua applicazione da problemi legati alla reazione di ibridazione e alla dipendenza da una annotazione di riferimento. Il sequenziamento massivo dell’RNA con sequenziatori di seconda generazione (RNA-seq) permette di scavalcare tutti gli ostacoli imposti dalla tecnica dei microarray e rappresenta il metodo di eccellenza per ottenere una visione completa del trascrittoma di una cellula, per identificare nuovi trascritti, per monitorare eventi di splicing e per quantificare l’espressione genica. A fronte di queste potenzialità strumentali, l’analisi bioinformatica dei dati di RNA-seq è inficiata da serie difficoltà sia computazionali sia concettuali. L’attività di ricerca illustrata in questa tesi ha come scopo l’analisi di dati di RNA-seq ottenuti da 80 campioni di TNBC primario, con il fine di i) ottimizzare una pipeline di analisi bioinformatica di dati di RNA-seq e ii) identificare l’attivazione di vie di segnalazione in diversi sottotipi molecolari. La pipeline computazionale, basata su due versioni diverse del protocollo Tuxedo, comprende moduli per i controlli di qualità e il pre-processamento dei dati grezzi, per l’allineamento delle sequenze sul genoma, l’assemblaggio dei trascritti e l’annotazione genica. La pipeline contiene inoltre algoritmi per l’espressione differenziale (Cuffdiff e DESeq) e per l’analisi di arricchimento funzionale (Gene Set Enrichment Analysis; GSEA) che sono stati applicati per studiare l’inter-relazione tra gli assi molecolari di TP53 e TP63 nei TNBC. I risultati ottenuti confermano che la pipeline proposta consente un’analisi efficace dei dati di RNA-seq e permette lo studio di assi molecolari fondamentali nella comprensione dei fenotipi tumorali.
|
Abstract
The advent of next generation sequencing technologies has been greeted as the beginning of a deeper, and possibly exhaustive, understanding of cancer cell biology, allowing a more focused identification of novel drug targets and paving the way to personalized therapies.
The joint efforts of several laboratories around the globe resulted in the creation of publicly accessible databases of genomic data (such as the International Cancer Genome Consortium or The Cancer Genome Atlas), which contain full portraits of almost all tumour types at the genomic, transcriptomic, and epigenomic levels.
Among the others, breast cancer represents one of the most studied malignancies since it is the second most common type of cancer worldwide and its heterogeneity poses serious treatment challenges. This is particularly true for triple negative breast cancer (TNBC), a breast cancer subtype which lacks the expression of estrogen receptor, progesterone receptor and human epidermal growth factor receptor 2, and counts for 10-20% of all breast cancers, with an aggressive clinical phenotype and poor prognosis. TNBCs are highly heterogeneous and thus genomics, and especially transcriptomic, data have been deeply investigated to molecularly characterize subgroups with different clinical behaviours. In most of these studies gene expression has been measured using oligonucleotide microarrays, a high-throughput technology that, although able to quantify the expression of all transcripts in a cell, is hampered by several limitations, as hybridization issues and the dependence on a reference annotation. RNA sequencing (RNA-seq) allows overcoming these hurdles and represents an unprecedented opportunity to, simultaneously, gain a complete view of a cell transcriptome, discover new transcripts, quantify the expression of both known and novel genes, and identify splicing events. However, the optimal approaches to address all these tasks are still debated and, given the size and complexity of RNA-seq data, the bioinformatics analysis requires facing computational and conceptual issues.
The research activity summarized here aimed at analysing RNA-seq data from 80 primary TNBCs in order to i) optimize a bioinformatics pipeline for RNA-seq analysis and ii) identify the activation status of signalling pathways in different molecular TNBC subsets. The computational pipeline, tested on alternative versions of the Tuxedo protocol, comprises quality control and pre-processing of raw data, alignment of reads on the genome, transcript assembly, and gene annotation. Differential expression and enrichment analyses have been applied to investigate the cross talk between wild type/mutant TP53 and high/low TP63-activity axes, using Cuffdiff, DESeq, and Gene Set Enrichment Analysis.
Results indicate that the proposed pipeline is robust and allows the identification of enriched pathways that confirm the molecular cross talk between the two axes of regulation and the activation of similar cellular programs.
|