Riassunto analitico
I sequenziatori di nuova generazione sono in grado di produrre in tempi ridotti grandi quantità di brevi sequenze genomiche chiamate "read". Tramite l'utilizzo di questi dati, il problema affrontato in questa tesi è l'identificazione di variazioni di tipo "Copy Number" all'interno del genoma di un individuo, ovvero porzioni di genoma che hanno subito una duplicazione o una rimozione. In particolare, è stato sviluppato un nuovo approccio al problema che si inserisce nel contesto dei metodi "read-depth", i quali prima mappano i read su un genoma di riferimento e poi ne analizzano la distribuzione, supponendo che in assenza di variazioni il numero di read mappati in ogni posizione del genoma segua una distribuzione Poissoniana. Il nuovo approccio introdotto in questa tesi applica la teoria delle scan statistics ai dati biologici, in modo da identificare regioni con un numero di read particolarmente elevato (duplicazioni) o particolarmente ridotto (rimozioni). Seguendo questo approccio, è stato sviluppato un tool che è stato testato su dataset sintetici e ha ottenuto risultati consistenti con le aspettative. Il tool è stato anche confrontato con uno dei migliori software esistenti, mostrando una buona competitività.
|
Abstract
Next-Generation-Sequencing machines are able to produce in short times large amounts of small-length genomic sequences named "reads". By using these data, the problem addressed in this thesis is the identification of "Copy Number Variations" within an individual's genome, namely portions of genome that have been duplicated or deleted. In particular, a new approach to the problem has been developed that falls within the context of read-depth methods, which first map the reads against a reference genome and then analyze their distribution; the underlying assumption is that in absence of variations the number of reads mapped to each genomic position follows a Poisson distribution. The novel approach introduced within this thesis applies the theory of scan statistics to the biological data, in order to identify regions with a particularly high (duplications) or particularly low (deletions) number of reads. Following this approach, a new tool has been developed and tested on synthetic datasets, showing results consistent with expectations. The tool has also been compared to one of the best existing softwares, showing a good competitivity.
|