Riassunto analitico
Ogni attività di Data Science non banale inizia quasi sempre con l'integrazione dei dati. Al centro di questo processo c'è la scoperta dei dataset (Dataset Discovery), cioè il passaggio in cui si esplorano varie fonti di dati per trovare quelli rilevanti e capire come sono collegati tra loro. Questa attività è particolarmente importante nel contesto dei Dati Sanitari ed in particolare degli studi clinici. Il Dataset Discovery è alla base del cosiddetto processo di identificazione delle coorti (Cohort Identification) che mira ad identificare e scoprire gruppi di pazienti che condividono caratteristiche comuni, come specifici fenotipi o criteri di idoneità, per l'analisi in studi clinici. Questo metodo è fondamentale per facilitare la ricerca biomedica, poiché consente di raggruppare i pazienti in base a dati clinici e demografici, migliorando così l'efficacia degli studi e la validità dei risultati. L’obiettivo della tesi è quello di analizzare e confrontare alcune delle classiche misure di similarità proposte in letteratura, valutando la loro efficacia nell’ambito del problema del Dataset Discovery per Dati nel Modello OMOP-CDM che costituisce lo standard attuale per la rappresentazione di Dati Sanitari.
|