Riassunto analitico
La pandemia di Covid-19 del 2020 ha messo a dura prova la stabilità dei sistemi di assistenza sanitaria e di healthcare delle nazioni maggiormente colpite, mostrando tutti i difetti e le limitazioni degli attuali sistemi di sorveglianza delle malattie che si basano sulla diagnosi clinica dei pazienti e che risultano essere tardivi nel riconoscere un focolaio epidemico. Il monitoraggio e l'analisi in tempo reale dei dati provenienti dall'insorgenza anomala di sintomi risulta essenziale per attuare al meglio le misure per contrastare la nascita di nuovi focolai epidemici e la diffusione del virus. Dalla necessità di realizzare un sistema di sorveglianza efficace e reattivo, nasce il progetto di ricerca denominato Epidetect e sviluppato dal team di Research and Solutions di Maps Group in collaborazione con il centro AIRI dell'Università di Modena e Reggio Emilia e finanziato dall'Emilia Romagna. Lo scopo del progetto, attualmente in corso, è quello di realizzare un sistema di sorveglianza sindromico in grado di analizzare quotidianamente il testo del quesito diagnostico delle prescrizioni di specialistica ambulatoriale che i medici di Medicina Generale prescrivono ai loro pazienti in forma elettronica, riconoscere le patologie descritte attraverso la sintomatologia presente e, basandosi su modelli matematici e statistici, individuare eventuali anomalie e possibili focolai epidemici emergenti. In questa tesi si espongono nel dettaglio le tecniche impiegate finalizzate alla classificazione del testo dei quesiti diagnostici rispetto alla codifica internazionale ICD9-CM, attualmente utilizzata come standard in Italia per la codifica di patologie e procedure mediche. La prima parte del lavoro ha richiesto l'utilizzo di algoritmi di Information Extraction e di Natural Language Processing per l'analisi dell’”Indice alfabetico delle malattie e dei traumatismi” del Manuale ICD9-CM, un documento in formato PDF che contiene tutti i codici delle patologie, degli interventi e delle procedure attualmente conosciute, espresse secondo regole sintattiche e convenzioni testuali. Data la natura testuale del glossario ed il fatto che sia stato redatto manualmente, si sono dovute implementare logiche specifiche per la gestione e la correzione degli errori, sia sintattici che logici, presenti nel glossario di riferimento. Tali tecniche hanno compreso l'analisi semantica dei concetti, la rappresentazione in spazi vettoriali dei termini con conseguente utilizzo di funzioni di similarità e l'impiego di reti neurali per la classificazione di concetti clinici (nello specifico, per il riconoscimento di parti anatomiche del corpo umano). Una volta ottenute le espressioni filtrate e corrette delle patologie, queste sono state espanse in modo da avere la rappresentazione testuale di tutte le sindromi di ogni codice tramite le possibili combinazioni dei suoi termini. Partendo da queste “etichette” si è costruito un dizionario attraverso l'utilizzo di una versione modificata di un programma software di proprietà di Maps Group per l'analisi testuale ed il riconoscimento di concetti medici secondo notazione UMLS. L'impiego di questo dizionario ha rappresentato la prima tecnica di annotazione ed estrazione di codici dai quesiti. La seconda tecnica di annotazione utilizzata è stata quella di rappresentare le patologie del glossario ICD9-CM tramite vettori testuali o word embedding e di impiegare una metrica di similarità (cosine similarity) per stimare la somiglianza tra i termini del glossario ICD9-CM e i concetti medici presenti nel testo dei quesiti diagnostici. Queste due tecniche di annotazione in parallelo hanno ottenuto risultati soddisfacenti e hanno costituito il processo principale di estrazione dei codici sindromici dai quesiti diagnostici. Infine si mostra l'architettura del sistema di annotazione realizzato su Amazon Web Service ed i servizi utilizzati per il monitoraggio del flusso di dati e per la scalabilità delle macchine.
|