Riassunto analitico
L'unificazione in un unico database di diverse anagrafiche è sempre un'operazione complicata, soprattutto considerando le ingenti dimensioni e i record non standardizzati. Questo è ancora più accentuato se si ragiona su datasets compilati da persone differenti dove il campo chiave è spesso vuoto. Il primo fondamentale step è stato quello di effettuare un rigoroso Data Cleaning e Normalizing, soprattutto per avere un’idea più precisa sui dati e leggerli senza difficoltà, prestando ovviamente attenzione a preservare la grammatura e le dimensioni di farmaci e dispositivi medici. In seguito è stato possibile applicare diversi Algoritmi di Machine Learning e, grazie al Paired t test, decretare come migliore il Random Forest rispetto ai dati in questione. Questo algoritmo è stato dunque utilizzato su tutti i record, che sono stati classificati in una di tre categorie: farmaco, dispositivo medico e bene economale. Successivamente, solo per gli elementi individuati come farmaci, è stato possibile ricostruire l’AIC (Autorizzazione all’Immissione in Commercio) attraverso Tecniche di Text Mining, ovvero confrontando questi record con i dataset nazionali disponibili online grazie al format opendata. Infine i record, ora puliti, normalizzati, categorizzati e talvolta ricostruiti, sono stati fatti confluire in un unico database unificato, perché sia più facile la gestione ed agevolata la ricerca di informazioni all’interno dello stesso.
|
Abstract
The unification in a single database of different datasets is always a complicated task, especially considering the enormous size and not standardized records. This is even more pronounced when we consider that these datasets are filled in by different people and the key field is often empty. The first fundamental step was to carry out a rigorous Data Cleaning and Normalizing, especially to have a better undestanding of the data and read them without difficulties, obviously paying attention to preserving the weight and size of medications and medical devices. Later it was possible to apply different Machine Learning Algorithms and, thanks to the Paired t test, declare the Random Forest as the best with respect to the data in question. This algorithm was then used on all records, which were classified into one of three categories: medication, medical device and economic good. Subsequently, only for the elements identified as medications, it was possible to reconstruct the AIC (Autorizzazione all’Immissione in Commercio) through Text Mining techniques, or rather by comparing these records with the national datasets available online thanks to the opendata format. Finally, the records, now cleaned, normalized, categorized and sometimes reconstructed, have been merged into a single unified database, to facilitate the management and the search for information within it.
|