Riassunto analitico
Lo scopo della tesi è sviluppare un modello radiomico predittivo di classificazione utilizzando una tecnica innovativa di armonizzazione per la valutazione di pazienti affetti da "non-small cell lung cancer (NSCLC)", usando CT di centratura e PET/CT. Centosei pazienti sono stati reclutati da sei centri sul territorio nazionale nell'ambito di un progetto di ricerca denominato "TEXAS", proposto dall'Azienda AUSL di Reggio Emilia. I biomarcatori radiomici, calcolati con il software pyRadiomics, sono stati valutati nei volumi selezionati dai medici radioterapisti usando un protocollo validato. Le segmentazioni sono state posizionate nel polmone controlaterale sano e spostate di 3 e 6 mm su 6 direzioni per valutare la variabilità e la robustezza delle features radiomiche ivi calcolate. I dati statistici così ricavati sono stati usati per creare dei modelli armonizzati secondo un metodo sviluppato in-house usando tecniche di machine learning in grado di predire la probabilità di progressione globale di malattia a due anni. Sessantotto pazienti di due centri sono stati usati nella fase di addestramento del modello, usando una strategia 10-fold cross-validation. Altri trentotto pazienti provenienti dagli altri quattro centri sono stati usati per validare esternamente il modello. L'armonizzazione è stata in grado di rendere le distribuzioni delle features nei diversi centri comparabili tra loro. La percentuale di features con distribuzione non comparabile è passata dal 12% al 3%, 30% al 6% e 18% al 6% rispettivamente per CT, CT della PET/CT e PET a seguito dell'armonizzazione. Delle 4506 features dalle tre modalità ne sono state scelte cinque usando la tecnica LASSO come feature selection per costruire i modelli radiomici. I tre modelli con l'accuratezza maggiore sono risultati: linear SVM, quadratic SVM e bagged trees. Sono stati valutati gli intervalli di confidenza delle AUC sia per i modelli armonizzati che non. Per il dataset di train sono stati ottenuti i seguenti intervalli di confidenza rispettivamente per linear SVM, quadratic SVM e bagged trees: [0.73-0.92], [0.75-0.96] e [0.73-0.90] per le features armonizzate; mentre per quelle non armonizzate sono [0.65-0.89], [0.83-0.96] e [0.73-0.95]. Per il dataset di validazione esterna i risultati sono: [0.59-0.77], [0.70-0.85] e [0.40-0.75] per le features armonizzate; mentre per quelle non armonizzate sono [0.33-0.71], [0.39-0.70] e [0.38-0.76]. In conclusione l'armonizzazione da noi proposta applicata al modello quadratic SVM consente di avere il miglior intervallo di confidenza in termini di AUC sia per il dataset di training che per quello di validazione esterna. Questo risultato conferma la validità del nostro metodo di armonizzazione, in particolare nella riduzione del rischio di overfitting dimostrato dalla minore differenza tra gli intervalli di confidenza del valore di AUC di train e validazione.
|
Abstract
This thesis aims to develop a predictive radiomic model using an innovative harmonization technique to evaluate patients affected by non-small cell lung cancer (NSCLC), using centering CT and PET/CT. One-hundred and six patients were recruited from six centers on the national territory within a research project called "TEXAS", proposed by the AUSL of Reggio Emilia. Radiomic biomarkers, calculated with pyRadiomics software, were evaluated in the volumes selected by the radiotherapy physicians using a validated protocol. Segmentations were placed in the contralateral healthy lung and shifted 3 and 6 mm in 6 directions to assess the variability and robustness of the radiomic features. The resulting statistical data were used to create harmonized models according to a method developed in-house using machine learning techniques capable of predicting the probability of overall disease progression at two years. Sixty-eight patients from two centers were used in the training phase of the model, using a 10-fold cross-validation strategy. An additional thirty-eight patients from the other four centers were used to validate the model externally. Harmonization was able to make the feature distributions in the different centers comparable with each other. Due to harmonization, the percentage of features with noncomparable distributions decreased from 12% to 3%, 30% to 6%, and 18% to 6% for CT, PET/CT, and PET, respectively. Of the 4506 features from the three modalities, five were chosen using the LASSO technique as feature selection to construct the radiomic models. The three models with the highest accuracy were linear SVM, quadratic SVM, and bagged trees. Confidence intervals of AUCs were evaluated for both harmonized and non-harmonized models. For the train dataset, the following confidence intervals were obtained for linear SVM, quadratic SVM and bagged trees, respectively: [0.73-0.92], [0.75-0.96] and [0.73-0.90] for harmonized features; while for non-harmonized features they are [0.65-0.89], [0.83-0.96] and [0.73-0.95]. For the external validation dataset, the results are: [0.59-0.77], [0.70-0.85] and [0.40-0.75] for harmonized features; while for non-harmonized features they are [0.33-0.71], [0.39-0.70] and [0.38-0.76]. In conclusion, our proposed harmonization applied to the quadratic SVM model allows for the best confidence interval in terms of AUC for both the training dataset and the external validation dataset. This result confirms the validity of our harmonization method, particularly in reducing the risk of overfitting demonstrated by the smaller difference between the confidence intervals of the training and validation AUC value.
|