Riassunto analitico
La rivoluzione digitale ha coinvolto vari settori della società, incluso quello sanitario, apportando modifiche significative nel panorama della medicina. Nell’ambito dell’anatomia patologica, l’avvento di nuovi strumenti di digitalizzazione ha rivoluzionato l’approccio ai preparati istologici, tradizionalmente esaminati tramite microscopio, trasformandoli in immagini digitali con elevatissima risoluzione. Questa innovazione ha inaugurato l’era della patologia digitale, con conseguente rivoluzione della medicina diagnostica, offrendo opportunità senza precedenti per l’analisi di tessuti e cellule a vari livelli di risoluzione. Oltre a semplificare il lavoro dei patologi, la digitalizzazione predispone l’implementazione di metodologie per la diagnosi automatica, sfruttando tecniche di Intelligenza Artificiale (AI). Le tecniche di AI prevalenti nell’analisi delle immagini istologiche si fondano principalmente sul Deep Learning, impiegando modelli di visione artificiale. L’adozione di Vision Language Models (VLMs), ovvero modelli multi-modali che integrano informazioni visive e testuali, è attualmente diffusa nel contesto delle immagini naturali e in alcune discipline mediche specifiche, come la radiologia. Al contrario, nel campo della patologia, questo approccio è ancora largamente inesplorato, profilandosi come una prospettiva promettente. Infatti, una volta allenati su quantità ingenti e diversificate di dati, i VLMs sviluppano una comprensione profonda e versatile delle relazioni tra immagini e linguaggio, consentendo il trasferimento della capacità assimilata a nuovi contesti, senza necessità di ulteriori addestramenti. Le immagini posseggono intrinsecamente annotazioni multiple, ovvero è possibile identificare in esse più categorie semantiche. L’associazione di molteplici etichette, chiamata classificazione multi-label, è ampiamente studiata in letteratura per le immagini naturali, anche nel contesto dei VLMs, mentre risulta scarsamente indagata nell’ambito della patologia. Un approccio di classificazione così esaustivo, tuttavia, consentirebbe di identificare la presenza simultanea di diverse caratteristiche nelle immagini istologiche, offrendo una comprensione completa delle complessità patologiche e un supporto decisionale più ampio e informato. Questa tesi presenta il modello MM-MIML per la classificazione multi-label di immagini istologiche tramite un approccio multi-modale. L’architettura proposta utilizza il Multiple Instance Learning (MIL) per gestire la computazione e il contesto debolmente supervisionato. Inoltre, sfrutta la conoscenza preventivamente acquisita da PLIP, un VLM specifico per dati patologici, trasferendola a nuovi dati tramite il solo addestramento di prompt testuali imparabili, e consente la classificazione multi-label tramite la metodologia di DualCoOp. Il modello è stato inizialmente addestrato su 1000 slide create sinteticamente tramite la composizione manuale di patches estratte dai dataset NAFLD e CHAOYANG. Successivamente, è stato effettuato un ulteriore allenamento su 171 slide reali provenienti dal dataset BCSS. Nei test sulle slide sintetiche, MM-MIML ha ottenuto dei punteggi di circa il 95% di F1 e il 98% di mAP. Per quanto riguarda le slide reali, i risultati si attestano intorno all’89% di F1 e al 93% di mAP. I risultati ottenuti sono in linea con lo stato dell’arte, tuttavia il modello fornisce notevoli vantaggi derivanti dalla capacità di integrare immagini e linguaggio naturale. Inoltre, la possibilità di eseguire la classificazione multi-label in patologia rappresenta un'importante caratteristica distintiva. Questa combinazione di funzionalità rende MM-MIML estremamente versatile e potenzialmente in grado di fornire una valutazione più completa e accurata delle immagini istologiche.
|