Riassunto analitico
La diagnosi del tumore al seno, che richiede l’analisi istopatologica delle Whole Slide Images (WSI), è un processo complesso e molro dispendioso in termini di tempo. Inoltre, la scarsità di annotazioni dettagliate su queste immagini rende necessaria l’implementazione di soluzioni di deep learning automatizzate e scalabili, in grado di apprendere da dataset con weak labels. Per affrontare questa sfida, questa tesi analizza il paradigma di Multiple Instance Learning (MIL), basato su supervisione debole, per la classificazione dei linfonodi nelle WSI. In particolare, viene condotta un’analisi del modello BufferMIL sul dataset Camelyon16, valutandone le prestazioni con due differenti feature extractor backbones: EfficientNetB0, una convolutional neural network, e Vision Transformer Small (ViT-S) con DINO, un transformer auto-supervisionato. Viene inoltre valutato DSMIL, un altro modello MIL, per confermare ulteriormente l’efficacia dell’apprendimento debolmente supervisionato in ambito istopatologico. I risultati dimostrano che ViT-S supera gli estrattori basati su CNN, rafforzando i vantaggi dell’apprendimento auto-supervisionato nel campo dell’analisi delle immagini mediche. Oltre alla classificazione, questo lavoro sviluppa un meccanismo di attenzione per migliorare l’interpretabilità del modello. Sfruttando la matrice di attribuzione del transformer, vengono identificate le regioni più rilevanti dei linfonodi che influenzano le previsioni, fornendo ai patologi indicazioni preziose a supporto delle decisioni cliniche. Questi risultati evidenziano il potenziale clinico dei framework MIL basati su trasformatori nell’automazione del rilevamento delle metastasi linfonodali, contribuendo a mitigare la carenza di patologi e favorendo una più ampia adozione di soluzioni di patologia digitale basate su intelligenza artificiale per la diagnosi del cancro.
|
Abstract
Breast cancer diagnosis, requiring histopathological analysis of Whole Slide Images (WSIs), is a complex and time-consuming process. Furthermore, the scarcity of detailed annotations on these images necessitates implementing automated and scalable deep-learning solutions capable of learning from weakly labeled datasets.
To address this challenge, this thesis investigates Multiple Instance Learning (MIL), a weakly supervised paradigm, for lymph nodes classification in WSIs. Specifically, an ablation analysis of BufferMIL model is conducted on the Camelyon16 dataset, evaluating its performance with two different feature extractor backbones: EfficientNetB0, a convolutional neural network, and Vision Transformer Small (ViT-S) with DINO, a self-supervised transformer. Additionally, DSMIL, another MIL model, is evaluated to further validate the efficiency of weakly supervised learning in histopathology. Results demonstrate that ViT-S outperforms CNN-based feature extractors, reinforcing the advantages of self-supervised learning in the medical image analysis domain.
Beyond classification, this work develops an attention mechanism to enhance the model interpretability. By leveraging the transformer’s attribution matrix, the most relevant lymph node regions influencing predictions are identified, providing pathologists with valuable insights to support clinical decision-making.
These findings underscore the clinical potential of transformer-based MIL frameworks in automating lymph node metastasis detection, helping mitigate the pathologist shortage and supporting the increased adoption of AI-driven digital pathology solutions for cancer diagnosis.
|