Riassunto analitico
Con il crescere della richiesta di soluzioni di deep learning, il bisogno di comprensione e chiarezza è sempre più fondamentale. In particolare maggiore attenzione è stata data ai meccanismi interni delle reti neurali convolutive (CNNs) e al modo in cui effettuano specifiche scelte. Sebbene questo ambito sia abbastanza nuovo, sono stati fatti alcuni passi avanti e sono state proposte alcune soluzioni significative. Tutte mirano ad attribuire la giusta rilevanza ad ogni pixel in input, rispetto alla confidenza di una specifica rete, nei confronti di una specifica classe. Ciò che veramente manca ora è un modo imparziale di confrontare tutti questi metodi per avere più informazioni circa le loro performance e la loro correttezza. L'obbiettivo di questo lavoro è di fare una completa ed imparziale analisi di questi metodi, per poi trarne alcune conclusioni. Le soluzioni proposte in letteratura sono concepite con diverse filosofie: alcune di loro partono dal retropropagare il gradiente rispetto ad una classe per trovare la giusta rilevanza di ogni feature in input, altri modificano l'input invece, e traggono conclusioni dal comportamento della rete. Altri ancora usano le mappe di attivazione in output dall'ultimo strato convolutivo e le combinano linearmente. Tutti loro ottengono una "mappa di rilevanza" (che viene spesso definita mappa di salienza, della rete). I risultati sono molto differenti però e difficilmente confrontabili con le metriche comuni. In questo lavoro quindi noi proponiamo un nuovo insieme di metriche che sono applicabili generalmente a questi scenari e che non propendono per nessun metodo, evitando quindi di dare vantaggi inaspettati a nessuno di loro.
|
Abstract
As the request of deep learning solutions increases, the need of explainability is even more fundamental. Particular attention has been given to the internal mechanisms of Convolutional Neural Networks and to how they make a specific decision. Although this field is still pretty new, some steps have been made forward and some signicative solutions have been proposed. All of them try to attribute the right relevance to each input pixel, w.r.t. the class confidence. What really is missing now is a fair way to compare all these different methods to gain some more information about how they perform and how signicative they are. The point of this work is to make a complete and fair analysis and to make some considerations about all these methods.
The proposed solutions in literature have very different philosophies: some of them start from backpropagating the gradient to find the right relevance of each input feature, others try to perturb the input instead and check the response of the CNN. Others again use the activation maps out of the last convolutive layer and linearly combine them.
All of them end up obtaining a “relevance map” (we generally call it saliency map, of the network).
The results are really different and hard to compare with the common metrics. In this work we then propose a new set of metrics that are generally applicable to these scenarios and that are not biased, avoiding giving any hidden advantages to any of them.
|