Riassunto analitico
Intelligenza artificiale oggi è una "buzzword", ma è una disciplina in realtà molto concreta. Una sua declinazione è quella in ambito Person Re-Identification, dove l'obiettivo è quello di riconoscere un individuo che è stato precedentemente osservato in una rete di telecamere, un'attività complessa potenzialmente utile per molte applicazioni di sicurezza. Di solito viene affrontato con l'uso di reti neurali e nello specifico con architetture convolutive. Tra i molteplici metodi di apprendimento che è possibile adottare su tali reti vi è quello della Knowledge Distillation, dove tipicamente, ma non necessariamente, un modello più grande trasferisce conoscenza ad un modello più piccolo, affinché quest'ultimo performi ugualmente o addirittura meglio del suo istruttore a pari o inferiore dispendio di risorse computazionali. In questo contesto è dunque importante che i modelli riescano a codificare le immagini in ingresso cercando di cogliere appieno tutte le informazioni rilevanti necessarie ad assolvere al meglio il loro obiettivo. Lo scopo di questo lavoro è quindi quello di analizzare il possibile innesto di Transformer Encoder in un modello basato sulla Knowledge Distillation per la Person Re-Identification, affinché si possano ottenere delle rappresentazioni più significative e semanticamente più espressive. Quello dei modelli Transformer è un ambito di ricerca abbastanza vivo che ha trovato spazio, insieme ai meccanismi dell'attenzione, soprattutto nell'elaborazione del linguaggio naturale e nella visione artificiale.
|
Abstract
Artificial Intelligence is a buzzword today, but it is actually a very concrete discipline. One of its declinations is that in the Person Re-Identification field, where the goal is to recognize an individual who has previously been observed in a network of cameras, a complex activity potentially useful for many security applications. It is usually faced with the use of neural networks and specifically with convolutional architectures. Among the many learning methods that can be adopted on such networks there is that of Knowledge Distillation, where typically, but not necessarily, a larger model transfers knowledge to a smaller model, so that the latter performs equally or even better than its instructor at equal or lower expenditure of computational resources. In this context, it is therefore important that the models are able to encode the input images trying to fully grasp all the relevant information necessary to best fulfill their objective. Therefore the aim of this work is to analyze the possible insertion of Transformer Encoders into a Knowledge Distillation model for Person Re-Identification so that more significant and semantically more expressive representations can be obtained. That of Transformer models is a fairly lively area of research that has found space, together with the mechanisms of attention, above all in the Natural Language Processing and Computer Vision fields.
|