Tesi etd-09232019-134507

Tipo di tesi

Tesi di laurea magistrale

Autore

BUZZEGA, PIETRO

URN

etd-09232019-134507

Titolo

Continual learning via logits distillation

Titolo in inglese

Struttura

Dipartimento di Ingegneria

Corso di studi

Ingegneria Informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
CALDERARA SIMONE	Primo relatore
PORRELLO ANGELO	Correlatore
ABATI DAVIDE	Correlatore

Parole chiave

continual
distillation
learning
logits
rehearsal

Data inizio appello

2019-10-24

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2059-10-24

Riassunto analitico

Sfruttando le reti neurali artificiali si riescono ad ottenere grandi risultati, ma soltanto nel rispetto di determinate condizioni: in particolare, ci si deve assicurare che i dati utilizzati nella fase di allenamento siano indipendenti e identicamente distribuiti. Se questa assunzione viene violata, avremo a che fare con un problema che varia continuamente, che può essere visto come una sequenza di compiti diversi. Siccome i parametri della rete, nei quali si trova la conoscenza pregressa, vengono sovrascritti per ottimizzare l’ultimo esempio, il processo porta a dimenticare ciò che si è imparato in maniera catastrofica. Gli approcci presenti in letteratura tentano di superare il problema aumentando la capacità della rete, vincolando il suo aggiornamento o inserendo, tra gli esempi del compito corrente, un sottoinsieme dei vecchi dati. In questo lavoro, seguendo l’ultimo dei tre filoni, si utilizza una tecnica di distillazione della conoscenza per estrarre informazioni dalle risposte passate. Gli esperimenti svolti mostrano che, dato lo stesso esempio, avvicinare l'ultimo strato della rete alle sue versioni precedenti restituisce risultati migliori rispetto ad utilizzare le etichette.

Abstract

Artificial neural networks yield great performance, but they need strong assumptions: among these, data we use for training have to be independent and identically distributed. If the data distribution changes over time, which could be seen as learning different tasks sequentially, the network focuses on optimizing its weights with respect to the latest samples, which corresponds to approximate the distribution of the latest task. Since weights, where the knowledge is found, are modified with no constraint, this leads to forgetting the previous knowledge catastrophically. Related works try to overcome this problem by preventing most important weights from changing, by increasing their number or by inserting samples from a subset of the previous tasks within the training of the current one. In this work, following the last approach, we exploit knowledge distillation techniques to extract information from past answers. Our experiments show that matching the last layer, at different time steps, yields better results than simply interleaving previous samples between the current ones.

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore