Riassunto analitico
Sfruttando le reti neurali artificiali si riescono ad ottenere grandi risultati, ma soltanto nel rispetto di determinate condizioni: in particolare, ci si deve assicurare che i dati utilizzati nella fase di allenamento siano indipendenti e identicamente distribuiti. Se questa assunzione viene violata, avremo a che fare con un problema che varia continuamente, che può essere visto come una sequenza di compiti diversi. Siccome i parametri della rete, nei quali si trova la conoscenza pregressa, vengono sovrascritti per ottimizzare l’ultimo esempio, il processo porta a dimenticare ciò che si è imparato in maniera catastrofica. Gli approcci presenti in letteratura tentano di superare il problema aumentando la capacità della rete, vincolando il suo aggiornamento o inserendo, tra gli esempi del compito corrente, un sottoinsieme dei vecchi dati. In questo lavoro, seguendo l’ultimo dei tre filoni, si utilizza una tecnica di distillazione della conoscenza per estrarre informazioni dalle risposte passate. Gli esperimenti svolti mostrano che, dato lo stesso esempio, avvicinare l'ultimo strato della rete alle sue versioni precedenti restituisce risultati migliori rispetto ad utilizzare le etichette.
|
Abstract
Artificial neural networks yield great performance, but they need strong assumptions: among these, data we use for training have to be independent and identically distributed. If the data distribution changes over time, which could be seen as learning different tasks sequentially, the network focuses on optimizing its weights with respect to the latest samples, which corresponds to approximate the distribution of the latest task. Since weights, where the knowledge is found, are modified with no constraint, this leads to forgetting the previous knowledge catastrophically. Related works try to overcome this problem by preventing most important weights from changing, by increasing their number or by inserting samples from a subset of the previous tasks within the training of the current one. In this work, following the last approach, we exploit knowledge distillation techniques to extract information from past answers. Our experiments show that matching the last layer, at different time steps, yields better results than simply interleaving previous samples between the current ones.
|