Riassunto analitico
Questa tesi affronta l'evoluzione delle Reti Neurali pre-Transformer (CNN, RNN, LSTM), per poi approfondire l'architettura Transformer evidenziando il ruolo cruciale del meccanismo di multi-head self-attention. Si illustrano applicazioni NLP con modelli Transformer per la definizione di Large Language Models come Bert, GPT, e PaLM, mostrando il ruolo cruciale che questi svolgono nella creazione dei moderni chatbots. Infine, si analizzano alcuni limiti dell’architettura Transformer, in particolare il costo quadratico del meccanismo di attention, e le varianti che sono state proposte al modello originale, concentrandosi in particolare sul modello DCT-Former (che approssima il calcolo dell’attention ricorrendo alla Discrete Cosine Transform).
|