Tesi etd-09282022-175828

Tipo di tesi

Tesi di laurea magistrale

Autore

GARUTI, FABRIZIO

URN

etd-09282022-175828

Titolo

Apprendimento Self Supervised di rappresentazioni di dati transazionali

Titolo in inglese

Self Supervised Representation Learning for Transactional Data

Struttura

Dipartimento di Ingegneria "Enzo Ferrari"

Corso di studi

Ingegneria informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
CUCCHIARA RITA	Primo relatore
SANGINETO ENVER	Correlatore

Parole chiave

BERT
Learn representation
MultimodalTimeSeries
Positional embedding
Transformers

Data inizio appello

2022-10-20

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2062-10-20

Riassunto analitico

Nonostante il successo dell'Intelligenza Artificiale (AI) in diverse aree di applicazione e ricerca, finora sono state condotte pochissime indagini sull'uso dei metodi di Deep Learning nel campo dei dati finanziari. Uno dei problemi principali nell'utilizzo di reti neurali deep per la modellazione di dati transazionali è l'eterogeneità delle serie temporali multivariate sottostanti, che sono tipicamente composte da campi numerici, categorici e testuali. Ciò rende il problema della rappresentazione dei dati finanziari diverso da altre aree dell’AI in cui il Deep Learning è stato finora utilizzato con successo.
In questa tesi vengono proposti dei metodi per elaborare e rappresentare dati finanziari attraverso modelli di Deep Learning di tipo Transformers e si concentra l’attenzione sulle possibili rappresentazioni di dati tabulari ed eterogenei, con l'obiettivo di sviluppare architetture di AI di tipo general-purpose per le previsioni finanziarie.
Siccome la storia temporale dei dati transazionali è estremamente lunga, vengono inoltre presentate delle architetture Transformers adatte ad apprendere le dipendenze a lungo termine delle sequenze di dati. Sono state approfondite architetture di tipo gerarchico oppure flat ed addestrate in modo autoregressivo oppure BERT-like.
L’apprendimento dei parametri del modello per ottenere le rappresentazioni è automatico e Self- Supervised. L'idea chiave è consentire al modello di apprendere le rappresentazioni dei dati senza annotazioni manuali. Una volta che il modello ha imparato a rappresentare i dati, può essere utilizzato per downstream task con una quantità minore di dati annotati ed è in grado di ottenere prestazioni migliori rispetto ai modelli addestrati senza apprendimento Self-Supervised.

Abstract

Despite the success of Artificial Intelligence (AI) in different research and application areas, there has been so far very little investigation regarding the use of Deep Learning (DL) methods in the field of financial data. One of the main problems in using deep networks for modeling, e.g., transactional data, is the heterogeneity of the underlying multivariate time series, which are typically composed of numerical, categorical, and textual fields. This makes the financial data representation problem different from other AI areas in which Deep Learning has so far been successfully used. This thesis proposes methods to process and represent financial data through Transformer networks and focuses on the possible representations of tabular and heterogeneous data, with the goal of developing general-purpose AI architectures for financial predictions. As the temporal history of transactional data is extremely long, this thesis also presents Transformers architectures that are suitable for learning the long-term dependencies of data sequences. Flat or hierarchical architectures have been adopted, and they have been trained in an autoregressive or BERT-like fashion. Learning the model parameters is automatic and Self-Supervised. The key idea is to allow the model to learn data representations without manual annotations. Once the model has learned to represent data, it can be used for downstream tasks with a smaller amount of annotated data and is able to achieve better performance than models trained without Self-Supervised learning.

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore