Riassunto analitico
Nella presente tesi sono impiegati due modelli di regressione, uno lineare ed uno non lineare, con il fine di effettuare la previsione del prezzo di chiusura giornaliero di un titolo azionario. Basandosi su quantità variabili di informazioni riguardanti i periodi passati, fino al giorno immediatamente precedente la previsione, si mira dunque a prevedere con un giorno d’anticipo il valore del prezzo di chiusura del giorno successivo. Uno dei temi centrali della tesi consiste nello studio dell’impatto della scelta di variabili di input stazionarie e/o non stazionarie sui risultati predittivi. Per la regressione lineare si utilizza il modello Ridge Regression, mentre per la regressione non lineare il modello Multi – Layer Perceptron Regression. Le informazioni inserite in input all’interno dei modelli consistono nei dati grezzi delle serie storiche dei prezzi, ovvero nel prezzo stesso di chiusura giornaliero (variabile “Close”), nel prezzo di apertura giornaliero (variabile “Open”), nel massimo valore giornaliero assunto dal prezzo (variabile “High”), nel minimo valore giornaliero assunto dal prezzo (variabile “Low”) e nel volume giornaliero di transazioni (variabile “Volume”), nonché in specifici indici attinti dall’analisi tecnica finanziaria ed elaborati servendosi unicamente dei dati grezzi appena descritti. Sono state effettuate molteplici previsioni sfruttando diversi insiemi di variabili indipendenti di input ed utilizzando i dati giornalieri, reperiti dal sito Yahoo Finance, riferiti ai titoli azionari Microsoft Corporation (MSFT) e The Goldman Sachs Group, Inc. (GS). I risultati delle previsioni sono stati quindi confrontati con quelli riportati in alcuni articoli selezionati dalla letteratura. L’elaborazione dei dati e la creazione dei modelli sono state portate a termine tramite la piattaforma di interactive computing “Jupyter notebook”, utilizzando il linguaggio di programmazione Python. Le performance migliori in termini di Mean Absolute Percentage Error (MAPE) sono state ottenute sfruttando gli insiemi di features predittive contenenti variabili non stazionarie. Unitamente alle migliori performance è tuttavia emerso un bias predittivo ricorrente, il quale effetto risulta progressivamente meno riconoscibile quanto più la previsione è effettuata attraverso l’utilizzo di features stazionarie, al prezzo tuttavia di una performance nettamente inferiore. Non è chiaro se tale bias sia eliminabile definitivamente attraverso l’utilizzo di features stazionarie.
|
Abstract
In this thesis, two regression models were used, one linear and one non – linear, in order to forecast daily stocks closing prices. Based on variable quantities of information from the past periods, up to the day immediately preceding the forecast on the next, the aim of this work is therefore to predict the next day closing price one day in advance. One of the main themes of the thesis is the impact of stationary and non – stationary input variables on predictive results.
The Ridge Regression model is used for linear regression, while the Multi – Layer Perceptron Regression model is used for non – linear regression. The information entered as models input consists of the daily closing price (“Close” variable), the daily opening price (“Open” variable), the daily maximum price value (“High” variable), the daily minimum price value (“Low” variable) and the daily volume of operations (“Volume” variable), as well as by some indices drawn from technical financial analysis and obtained using only the raw data described above.
Several predictions were carried out by exploiting different sets of independent input variables and using the daily raw data, obtained from Yahoo Finance website, referring to the Microsoft Corporation (MSFT) and The Goldman Sachs Group, Inc. (GS) equities. Predictions results were then compared with those reported in some articles selected from the literature.
Data processing and implementation of the predictive models were carried out using the Python programming language through the interactive computing platform “Jupyter notebook”. The best performances in terms of Mean Absolute Percentage Error (MAPE) were obtained by exploiting the sets of predictive features containing non-stationary variables. Nevertheless, together with the best performances, a recurring predictive bias emerged, which effect is gradually less recognizable the more the forecast is made through the use of stationary features, at the price however of a much lower performance. It is not clear whether this bias can be definitively eliminated through the use of stationary features.
|