Tesi etd-11272020-170726

Tipo di tesi

Tesi di laurea magistrale

Autore

SOSA KIRSCHNICK, DIEGO HENRIK

URN

etd-11272020-170726

Titolo

The Application of Data Science in the Insurance Industry

Titolo in inglese

The Application of Data Science in the Insurance Industry

Struttura

Dipartimento di Economia

Corso di studi

INTERNATIONAL MANAGEMENT - Management internazionale (D.M.270/04)

Commissione

Nome Commissario	Qualifica
BORDONI STEFANO	Primo relatore

Parole chiave

Big Data
Data Science
Digital Revolution
Insurance
Machine Learning

Data inizio appello

2020-12-18

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2060-12-18

Riassunto analitico

Da un lato l'Intelligenza Artificiale e, con essa, il Machine Learning sta cambiando l'economia. Ciò è importante per le compagnie di assicurazione poiché il loro lavoro riguarda per definizione la sicurezza degli attori economici e dei loro beni e servizi. Un profondo cambiamento strutturale dell'economia implica un cambiamento 1. Il comportamento degli attori (e quindi il loro senso e la percezione del rischio). 2. I beni e servizi. E 3. Le interazioni tra gli stessi attori e i beni / servizi scambiati. L'obiettivo di questa tesi è presentare come la Data Science viene applicata nel settore assicurativo e, così facendo, costruiremo un proprio modello di Machine Learning per risolvere un problema rilevante nel settore assicurativo: il rilevamento delle frodi.
Inizieremo spiegando i concetti di Data Science, Machine Learning e forniremo una panoramica dei concetti più importanti in materia di assicurazione. Presenteremo casi di studio di due società che hanno utilizzato la Data Science per migliorare le proprie prestazioni: una che cerca di prevedere il churning dei propri clienti e l'altra utilizzando l'intelligenza artificiale per creare un'interfaccia cliente più efficiente e generare dati precisi per ulteriori approfondimenti. Procederemo quindi alla creazione del nostro modello di Machine Learning per prevedere se un reclamo è fraudolento o meno. Per questo delineeremo la metodologia, presenteremo concetti come la convalida incrociata, l'importanza della selezione delle caratteristiche e infine gli algoritmi stessi. Dopo aver eseguito il processo di preparazione e visualizzazione dei dati, eseguiremo i modelli e produrremo i punteggi di accuratezza. I nostri due modelli migliori per questo compito si sono rivelati il Gaussian Naïve Bayes e il Gradient Boosting Tree e calcoleremo la curva delle caratteristiche operative del ricevitore (ROC) per entrambi. Infine, presenteremo le possibilità per migliorare il modello e le prospettive per il futuro.

Abstract

On the one hand Artificial Intelligence and, with it, Machine Learning is changing the economy. This is relevant for insurance companies since their work is per definition concerned with the security of economic actors and their goods and services. A profound structural change of the economy implies a change in 1. The actors’ behaviour (and therefore their sense and perception of risk). 2. The goods and services. And 3. The interactions between actors themselves and the goods/services traded. The objective of this thesis is to present how Data Science is being applied in the insurance industry, and by doing so, we will build an own Machine Learning model to solve a relevant problem in the insurance industry: Fraud detection. We will start by explaining the concepts of Data Science, Machine Learning and provide an overview of the most important concepts regarding insurance. We will present case studies of two companies who have used Data Science to improve their performance - one trying to predict the churning of their clients and the other by using AI in order to create a more efficient customer interface and generate precise data for further insights. We will then proceed to create our own Machine Learning model to predict if a claim is fraudulent or not. For this we will outline the methodology, present concepts such as cross-validation, the importance of feature selection and finally the algorithms themselves. After running through the process of data preparation and visualization we will run the models and output the accuracy scores. Our two best models for this task have turned out to be the Gaussian Naïve Bayes and the Gradient Boosting Tree and we will calculate the reciever operating characteristics curve (ROC) for both. Finally, we will present possibilities for improving the model and an outlook for the future.

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore