Riassunto analitico
L'Intelligenza Artificiale (IA), con l'uso di tecniche come il machine learning e reti neurali, sta portando una vera rivoluzione in vari settori, tra cui finanza, medicina e industria. Sta cambiando aspetti della nostra vita quotidiana e creando nuove opportunità di sviluppo. Anche il campo della Visione Artificiale sta vivendo enormi cambiamenti.
Il lavoro di tesi è stato condotto in collaborazione con l'azienda Maticad, una software house specializzata in soluzioni per il design d'interni. Si sottolinea che questo riassunto mira a fornire una panoramica generale del lavoro svolto e invita a consultare il testo completo in lingua inglese per una valutazione più dettagliata.
Il presente lavoro di tesi si basa sullo sviluppo di un sistema di visione artificiale. Si propone di fornire un quadro esaustivo dello stato dell'arte nei campi della segmentazione, classificazione ed ``in-painting'', con l'obiettivo finale di combinare questi elementi in un’unica pipeline, sviluppata partendo da un ambiente pre-esistente, con scopo ed esperienza dell'utente a priori ben definite . L'obiettivo principale di questo lavoro è il miglioramento qualitativo della segmentazione, attualmente basata su una rete transformer per la predizione densa, consentendo agli utenti la rimozione di oggetti, appartenenti a classi specifiche dalla scena.
Il fondamento, su cui sono stati sviluppati ulteriori elementi, è il modello ``segment-anything'', che si propone di segmentare qualsiasi oggetto in un'immagine in base ad un input fornito dall'utente, come una serie di punti, un rettangolo di selezione o un testo. Inizialmente, è stato adattato SAM (Segment Anything Model) alla segmentazione di regioni prefissate senza la necessità di ulteriori informazioni dall’utente, garantendo all’azienda la continuità con l’attuale interfaccia. Ciò è stato realizzato allenando un adattatore tra l'encoder dell'immagine e l'encoder dei prompt di SAM.
Parallelamente, è stato sviluppato ResnetDec, un generatore di mappe termiche, di locali interni. La dorsale del generatore è la rete convolutiva a connessioni residuali ResNet, mentre la parte di generazione è stata ideata ad-hoc per questo scopo, ed composta da una rete a convolutive trasposte con connessioni residuali.
Per la componete di rimozione dell’oggetto dalla scena sono stati analizzati diversi modelli di in-painting, basati su maschere, con il fine di selezionare quello che meglio rispettasse i vincoli - qualitativi e prestazionali - imposti.
Infine, sono stati condotti studi preliminari riguardo alla classificazione degli oggetti segmentati, sperimentando una soluzione innovativa che seguisse il paradigma ``open-vocaboulary’’. Questo nuovo approccio si basa sull'allineamento dello spazio di codifica tra un modello di segmentazione agnostico alle classi, come segment-anything, e un modello di classificazione ``open-vocaboulary'' come CLIP.
In conclusione, questo lavoro di tesi esamina in dettaglio, analizza scrupolosamente e mette a confronto vari modelli all'avanguardia di diversi settori, evidenziandone i punti di forza e di debolezza. Alla luce di questa analisi completa, la tesi propone un nuovo processo di visione artificiale, presentando anche nuovi elementi. Questo nuovo processo non si limita a essere teorico, ma è progettato per essere applicato nel contesto aziendale.
|