Riassunto analitico
La tesi è basata sull'esperienza di tirocinio svolta presso Deep Vision Consulting e si propone di affrontare da un punto di vista inedito un classico problema della Computer Vision: la calibrazione delle telecamere Stereo con riferimento ai soli parametri estrinseci, considerando noti i parametri intrinseci, come focale, centro ottico e distorsione della lente. In particolare l'obbiettivo proposto è stimare la posa relativa (rotazione e traslazione) tra le due telecamere senza utilizzare oggetti di calibrazione come scacchiere o Marker. Partendo da una stima iniziale eventualmente imprecisa, si cercherà di ottenere un raffinamento dei parametri estrinseci. Due metodi in particolare saranno discussi nella tesi, entrambi basati sulla geometria epipolare e sulla corrispondenza di Keypoints fra le immagini, ottenuti con tecniche di Feature detection e Matching. Il primo metodo è l'algoritmo dei 5 punti, proposto da D. Nistér in un celeberrimo lavoro del 2004 e divenuto riferimento in letteratura. Il secondo metodo ha come obbiettivo di minimizzare la somma dei quadrati degli errori epipolari fra punti corrispondenti, ed è tratto da un articolo di ricerca del 2019 di Y. Ling e S. Shen. La chiave di questa seconda tecnica è la linearizzazione della funzione obbiettivo, attraverso uno sviluppo di Taylor al primo ordine. Grande rilevanza è stata data allo sviluppo di questo secondo metodo, a cui sono stati aggiunti alcuni spunti originali: un algoritmo di regolarizzazione di Tikhonov per risolvere un problema inverso, e l'implementazione dell'algoritmo RANSAC (Random Sample Consensus) per rendere il metodo stabile ad eventuali errori nell'associazione dei match dei punti. Entrambi i metodi hanno come obbiettivo il recupero dei parametri estrinseci: gli angoli di rotazione e il vettore di traslazione fra le due camere. Per finire, la qualità delle calibrazioni ottenute è stata testata proponendo alcune tecniche ricostruzioni 3d della scena, tra cui disparity maps e Point Cloud. Entrambi i metodi sono stati implementati utilizzando il linguaggio Python e sfruttando OpenCv, una libreria open source specifica per i task di computer vision.
|
Abstract
This thesis was carried out during an internship done at Deep Vision Consulting. It approaches from an original point of view a classical problem of Computer Vision: Stereo Camera Calibration of extrinsic parameters, assuming intrinsic parameters (focal length, optical center, distortion coefficients) as known.
The goal of the project is the estimation of the relative pose (Rotation matrix and translation vector) between stereo cameras avoiding calibration patterns like checkerboard and markers.
Starting from an initial estimate, maybe not accurate, we will try to refine extrinsic parameters.
For accomplishing this task, two methods based on epipolar geometry and feature matching will be discussed in detail. The first is the Five Point Algorithm, proposed by D. Nistér in 2004 and become standard in the literature. The second method is based on the minimization of epipolar errors for all the matched feature correspondences and was derived from a paper written by Y. Ling and S. Shen in 2019. The key element of the method is the linearization of the minimization function with a Taylor expansion at first order. The method was further developed with original ideas, like Tikhonov regularization algorithm for solving an inverse problem that occurred in the pipeline, or a RANSAC (Random Sample Consensus) Implementation for granting robustness against matching errors.
Both methods can be performed for retrieving extrinsic parameters: rotation angles and translational components between cameras. Finally, we use refined calibrations to produce disparity maps and PointClouds of scenes, in order to test the quality of reconstructions.
The entire project was implemented in Python language, using Opencv, an open-source library specific for computer vision tasks.
|