Riassunto analitico
Attualmente, l'intelligenza artificiale (AI) sta diventando parte integrante di diverse specializzazioni mediche, inclusa la chirurgia. Con l'avvento della chirurgia robot-assistita, la disponibilità di dati interni alla sala operatoria - specialmente immagini e video - che possono essere sfruttati per migliorare la procedura e l'esito per il paziente è cresciuta esponenzialmente. I metodi basati su deep learning hanno dimostrato notevoli miglioramenti nella soluzione di problemi di computer vision negli ultimi anni. Per questa ragione, stanno iniziando ad essere gradualmente integrati nelle sale operatorie. In questa direzione, uno dei task più importanti, quando si parla di chirurgia robot-assistita, è la segmentazione semantica della scena chirurgica, che include il riconoscimento degli strumenti robotici e laparoscopici e di altri componenti come il catetere vascolare, il filo e l'ago da sutura e le clip hem-o-lok. Si tratta di un task fondamentale nella chirurgia image-guided, dove i chirurghi utilizzano strumenti tracciati insieme ad immagini pre-operatorie o intra-operatorie per guidare la procedura direttamente o indirettamente. Tuttavia, il problema evidenziato dalla maggioranza della letteratura sull'intelligenza artificiale applicata alla chirurgia robot-assistita è la mancanza di grandi dataset annotati. Inoltre, la segmentazione di immagini endoscopiche è complicata dalla presenza di sangue, fumo, variazioni di illuminazione, riflesso e occlusioni. Questo elaborato ripercorre tutti i passi principali del lavoro di tesi, inserito all'interno di un progetto avente come obiettivo la creazione di sistemi cognitivi basati su immagini ed il loro utilizzo in chirurgie reali: la creazione di un dataset proprietario annotato di immagini endoscopiche a partire da videoregistrazioni di chirurgie; il training, testing e confronto di reti neurali fully convolutional per la segmentazione binaria e multiclasse a bassa latenza; l'impiego e valutazione di un layer ConvLSTM nell'architettura al fine di ottenere un'accuracy maggiore e risultati temporalmente più consistenti in video chirurgici - che possono essere processati in real-time o offline - , con l'utilizzo di una tecnica di pseudo-labelling per far fronte alla mancanza di sequenze di frame annotate manualmente. Infine, vengono riportati alcuni esempi di applicazione della segmentazione della scena chirurgica ed i possibili sviluppi futuri del progetto.
|
Abstract
Nowadays, Artificial Intelligence is becoming an integral part of several medical specialities, including surgery. With the advent of robot-assisted and image-guided procedures, the availability of data inside the operative room - especially images and videos - that can be exploited to improve the intervention and the outcome for the patient, has grown exponentially. Deep learning methods showed great improvements in solving computer vision problems in the last years. For this reason, they are beginning to be gradually integrated in the OR. In this direction, one of the most important tasks when talking about robot-assisted surgery is the semantic segmentation of the surgical scene, that includes the detection of the robotic instruments, the tissue and other components such as the vessel loop, the suture wire and needle, the gauze and the hem-o-lok clips. This is a fundamental task in image-guided surgery (IGS), where surgeons use tracked surgical instruments in conjunction with preoperative or intraoperative images in order to directly or indirectly guide the procedure. However, the problem highlighted by the majority of literature on this scope is the lack of large annotated datasets. Moreover, the segmentation of endoscopic images is complicated by the presence of blood and smoke, illumination changes, reflection and occlusions.
This elaborate goes through all the main steps of the thesis work, inserted inside a project involving computer vision into real robot-assisted surgery: the construction of a proprietary annotated dataset of surgical images from video recordings of procedures; the training, testing and comparison of fully convolutional neural networks for the low-latency binary and multiclass segmentation, reaching promising performance in terms of IoU; the employment and evaluation of a ConvLSTM layer in the segmentation architecture to achieve higher accuracy and more temporally consistent results in surgical videos, with the use of a pseudo-labelling technique to face the lack of manually annotated sequences of frames. Finally, some application examples of the surgical scene segmentation and the possible future developments of the project are reported.
|