Riassunto analitico
L’incremento delle capacità computazionali dei dispositivi mobili rende possibile l’esecuzione su questi dispositivi di algoritmi di elevata complessità computazionale, permettendo la realizzazione di applicazioni impensabili fino a pochi anni fa. Adesso la comunità scientifica di Visione Artificiale può sfruttare le migliori caratteristiche dei dispositivi mobili, corredati di fotocamere di qualità elevata e molti altri sensori. Tuttavia occorre tenere in considerazione una tutta una serie di limitazioni proprie dell’ambito mobile. Nonostante i continui miglioramenti, la capacità computazionale e la memoria disponibile non è ancora paragonabile ai tradizionali computer. L’autonomia limitata della batteria e i problemi di connessione posso presentare un serio problema. Inoltre, nel contesto mobile l’utente interagisce direttamente con il dispositivo e con l’applicazione, e quindi è richiesto un tempo di risposta adeguato. Queste limitazioni mostrano come l’utilizzo di algoritmi di Visione Artificiale su dispositivi mobili non sia immediato. Anche se del codice ottimizzato può essere eseguito sul dispositivo, la maggior parte delle applicazioni richiedono ulteriori dati e capacità computazionale. Lo sviluppo di applicazioni mobili richiede la progettazione di algoritmi che si adattino all’architettura del sistema composto dal dispositivo mobile, da un server remoto e da una connessione di rete che li collega. Lo scopo della Visione Mobile, campo scientifico nato di recente, è proprio di affrontare queste problematiche. Il suo scopo non è solo quello di ottimizzare gli algoritmi di Visione Artificiale in modo che possano essere eseguiti su dispositivi con prestazioni limitate, ma anche di definire l’architettura dei sistemi, di sfruttare i sensori disponibili, e di avvantaggiarsi del ruolo dell’utente in rapporto con il dispositivo. Questa tesi si pone due obiettivi principali. Il primo è esplorare i miglioramenti apportati finora grazie ai principi della Visione Mobile, fornendo un’ampia analisi della letteratura associata e focalizzandosi sulle sfide rimaste ancora aperte. Inoltre sono discusse le soluzioni architetturali e le tecniche di ottimizzazione richieste per eseguire una applicazione in ambito mobile. Il secondo è di proporre due nuove applicazioni, cioè un algoritmo che permette di eseguire in tempo reale su un dispositivo mobile il riconoscimento di forme ellittiche, e un approccio computazionalmente leggero al riconoscimento visuale di luoghi che permette di fornire contenuti tempo reale all’utente attraverso un’interazione naturale.
|
Abstract
The growth of mobile devices capabilities makes them suitable to perform complex processing tasks. This greatly widens the range of algorithms that can be run directly on the mobile device, therefore enabling the spread of many new applications unfeasible until few years ago.
Researches in Computer Vision can now exploit the growing computational capabilities of mobile devices equipped with high quality cameras, as long as many other built-in sensors. However, several limitations of mobile device, with respect to traditional desktop computers, must take into account. Despite the hardware improvements, computational capabilities and memory availability may present a severe issue, as well as limited battery life and network connectivity. Also, in the mobile context the user directly interacts with the device so that real time response is often required.
Such limitations suggest that moving the computation towards mobile devices is not a mere porting of existing algorithms. Optimized code may run on the device, but most application require further processing or data that cannot be found directly on the mobile device. Building mobile application requires to design algorithms that fit in the system architecture composed in by the mobile device itself, a remote server and the network connectivity in between.
The purpose of the recently born field of Mobile Vision is to face these issues. Mobile Vision is not only about optimizing computer vision algorithms to run on limited hardware, but also about defining mobile-oriented paradigms for algorithms, and application designs to meet a particular mobile vision system architecture, exploiting the set of sensors available on the mobile device, and taking advantage of the role played by the user in a mobile context.
The goal of this thesis is twofold. Firstly, it explores the improvements brought so far thanks to Mobile Vision, providing a thorough analysis of the literature in this field and focusing on the open challenges. The architectural solutions and the optimization techniques required to run mobile vision applications are then discussed. Secondly, it proposes two novel applications, namely an algorithm that make the ellipse detection task feasible on mobile device in real-time, and a lightweight approach to visual place recognition to provide on the fly useful content to users through intuitive and natural interaction.
|