Riassunto analitico
Fare previsioni sulle traiettorie che possono compiere i pedoni è una delle sfide più intriganti degli ultimi anni, in quanto le possibili applicazioni stanno diventando sempre più numerose e rilevanti, prime fra tutti la guida autonoma e la navigazione di robot in ambienti sociali. Il compito risulta tuttavia arduo per una serie di motivi. Innanzitutto, le caratteristiche dinamiche dei pedoni e la necessità di modellare le complesse dipendenze spazio-temporali che intercorrono fra i diversi agenti rendono complicato questo lavoro anche per reti neurali specializzate. In secondo luogo, il rilascio di tali modelli in scenari inediti nasconde un requisito abbastanza stringente: il tipico addestramento di queste architetture presuppone l'utilizzo di dati etichettati, ovvero dati in cui, per ogni istante temporale, si hanno sia la posizione dell'agente che la sua identità. Tipicamente, tali informazioni sono ottenute tramite la combinazione di sistemi di tracking e di un successivo intervento umano per pulire e raffinare i dati ottenuti. Tuttavia, tale procedura trascura le caratteristiche di uno scenario reale, con particolare enfasi sulla fase di predizione on-line. L'intervento umano comporta, infatti, costi troppo elevati in termini di tempo e risorse, mentre il solo utilizzo di sistemi di tracking automatici genera dati particolarmente rumorosi. In questo lavoro ci si è quindi concentrati su una soluzione che permetta il rilascio del modello di predizione in scenari innovativi col minor sforzo possibile in termini di tempo e risorse, senza tuttavia sacrificare eccessivamente le performance finali. In breve, la soluzione proposta prevede l'utilizzo dell'architettura (già pre-allenata sui dataset più famosi in letteratura) in scenari totalmente inediti senza il vincolo della presenza di dati etichettati da un tracker: questo è stato reso possibile grazie alla definizione di una apposita procedura di fine-tuning basata sull'algoritmo Hungarian, la quale richiede per il proprio funzionamento solo le detection dei singoli soggetti e non il tracciamento della loro identità nel tempo.
|