Riassunto analitico
Grazie ai modelli generativi di contenuti visivi sempre più potenti, oggi è possibile ottenere risultati molto realistici con l'intelligenza artificiale generativa, al punto di non essere sempre in grado di distinguere contenuti artefatti da quelli autentici. Dall'utilizzo di questi sistemi è possibile trarre dei vantaggi, come la creazione di contenuti grafici o audiovisivi a supporto di processi creativi. Tuttavia, questo tipo di tecnologia può risultare pericolosa se usata in modo improprio, adoperandola, ad esempio, per diffondere in rete, in televisione o sui giornali immagini contraffatte alimentando il fenomeno delle fake news. Per questo è importante sviluppare soluzioni che siano in grado di distinguere contenuti autentici, come una fotografia scattata da una macchina fotografica, da quelli generati, falsi, per limitare il fenomeno della disinformazione e per proteggere la proprietà intellettuale. Lo scopo di questa tesi è progettare una soluzione in grado di distinguere immagini reali da artefatti realizzati con l'IA. La soluzione proposta è il modello One-Class CoDE. Il modello è basato su uno spazio dedicato, Contrastive Deepfake Embeddings (CoDE), in cui le rappresentazioni delle immagini reali e generate vengono posizionate seguendo uno schema di apprendimento contrastivo che colloca le due tipologie di immagini in due sottospazi separati. Le rappresentazioni ottenute delle immagini reali costituiscono, poi, la base per l'addestramento di un classificatore One-Class Support Vector Machine a cui viene affidato l'apprendimento della classe delle immagini reali, per stabilire, successivamente, se un'immagine appartenga a quella classe oppure se rappresenti un'anomalia, quindi un'immagine falsa. Questa peculiarità segue la logica del rilevamento delle anomalie (Anomaly Detection): una tale strategia si presenta come una soluzione in grado di generalizzare e, quindi, di non dipendere da una particolare tipologia di generatori di immagini. Lo schema dell'Anomaly Detection conferisce robustezza al modello, in quanto il compito del classificatore è di imparare solo le caratteristiche delle immagini reali che non dipendono da un particolare modello, a differenza delle immagini false che presentano caratteristiche diverse in base al generatore che le ha realizzate. Infine, viene analizzato il dataset Diffusion-generated Deepfake Detection (D3) composto da immagini generate e reali. Tale dataset è stato utilizzato per l’addestramento del classificatore proposto. Per approfondire tutti gli argomenti citati, si rimanda al testo integrale della tesi in lingua inglese.
|
Abstract
Thanks to the increasingly powerful generative models of visual content, it is now possible to achieve very realistic results with generative artificial intelligence, to the point of not always being able to distinguish between artifacts and authentic content. These systems can offer advantages, such as graphic or audiovisual content creation to support creative processes. However, this type of technology can be dangerous if misused, for example, by using it to spread counterfeit images online, on television, or in newspapers, fuelling the phenomenon of fake news. For this reason, it is important to develop solutions that can distinguish authentic content, such as a photograph taken by a camera, from generated (fake) content, to limit the phenomenon of misinformation and to protect intellectual property.
This thesis aims to design a solution that can distinguish real images from artifacts made with AI. The model proposed is One-Class CoDE. The proposal is based on a dedicated space, Contrastive Deepfake Embeddings (CoDE), in which real and fake image representations are positioned following a contrasting learning scheme that places the two types of images in two separate subspaces. The obtained representations of the real images constitute, then, the base for the training of a classifier One-Class Support Vector Machine to which is entrusted the learning of the class of the real samples, to establish, successively, if an image belongs to that class or if it represents an anomaly, then a false image. This peculiarity follows the logic of anomaly detection (Anomaly Detection): such a strategy is presented as a solution that can generalize and, therefore, not depending on a particular type of image generator. The scheme of the Anomaly Detection gives strength to the model since the task of the classifier is to learn only the characteristics of the real images that do not depend on a particular model, unlike fake images, which have different characteristics according to the generator that made them. Finally, the Diffusion-generated Deepfake Detection (D3) dataset composed of generated and real images is analyzed. This dataset was used for the training of the proposed classifier.
|