Riassunto analitico
Con il crescente realismo delle immagini generate dall'IA, distinguere tra fotografie e immagini sintetiche è diventato sempre più difficile per l'occhio umano. Mentre il progresso e la democratizzazione di strumenti generativi potenti offrono significative opportunità per la creazione di contenuti, presentano anche rischi, come la falsificazione di identità, la disinformazione e la manipolazione politica. I rilevatori di deepfake stanno diventando essenziali per preservare l'autenticità dei media visivi e prevenire la diffusione di contenuti falsi con intenti malevoli. Tradizionalmente, i rilevatori di deepfake sono sviluppati addestrando classificatori su grandi dataset di immagini reali e generate. Tuttavia, nuovi algoritmi e modelli proprietari possono limitare l'accesso a questi dataset e così sfidare l'efficacia dei metodi convenzionali, rendendo necessarie soluzioni innovative. Questa tesi delinea le basi teoriche dell'IA e dei metodi generativi moderni, che sono fondamentali per gli esperimenti condotti. Propone un metodo efficace di rilevamento dei deepfake che opera in un contesto di apprendimento con pochi dati. L'approccio sfrutta l'architettura CLIP ViT con un classificatore lineare binario e adatta lo spazio di embedding di CLIP per distinguere tra immagini reali e generate attraverso il fine-tuning con Low-Rank Adaptation (LoRA). Lo spazio di embedding di CLIP, ricco e complesso, viene sfruttato e modellato efficacemente per il compito con un numero di dati minimo, evitando l'overfitting. Il metodo proposto è valutato addestrando la rete con un numero variabile di coppie di immagini reali e false e testato sugli stessi generatori utilizzati durante l'addestramento. Viene confrontato con altri metodi di rilevamento dei deepfake che utilizzano anch'essi lo spazio di embedding di CLIP. CLIP modificato con LoRA supera questi metodi nella maggior parte delle configurazioni di dati di addestramento sui generatori considerati. Il metodo è anche testato in uno scenario di apprendimento con pochi dati meno rigoroso, con 1k coppie di campioni, dimostrando prestazioni superiori rispetto agli altri rilevatori. Sebbene l'obiettivo principale sia sviluppare un rilevatore che funzioni bene con il generatore specifico per cui è stato addestrato, il metodo viene anche valutato su generatori non visti durante l'addestramento e confrontato con classificatori dalla letteratura. Esso dimostra prestazioni superiori su quasi tutti i generatori, nonostante sia stato addestrato con sole 1k coppie di immagini reali e false, rispetto alle 360k coppie utilizzate dai concorrenti.
|
Abstract
As AI-generated images reach new heights of photorealism, distinguishing between photographs and synthetic visuals has become increasingly challenging for the human eye. While the advancement and democratization of powerful generative tools offer significant potential for content creation, they also pose risks of misuse, such as identity spoofing, misinformation, and political manipulation. Deepfake detectors are becoming essential for preserving the authenticity of visual media and preventing the dissemination of maliciously intended fake content.
The conventional approach to developing deepfake detectors has been to train classifiers using large datasets of real and generated images. However, the landscape is highly dynamic and increasingly competitive, with the emergence of new generative algorithms and proprietary models that may restrict access to large-scale datasets. This limitation challenges the effectiveness of traditional methods and underscores the need for innovative solutions in deepfake detection.
This thesis outlines the theoretical foundations of AI and modern generative methods, which are integral to the experiments conducted. It proposes an effective deepfake detection method that operates in a few-shot learning setting, requiring only minimal training data. The approach leverages the CLIP ViT backbone with a binary linear classifier on top, adapting the CLIP embedding space for distinguishing between real and generated images through fine-tuning with Low-Rank Adaptation (LoRA). The rich and complex CLIP embedding space is exploited and effectively modeled for the task with minimal training data, while avoiding overfitting.
The proposed method is evaluated by training on varying numbers of real-fake image pairs and tested on the same generators used during training. It is compared to other deepfake detection methods that also utilize the CLIP embedding space. Notably, the LoRA-modified CLIP surpasses these methods in most training data settings across the considered generators. The method is further tested in a less stringent few-shot learning scenario with 1k sample pairs, consistently outperforming the other detectors. While the primary goal is to develop a detector that performs well with the specific generator it is trained on, the method is also evaluated on unseen generators and compared to existing classifiers from the literature. It demonstrates superior performance across nearly all generators, despite being trained on just 1k real-fake image pairs, versus the 360k pairs used by the competitors.
|