Riassunto analitico
Nell'attuale panorama tecnologico, l'Intelligenza Artificiale (AI) rappresenta un pilastro fondamentale dell'innovazione, con le sue applicazioni che pervadono svariati settori della società. Ciononostante, parallelamente alla sua crescente diffusione, emerge l'urgente necessità di assicurarne l'affidabilità e l'integrità etica. Questa tesi si immerge nelle dimensioni etiche dell'AI, con un'enfasi particolare sulle sfide e le implicazioni dei modelli di Intelligenza Artificiale Generativa. Si sottolinea come le recenti evoluzioni delle reti neurali abbiano facilitato la creazione di deep fakes, rappresentazioni false ma estremamente realistiche, che trovano purtroppo applicazione in campagne di disinformazione e manipolazione, anche a scopi politici. Di conseguenza, si evidenzia l'importanza cruciale della ricerca nel riconoscimento di tali contenuti.
Gran parte di questo lavoro è dedicato alla creazione di CSIP (Contrastive Securing of Inappropriate Prompts), un dataset formato da coppie di prompt. All'interno di ogni coppia è presente un prompt che può essere ritenuto inappropriato o offensivo, e una sua versione safe, creata cercando di mantenere il più possibile il contesto. Il dataset è stato generato attraverso una serie di fine tuning iterativi di Llama2, un Large Language Model (LLM) open source. La creazione di questo dataset ha diversi scopi tra cui: innanzitutto dimostrare la semplicità e l'efficienza di allineamento di un LLM a svolgere un task specifico attraverso un dataset molto piccolo facilmente ottenibile. Inoltre diventa uno strumento di benchmark che può risultare particolarmente utile per la ricerca ai fini del riconoscimento e della classificazione di prompt NSFW. Infine il dataset sarà utilizzato per la creazione di una versione sicura di CLIP, un modello sviluppato da OpenAI che combina la visione artificiale e il trattamento del linguaggio naturale in un unico sistema multimodale, permettendo di comprendere informazioni da immagini e testo simultaneamente.
Parte della tesi è quindi dedicata ad un'analisi di alcune proprietà di CLIP, in ottica di dimostrare che il dataset precedentemente creato potrà essere utilizzato al fine di creare una versione sicura di CLIP. Questa versione dovrebbe riuscire a codificare testo o immagini NSFW in vettori rappresentanti le versioni safe degli input forniti. Safe CLIP potrà essere utilizzato su due scenari particolarmente utili. Il primo è il suo utilizzo per effettuare condizionamento nei diffusion models, cioè per rimuovere la possibilità di generare contenuti offensivi o inappropriati all'interno dei diffusion models. Il secondo, è quello di poterlo utilizzare come sistema di retrieval, ottenendo quindi contenuti sicuri come risultati di una ricerca. Utilizzando Safe CLIP in questi ambiti è possibile eludere a tempo codifica tutti i contenuti ritenuti offensivi e inappropriati, fornendo all'utente un'applicazione sicura. Questo lavoro, attraverso la creazione del dataset CSIP e l'analisi di CLIP, pone quindi le fondamenta per un futuro in cui l'IA generativa possa operare con maggiore sicurezza e responsabilità. La visione presentata in questa tesi rappresenta un passo essenziale verso un'IA che rispetta e protegge i valori umani, fornendo strumenti e metodologie che possono guidare ulteriori innovazioni in questo campo cruciale.
|
Abstract
In the current technological landscape, Artificial Intelligence (AI) stands as a cornerstone of innovation, with its applications permeating various sectors of society. Nevertheless, as its influence continues to grow, there emerges an urgent need to ensure its reliability and ethical integrity.
This thesis delves into the ethical dimensions of AI, placing particular emphasis on the challenges and implications of Generative AI models. It highlights how recent advancements in neural networks have facilitated the creation of deep fakes, highly realistic yet deceptive representations. Regrettably, these are often employed in disinformation campaigns and manipulations, underscoring the critical importance of research in the detection of such content.
A significant portion of this work is dedicated to the development of CSIP (Contrastive Securing of Inappropriate Prompts), a dataset composed of pairs of prompts. Within each pair, there is an inappropriate or offensive prompt, and its safe counterpart, crafted to retain as much of the original context as possible. The dataset was generated through a series of iterative fine-tunings of Llama2, an open-source Large Language Model (LLM).
The creation of this dataset serves multiple purposes. Firstly, it demonstrates the ease and efficiency with which an LLM can be aligned to perform a specific task using a relatively small and easily obtainable dataset. Furthermore, it provides researchers with a benchmarking tool that can be particularly valuable for the recognition and classification of NSFW prompts. Ultimately, the dataset will be employed to develop a safe version of CLIP, a model designed by OpenAI that merges artificial vision and natural language processing into a single multimodal system, enabling the simultaneous understanding of information from images and text.
A section of the thesis is dedicated to an analysis of certain properties of CLIP, aiming to demonstrate that the previously developed dataset can be used to create a secure version of CLIP. This version should be capable of encoding NSFW text or images into vectors representing the safe versions of the provided inputs.
Safe CLIP can be deployed in two particularly useful scenarios. The first is its use for conditioning in diffusion models, i.e., to eliminate the possibility of generating offensive or inappropriate content within the diffusion models. The second is its application as a retrieval system, thereby yielding safe content as search results. By utilizing Safe CLIP in these contexts, it becomes possible to preemptively filter out all content deemed offensive and inappropriate, offering users a secure application.
Through the development of the CSIP dataset and the analysis of CLIP, this work lays the groundwork for a future where generative AI can operate with enhanced security and responsibility. The vision presented in this thesis signifies a pivotal step towards an AI that respects and safeguards human values, providing tools and methodologies that can steer further innovations in this crucial field.
|