Tesi etd-10092024-142625

Tipo di tesi

Tesi di laurea magistrale

Autore

LUSETTI, SIMONE

URN

etd-10092024-142625

Titolo

Analisi Comparativa degli Schemi di Interleaving dei Codebook nel Modello MusicGen di Meta

Titolo in inglese

Comparative Analysis of Meta's Musicgen's Codebooks Interleaving Patterns

Struttura

Dipartimento di Scienze Fisiche, Informatiche e Matematiche

Corso di studi

Matematica

Commissione

Nome Commissario	Qualifica
FRANCHINI GIORGIA	Primo relatore
SCRIBANO CARMELO	Correlatore

Parole chiave

codebooks-scheduling
generative-AI
LLM
machine-learning
musicgen

Data inizio appello

2024-10-28

Disponibilità

Accessibile via web (tutti i file della tesi sono accessibili)

Riassunto analitico

MusicGen è un modello di generazione musicale sviluppato da Meta, progettato per creare brani musicali coerenti a partire da input testuali o audio. Uno degli elementi centrali di questo modello è l'utilizzo dei codebook per comprimere e rappresentare in modo efficiente le caratteristiche dell'audio. La presente tesi si concentra sull'ottimizzazione e lo sviluppo di nuovi schemi di interleaving dei codebook al fine di migliorare la qualità della generazione musicale.

I codebook interleaving patterns rappresentano una strategia chiave per aumentare la capacità del modello di rappresentare variazioni musicali complesse e mantenere la coerenza del contenuto generato. In particolare, la tesi esplora il funzionamento dei codebook all'interno del framework MusicGen, analizzando i modelli esistenti e sviluppandone di nuovi che sfruttano l’interlacciamento dei codebook per ottimizzare l'encoding delle sequenze audio.

Questo lavoro si basa sul modello MusicGen come descritto da Meta nel paper originale, con una particolare attenzione all'implementazione e sperimentazione di schemi personalizzati per la gestione dell'interleaving tra i diversi codebook. Lo scopo principale è quello di migliorare la capacità del modello di generare contenuti musicali di alta qualità, riducendo al contempo la perdita di informazioni che può verificarsi durante il processo di compressione e decompressione.

Abstract

MusicGen is a music generation model developed by Meta, designed to create coherent musical compositions from textual or audio inputs. A central element of this model is the use of codebooks to efficiently compress and represent audio features. This thesis focuses on the optimization and development of new codebook interleaving patterns to improve the quality of the generated music. The codebook interleaving patterns are a key strategy to enhance the model’s ability to represent complex musical variations while maintaining coherence in the generated content. Specifically, this thesis explores how codebooks function within the MusicGen framework, analyzing existing patterns and developing new ones that leverage codebook interleaving to optimize the encoding of audio sequences. This work is based on the MusicGen model as described by Meta in the original paper, with particular attention given to the implementation and experimentation of custom patterns for managing interleaving between different codebooks. The main goal is to improve the model’s ability to generate high-quality musical content while minimizing the loss of information that can occur during the compression and decompression processes.

File

Nome file		Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file		Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
	Tesi_Magistrale_Simone_Lusetti.pdf	1.21 Mb	00:05:36	00:02:53	00:02:31	00:01:15	00:00:06
	Tesi_Magistrale_Simone_Lusetti_13.pdf	1.62 Mb	00:07:28	00:03:50	00:03:21	00:01:40	00:00:08
Contatta l'autore