Riassunto analitico
MusicGen è un modello di generazione musicale sviluppato da Meta, progettato per creare brani musicali coerenti a partire da input testuali o audio. Uno degli elementi centrali di questo modello è l'utilizzo dei codebook per comprimere e rappresentare in modo efficiente le caratteristiche dell'audio. La presente tesi si concentra sull'ottimizzazione e lo sviluppo di nuovi schemi di interleaving dei codebook al fine di migliorare la qualità della generazione musicale.
I codebook interleaving patterns rappresentano una strategia chiave per aumentare la capacità del modello di rappresentare variazioni musicali complesse e mantenere la coerenza del contenuto generato. In particolare, la tesi esplora il funzionamento dei codebook all'interno del framework MusicGen, analizzando i modelli esistenti e sviluppandone di nuovi che sfruttano l’interlacciamento dei codebook per ottimizzare l'encoding delle sequenze audio.
Questo lavoro si basa sul modello MusicGen come descritto da Meta nel paper originale, con una particolare attenzione all'implementazione e sperimentazione di schemi personalizzati per la gestione dell'interleaving tra i diversi codebook. Lo scopo principale è quello di migliorare la capacità del modello di generare contenuti musicali di alta qualità, riducendo al contempo la perdita di informazioni che può verificarsi durante il processo di compressione e decompressione.
|