Avec MusicGen, Meta présente un modèle de langage pour la génération d'échantillons musicaux depuis une description textuelle (prompt) qui peut être accompagnée d'un fichier audio soumis. À partir de ce dernier, une mélodie générale est extraite et le modèle essaie de coller à celle-ci.
Basé sur un Transformer auto-régressif à une seule étape, MusicGen est introduit comme un modèle simple et contrôlable. Il génère la musique étape par étape, en prédisant chaque élément de la séquence en fonction des éléments précédents.
MusicGen s'appuie sur un tokenizer audio EnCodec pour diviser la musique, avec une fréquence d'échantillonnage de 32 kHz et traite les jetons en parallèle. " Contrairement aux méthodes existantes telles que MusicLM, MusicGen ne nécessite pas de représentation sémantique auto-supervisée ", soulignent les chercheurs.
Vous pouvez vous amuser avec MusicGen
Les jeux de données d'entraînement du modèle reposent sur 20 000 heures de musique sous licence. Il est précisé des données internes de 10 000 pistes musicales de haute qualité, ainsi que des données musicales de ShutterStock et Pond5.
Plusieurs versions du modèle ont été évaluées. Avec 300 millions, 1,5 milliard et 3,3 milliards de paramètres. La qualité subjective cesse de s'améliorer à partir de 1,5 milliard de paramètres. Néanmoins, un modèle de 3,3 milliards de paramètres semble mieux correspondre aux prompts.
Pour générer des morceaux d'une douzaine de secondes, une démonstration de MusicGen est disponible sur la plateforme Hugging Face. Meta met à disposition le code source sur GitHub.
Une démarche open source face aux critiques
" Les modèles génératifs peuvent représenter une concurrence déloyale pour les artistes. […] La recherche ouverte peut garantir que tous les artistes ont un accès égal à ces modèles. […] Nous espérons que de tels modèles pourront devenir utiles à la fois aux amateurs et aux professionnels de la musique ", écrivent les chercheurs de Meta AI.
Pas sûr cependant que l'alibi de l'open source sera suffisant pour évacuer les craintes d'artistes et compositeurs.