Lan Y H, Hsiao W Y, Cheng H C, et al. Musicongen: Rhythm and chord control for transformer-based text-to-music generation[J]. arXiv preprint arXiv:2407.15060, 2024.
2024.12.08 晴 微风
文本生成音乐领域有一个非常火的模型,叫做musicgen,是由Meta AI提出的,采用transformer架构。
Musicongen利用musicgen作为基础模型,进行音乐生成。
摘要
文本生成音乐领域有一个非常火的模型,叫做musicgen,是由Meta AI提出的,采用transformer架构。
Musicongen利用musicgen作为基础模型,进行音乐生成。同时,针对musicgen无法针对节奏、和弦信号生成音乐,利用从参考音频中提取到的节奏、和弦信号进行音乐生成。
Introduction
目前的音乐生成模型大多根据文本提示的流派和风格指导创造性过程。主要的方法框架:
- 使用Transformer架构对pre-train音频解码器模型的token进行建模,MusicLM和MusicGen。
使用Diffusion模型通过mel谱图或者音频特征来表示音频,AudioLDM 2和Jen-1
text-to-image领域通常依赖于全局文本条件指导音乐生成。但是高级概念的文本提示引导在音乐生成中引入了一定程度的冗余和模糊性。这种固有的模糊性对旋律、和弦和节奏等时间音乐特征提出了挑战。
Coco-Mulla 基于Musicgen-large(3.3B),使用自适应LLAMA-adapter,用于和弦、节奏控制,从目标音频中提取鼓节奏等音乐属性生成音乐,因此主要是依据目标音频等风格。不支持文本类型,例如:BPM、和弦。
方法
Temporal Represent & Symbolic Condition