Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model

本文最后更新于166 天前，其中的信息可能已经过时，如有错误请发送邮件到zhangzihao60102@gmail.com

Introduction

文本到图像生成的成功，引导许多研究人员采用相似的技术实现文本到音频生成。这种模型在媒体制作中具有强大的潜在应用案例，这在小规模项目中尤其有用，因为在这种情况下，产生确切的声音可能是不可行的。除此之外，这些技术还为通用多模态人工智能铺平了道路，使其能够同时识别和生成多种模态。

现有的文本生成音频工作使用 large language model – 文本编码器，例如CLAP（基于 HTSAT 的音频编码器和一个基于 RoBERTa 的文本编码器，使用对称交叉熵损失作为训练目标）和T5 – 来对要生成的音频的文本描述进行编码。随后，利用Transformer解码器或者扩散模型生成音频先验，然后由pre-trained VAE解码，接着是一个 vocoder 生成音频文件。同时使用指令微调的LLM替换文本编码器可以提高文本理解能力和整体音频生成能力。这是因为LLM具有梯度下降模拟特性^【1】。先前的方法为了增加训练数据，采用随机生成的音频对进行组合，以及将文本描述拼接起来。但是这种策略不考虑

为了增加训练样本，现有方法采用随机生成的音频对组合，以及它们的描述的连接。这种混合不考虑源音频的整体压力水平，可能导致较响亮的音频压倒较安静的音频。因此，我们采用了Tokozume等人[39]建议的压力水平混合方法。

【1】在机器学习中，梯度下降（Gradient Descent）是一种优化算法，目的是最小化一个损失函数。通常，我们希望训练一个模型，使其预测的结果尽量接近实际的标签，这时会计算出损失函数（例如均方误差或交叉熵），然后通过梯度下降来调整模型的参数。

梯度下降的核心思想是：计算损失函数相对于模型参数的梯度（变化率）。通过向梯度的反方向更新参数，使得损失值变小。一步步进行这种调整，直到损失最小化。举个简单的例子，如果你在山上走，你希望朝着最陡的下坡方向走，以最快的速度下到山谷。这就是梯度下降的基本思路。

在LLM中，梯度下降模拟特性并不是字面上的梯度下降过程，而是指模型在进行推理时，能够以一种类似于梯度下降的方式进行自我调整。大语言模型通常是在预训练阶段通过梯度下降来训练的，即通过调整参数来最小化损失函数。然而，在推理阶段（即模型生成输出时），模型不会进行实际的梯度下降操作，而是利用它先前学习到的知识进行生成。虽然在推理阶段模型不会真正进行梯度下降，但LLM的生成过程可以被视作一种推理的迭代优化过程。模型通过逐步生成每个词或音频片段的过程，就像是一步步调整其生成结果，直到满足给定的条件或目标（例如与上下文的一致性、语义匹配等）。这种类似梯度下降的过程使得LLM能够根据输入的指令或任务进行自我调整和优化，逐渐逼近“最优解”。

即使没有在每个生成步骤中使用显式的梯度下降，LLM在推理过程中仍然可以依靠训练中学到的优化经验，通过生成的每一轮逐步逼近目标输出。这种“模拟”过程使得模型在处理复杂任务时，能保持较好的性能。例如，在文本生成任务中，模型会生成一个词，并根据上下文调整生成的下一个词，类似于不断优化生成的内容。在生成过程中，模型通过不断参考上下文和之前的生成结果，调整输出以尽可能达到最优。

当我们将指令调优的LLM（如FLAN-T5）应用到文本到音频生成任务时，模型已经在大量的指令任务上进行过训练，学会了如何理解不同类型的指令并生成合理的回应。因此，当LLM用作文本编码器时，它能够快速理解和响应文本描述，就像是通过梯度下降模拟的优化过程，将输入的文本转换为符合预期的音频输出。

【2】除了混合音频，现有方法还将两段音频的描述拼接在一起。例如，假设有两段音频，分别描述为“轻柔的钢琴曲”和“急促的鼓声”，那么这两段描述会拼接成一个新的描述：“轻柔的钢琴曲，急促的鼓声”，与混合的音频一一对应。这里指出现有方法的一个问题：它们没有考虑到音频源的音频压力级别（SPL，Sound Pressure Level）。音频的压力级别代表声音的强度，通常用分贝（dB）来表示。如果混合后的音频中有一段音频的音量显著高于另一段，它就可能盖过那段较安静的音频，导致混合后的音频失去原有的平衡。

Introduction

发送评论 编辑评论

推荐文章

发送评论编辑评论