Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model
本文最后更新于66 天前,其中的信息可能已经过时,如有错误请发送邮件到zhangzihao60102@gmail.com

Introduction

文本到图像生成的成功,引导许多研究人员采用相似的技术实现文本到音频生成。这种模型在媒体制作中具有强大的潜在应用案例,这在小规模项目中尤其有用,因为在这种情况下,产生确切的声音可能是不可行的。除此之外,这些技术还为通用多模态人工智能铺平了道路,使其能够同时识别和生成多种模态。

现有的文本生成音频工作使用 large language model – 文本编码器,例如CLAP(基于 HTSAT 的音频编码器和一个基于 RoBERTa 的文本编码器,使用对称交叉熵损失作为训练目标)和T5 – 来对要生成的音频的文本描述进行编码。随后,利用Transformer解码器或者扩散模型生成音频先验,然后由pre-trained VAE解码,接着是一个 vocoder 生成音频文件。同时使用指令微调的LLM替换文本编码器可以提高文本理解能力和整体音频生成能力。这是因为LLM具有梯度下降模拟特性【1】。先前的方法为了增加训练数据,采用随机生成的音频对进行组合,以及将文本描述拼接起来。但是这种策略不考虑

为了增加训练样本,现有方法采用随机生成的音频对组合,以及它们的描述的连接。这种混合不考虑源音频的整体压力水平,可能导致较响亮的音频压倒较安静的音频。因此,我们采用了Tokozume等人[39]建议的压力水平混合方法。


【1】在机器学习中,梯度下降(Gradient Descent) 是一种优化算法,目的是最小化一个损失函数。通常,我们希望训练一个模型,使其预测的结果尽量接近实际的标签,这时会计算出损失函数(例如均方误差或交叉熵),然后通过梯度下降来调整模型的参数。

梯度下降的核心思想是:计算损失函数相对于模型参数的梯度(变化率)。通过向梯度的反方向更新参数,使得损失值变小。一步步进行这种调整,直到损失最小化。举个简单的例子,如果你在山上走,你希望朝着最陡的下坡方向走,以最快的速度下到山谷。这就是梯度下降的基本思路。

在LLM中,梯度下降模拟特性并不是字面上的梯度下降过程,而是指模型在进行推理时,能够以一种类似于梯度下降的方式进行自我调整。大语言模型通常是在预训练阶段通过梯度下降来训练的,即通过调整参数来最小化损失函数。然而,在推理阶段(即模型生成输出时),模型不会进行实际的梯度下降操作,而是利用它先前学习到的知识进行生成。虽然在推理阶段模型不会真正进行梯度下降,但LLM的生成过程可以被视作一种推理的迭代优化过程。模型通过逐步生成每个词或音频片段的过程,就像是一步步调整其生成结果,直到满足给定的条件或目标(例如与上下文的一致性、语义匹配等)。这种类似梯度下降的过程使得LLM能够根据输入的指令或任务进行自我调整和优化,逐渐逼近“最优解”。

即使没有在每个生成步骤中使用显式的梯度下降,LLM在推理过程中仍然可以依靠训练中学到的优化经验,通过生成的每一轮逐步逼近目标输出。这种“模拟”过程使得模型在处理复杂任务时,能保持较好的性能。例如,在文本生成任务中,模型会生成一个词,并根据上下文调整生成的下一个词,类似于不断优化生成的内容。在生成过程中,模型通过不断参考上下文和之前的生成结果,调整输出以尽可能达到最优。

当我们将指令调优的LLM(如FLAN-T5)应用到文本到音频生成任务时,模型已经在大量的指令任务上进行过训练,学会了如何理解不同类型的指令并生成合理的回应。因此,当LLM用作文本编码器时,它能够快速理解和响应文本描述,就像是通过梯度下降模拟的优化过程,将输入的文本转换为符合预期的音频输出。

【2】除了混合音频,现有方法还将两段音频的描述拼接在一起。例如,假设有两段音频,分别描述为“轻柔的钢琴曲”和“急促的鼓声”,那么这两段描述会拼接成一个新的描述:“轻柔的钢琴曲,急促的鼓声”,与混合的音频一一对应。这里指出现有方法的一个问题:它们没有考虑到音频源的音频压力级别(SPL,Sound Pressure Level)。音频的压力级别代表声音的强度,通常用分贝(dB)来表示。如果混合后的音频中有一段音频的音量显著高于另一段,它就可能盖过那段较安静的音频,导致混合后的音频失去原有的平衡。

文末附加内容
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇