深度学习与音乐生成（一）

本文最后更新于484 天前，其中的信息可能已经过时，如有错误请发送邮件到zhzhang_dr@stu.ecnu.edu.cn

2024/12/30

引言

人工神经网络取得成功离不开三个原因

深度学习并没有公认的定义，是一个机遇人工神经网络的机器学习的技术方法，其关键点是“深度”。使用多层次处理的抽象层，而这些抽象层是自动从数据中提取的。因此，深度体系架构可以根据简单的表示来控制和分解复杂的表示。

当前时代背景下，深度学习技术的一个日益广泛的应用领域是内容生成（generation of content）。内容可以是多方面：image、text and music。音乐生成的动机是基于目前广泛使用的各种音乐语料库，从这些数据中自动学习音乐的style，并在此基础上生成新的音乐内容。

当谈到音乐生成时，关于其目标是否明确，实际上还存在一些不确定性。

图灵测试：图灵于1950年提出（模仿游戏），测试机器表现与智能行为等价能力的测试。更准确的来说，如果机器的行为与人类的行为没有区别，可以判断其拥有智能。实验场景中，评估者和隐藏的参与者之间通过自然语言进行对话，如果评估者不能可靠地将机器和真正的人区分开来，那么这台机器就被认为通过了图灵测试。

事实上，无论是作曲还是即兴创作，音乐家都很少从零开始创作新的音乐，他们总是有意识或无意识地服用和采用已经知道的或听过的音乐的特征，并遵循一些原则和指导方针（如和声和音阶理论）来进行音乐创作。基于计算机的创作助手可以在作曲的不同阶段发挥作用，比如可以启发、建议、激发或补充作曲家的灵感。

AI通常分为一下两大主流类别：

目标（objective）：

音乐生成内容的性质（nature）：旋律、复调或伴奏音乐

音乐生成内容的目标（destination）和应用（use）：音乐家能演奏的真正的乐谱、可播放的音频文件

表示（representation）：

音乐数据的表示，是用于trian和generate音乐的性质和格式。MIDI文件 or text数据

架构（architecture）：

架构总而言之是处理单元及其连接的集合的性质。

挑战（challenge）：

音乐生成所需要的特点之一。生成的音乐是否有可变的内容、是否有人机交互、是否具有原创性？

策略（strategy）：

某种体系架构处理数据表示的方法，以便能在匹配用户需求的同时，生成想要的音乐内容。