什么是注意力机制,它们在语音和音频处理中如何工作?
注意力机制是人工智能 (AI) 领域非常有用的创新,用于处理顺序数据,特别是在语音和音频应用中。本常见问题解答讨论了注意力机制的核心工作原理、它们如何在自动语音识别系统中使用,以及 Transformer 架构如何处理高级音频处理。
注意力机制的核心组成部分是什么?
注意力机制的核心是利用三个基本组件来发挥作用,这些组件协作确定哪些信息值得关注。这三个基本组件是查询 (Q)、键 (K) 和值 (V)。您的查询代表您正在寻找的特定信息,键就像帮助您查找相关材料的书名或目录条目,并且值包含您要检索的实际内容。
在神经网络中,此过程转化为系统的数学过程。注意力机制计算查询和键之间的相似性分数,确定每条输入信息与当前处理步骤的相关性。然后使用 softmax 函数对这些分数进行归一化,以创建总和为 1 的注意力权重。最后,这些权重用于创建一个上下文向量,通过以加权方式组合值来突出显示最重要的信息。
该过程由缩放点积注意力公式表示:
注意力(Q,K,V) = softmax(QK^T/√dk)V
其中,缩放因子可防止点积变得太大,这可能会将 softmax 函数推入梯度极小的区域。
图 1.基本注意力机制(左)和多头注意力(右)计算流程。(图片来源:arXiv)
如图 1 所示,此过程遵循清晰的计算管道。左图显示了三个输入分量如何通过矩阵乘法、缩放、可选掩码、softmax 归一化和最终加权组合。右侧显示多头注意力,这意味着不同的学习投射和多种注意力机制协同工作。
这使模型可以同时看到不同类型的关系,例如时间模式、频率依赖关系和语义连接。这种同时处理多个任务的能力在许多音效同时发生的复杂音频情况下变得非常重要。
注意力机制如何提高语音识别能力?
旧的自动语音识别系统的一个重要问题被称为“信息瓶颈”。在较旧的编码器-解码器模型中,整个音频序列被压缩为固定长度的上下文向量,这意味着重要的细节会丢失,尤其是在较长的音频片段中。注意力机制通过让解码器在文本生成的每个阶段动态访问编码音频的不同部分来解决这个问题。
基于注意力的端到端模型,例如 Listen-Attend-Spell (LAS),是向前迈出的一大步。它们直接将语音信号连接到字符或单词序列,而无需单独的声音、发音和语言模型。

图 2.用于语音识别的 LAS 架构。(图片来源:ResearchGate)
如图 2 所示,LAS 架构展示了注意力是如何在三个独立的部分实现的。作为分层编码器,“Listen”组件适用于通过它发送的多个层的音频功能。虚线显示了“参加”机制如何动态地关注这些编码特征的正确部分,以进行解码的每个步骤。“拼写”部分制作输出序列,每个步骤都基于编码器的注意力加权上下文。
事实证明,这些改进是有效的。与传统的基于音素的方法相比,基于注意力的模型的相对单词错误率比基线系统低 15.7%,低 36.9%。当系统制作每个音素或字符时,注意力机制会关注与该声音相关的确切音频帧。这使得声音和文本输出之间的对齐方式随时间而变化。
变压器如何以不同的方式处理音频?

图 3.通过注意力层处理音频频谱图的 Transformer 架构。(图片来源:施普林格自然)
在变压器架构中引入自注意力是音频处理的重大突破。自注意力不像传统的循环方法那样以线性方式处理音频,而是让模型同时查看输入序列中所有位置之间的连接。这使得远程依赖建模和计算效率都更好。
在自注意力中,所有查询、键和值都来自相同的输入序列。这使模型可以确定在对特定帧进行编码时哪些音频帧是最重要的。
如图 3 所示,基于变压器的音频编码器通过将频谱图拆分为可以并行处理的块来处理频谱图。每个 Patch 接收位置信息并流经多个自注意力层,其中每个层同时分析整个音频序列的关系。
多头注意力建立在这一思想的基础上,同时使用多种注意力机制和不同的学习投影。这使模型能够理解不同类型的关系,例如时间模式、频率和含义之间的关系。
总结
注意力机制显着改善了语音和音频处理,从一种解决序列之间转换问题的方法发展成为人工智能系统的重要组成部分。通过动态关注相关信息,他们在从语音识别到音频理解等任务中实现了显着的性能改进。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码
