消费电子 声音识别
实时语音增强神经网络算法
时间:2024-04-22浏览次数:
实时语音增强神经网络算法

本文介绍了一种用于实时语音增强的双信号变换LSTM网络(DTLN),作为深度噪声抑制挑战(DNS挑战)的一部分。该方法将短时傅立叶变换(STFT)和学习的分析和合成基础结合在具有少于一百万个参数的堆叠网络方法中。该模型接受了挑战组织者提供的500小时嘈杂语音的训练。该网络能够实时处理(一帧输入,一帧输出),并达到有竞争力的结果。结合这两种类型的信号变换使得DTLN能够稳健地从幅度谱中提取信息,并结合来自所学习的特征基础的相位信息。该方法显示出最先进的性能,并在平均意见得分(MOS)方面超过DNS挑战基线0.24分。

   噪声抑制是语音增强领域的一个重要学科,随着深度神经网络的兴起,提出了几种基于深度模型的音频处理方法。然而,这些通常是为离线处理而开发的,不需要实时能力。这样的模型处理完整的序列,并利用信号的过去和未来信息来抑制不期望的信号部分。在用神经网络设计基于帧的算法时,递归神经网络是一种常见的选择。RNN在语音增强和语音分离领域产生了令人信服的结果。长短期存储器网络(LSTM)代表了分离方面的最先进技术。性能最好的网络通常是通过使用双向LSTM以非因果方式构建的,其中时间序列也以相反的方向进行因果处理。双向RNN总是需要完整的序列作为输入,因此主要不适合实时帧处理。深度噪声抑制挑战(DNS挑战)的基线系统称为NSNet[15],也基于RNN层,并通过计算每个输入帧一个输出帧来提供实时能力。

本文提出的模型级联了两个分离核心,第一个核心采用STFT信号变换,而第二个核心使用类似于学习信号表示。选择该阶数是为了利用第一核心创建稳健的幅度估计,并使第二核心能够利用相位信息进一步增强信号。这种组合是首次在降噪的背景下进行探索,由于经典特征和学习特征转换的互补性,可以提供有益的效果,同时保持相对较小的计算足迹。本文中的堆叠网络与之前提出的大多数LSTM网络相比要小得多,并确保了计算复杂性方面的实时能力。

网络架构

本文介绍的堆叠双信号转换LSTM网络架构有两个分离核心,包含两个LSTM层,然后是一个全连接(FC)层和一个S形激活,以创建掩码输出。第一分离核心使用STFT分析和合成基础。由FC层和S形激活预测的掩模乘以混合物的幅度,并使用输入混合物的相位变换回时域,但不重构波形。来自第一网络的帧由1D Conv层处理以创建特征表示。特征表示在被馈送到第二分离核心之前由归一化层处理。第二核心的预测掩码与特征表示的未规范化版本相乘。该结果被用作1D Conv层的输入,用于将估计的表示变换回时域。在最后一个步骤中,使用重叠和相加过程来重构信号。该体系结构如图1所示。为了说明模型的实时性,使用了即时层归一化(iLN)。即时层规范化类似于标准层规范化[21],并在[22]中作为通道层规范化引入。所有帧在不随时间累积统计的情况下被单独归一化,并且使用相同的可学习参数进行缩放。在目前的工作中,这种归一化方案被称为即时层归一化,以区别于累积层归一化。

image.png

数据

训练数据集是根据所提供的DNS挑战的音频数据创建的。语音数据是Librispeech语料库[23]的一部分,噪声信号来源于Audioset语料库[24]FreesoundDEMAND语料库[25]。通过使用所提供的脚本来创建500小时的数据。默认SNR范围(040 dB)更改为-525 dB,以包括负SNR并限制总范围。为了覆盖更细粒度的SNR分布,SNR级别的数量从5个增加到30个。所有其他参数保持不变。将500小时的数据集分为训练(400小时)和交叉验证数据(100小时),这对应于常见的80:20%的分割。所有训练数据均以16kHz采样。挑战组织者还提供了一套测试集,其中包含四个不同的类别,每个类别包含300个样本。类别包括没有混响的合成剪辑、有混响的合成片段、微软内部收集的真实录音以及Audioset的真实录音。合成数据取自格拉茨大学的干净语音数据集[26]。合成数据的SNR是从025dB SNR随机分布的。在微软的多个房间中测量混响数据的脉冲响应,混响时间(RT60)范围为3001300 ms。此外,组织者创建了一个盲测试集,并在ITU P-808[27]设置中进行评估。[14]中提供了训练和测试集的全部细节。为了正确估计在噪声混响环境中所有客观测量的性能,使用了WHAMR语料库[19]16 kHz采样频率下的混响单扬声器和噪声测试集。我们转向这个数据集是因为一些客观的测量需要一个适当延迟但干净的参考信号来进行正确的计算。由于DNS质询测试集中没有提供这些信号,我们使用了WHAMR数据集,该数据集具有干净的非混响语音文件,说明了脉冲响应的延迟。所使用的WHAMR测试集由3000种混合物组成。语音文件取自经常用于说话人分离的WSJ0混合语料库[28]。语音文件与RT60范围为1001000ms的房间脉冲响应进行卷积,RT60用热声学模拟[29]。噪音包括咖啡店、餐馆、酒吧、办公楼和公园等真实情况的录音。相对于语音,SNR的范围从-36 dB

模型配置和训练设置

本文1中的DTLN在其四个LSTM层中的每一层中具有128个单元。帧大小为32ms,移位为8msFFT大小为512,等于帧长度。用于创建学习特征表示的1D Conv层具有256个滤波器。在训练期间,25%的脱落应用于LSTM层之间。Adam优化器的学习率为10e-3,梯度范数裁剪为3。如果验证集的损失连续三个时期没有改善,则学习率减半。如果验证集的损失在十个时期内没有减少,则应用提前停止。该模型在32的批量上进行训练,每个样本的长度为15秒。在Nvidia RTX 2080 TI上一个训练时期的平均时间约为21分钟。使用尺度敏感负SNR[20]作为训练目标。与尺度不变信噪比(SI-SNR[11]相比,它应该避免输入混合和预测的干净语音之间可能的电平偏移,这在实时处理系统中是可取的。此外,由于它在时域中操作,因此可以隐含地考虑相位信息。相反,作为训练目标的语音信号的估计和干净幅度STFT之间的均方误差不能在优化过程中使用任何相位信息

结果

客观评价的结果如表2所示,主观评价的结果见表3。结果如下所述:非混响DNS挑战测试集的客观结果:在非混响条件下,所有模型都比噪声条件有所改善。NSNet的表现优于DTLN和所有其他基线。在500小时的数据上训练的所有模型都产生了类似的结果。DTLN网络在PESQSI-SDRSTOI方面达到了最好的结果。B3DTLN获得的高值表明了堆叠模型的强度。尽管B4也是一个堆叠模型,但它的性能要差得多,这在第4节中进行了讨论。混响DNS挑战测试集的客观结果:在这种情况下,结果不如在非混响条件下清楚。就PESQ而言,只有B4显示出比噪声条件略有改善。对于SI-SDR,所有模型都显示出改进,而STOI预测原始噪声条件的最高质量。侵入性或双端措施的一个问题是,它们需要参考信号,在这种情况下,参考信号是混响干净的语音。有了这个参考信号,任何语音增强模型的潜在去混响效应都会导致客观测量的减少,这可能是这些结果的一个重要因素。WHAMR测试集的客观结果:所有方法都显示出对噪声条件的改善,DTLN方法获得了最佳分数。B3再次达到了类似的性能水平。基线显示,所有客观指标都略有改善。应该提到的是,该语料库中使用的混合物在0左右具有较小的SNR范围,因此对模型来说是一个更具挑战性的条件。DNS挑战测试集的主观结果:已知非混响测试集的客观结果与主观结果一致。对于混响测试集客观评估显示,相对于噪声条件和基线,DTLN有明显的益处。除SI-SDR外,客观测量没有反映出这种影响,SI-SDR显示出比基线和噪声条件有所改善。在主观数据中也观察到在混响条件下由PESQSTOI预测的NSNet的质量下降。对于已知条件和盲条件,都获得了与真实记录一致的结果。

image.png



image.png













Copyright © 2002-2024 银熠电子科技有限公司 版权所有  备案号:  
地址:广东省中山市坦洲镇坦神南路  邮箱:244392052@qq.com  电话:13528181690