-
摘要:
含噪条件下的语音增强技术是语音信号领域的重要研究方向之一,该技术对于提升语音视频通话的质量、提高人机交互和语音识别的性能具有重要作用. 为此,提出了基于扩张卷积和密集连接的语音增强网络结构,通过学习语音时频谱的频率、时间轴的上下文信息,有效提高了网络的特征表达能力. 具体来说,所提结构将扩张卷积融入到时间、频率处理的基础单元中,以确保在频率方向和时间方向上均可获得足够大的感受野,提取出深层语音特征;同时,密集连接被应用到这2个基础单元的级联结构中,由此可避免多处理模块级联带来的信息丢失,从而增强特征利用效率. 实验结果表明所提出的语音增强网络在语音质量客观评估(perceptual evaluation of speech quality,PESQ)和短时客观可懂度(short-time objective intelligibility,STOI)以及各类主观平均意见方面的总体评分,相比于现有的各类语音增强模型,均居于领先水平. 此外,所提网络对各种含噪条件的泛化能力也在实验中得以评估.
Abstract:Speech enhancement in noisy circumstances is one of the important research directions of speech signal processing, which plays an important role in improving the quality of voice video call and enhancing the performance of human-computer interaction and speech recognition. Therefore, we propose a network based on the dilated convolution and the dense connection, which effectively improves the feature expression ability of the network by learning the context information of frequency and time directions of speech spectrogram. Specifically, the proposed structure integrates dilated convolution into the basic unit of time and frequency processing, which can ensure that a large enough receptive field can be obtained in the frequency direction and time direction to extract deep speech features; at the same time, the dense connection is applied to the cascade structure of these two basic units, which can avoid the loss of information caused by the cascade of multiple processing modules, so as to enhance the efficiency of feature utilization. Experimental results show that the proposed speech enhancement network can achieve high scores in PESQ, STOI and a series of subjective mean opinions, showing overall superiority over the existing speech enhancement networks. Besides, the generalization ability to varieties of noisy conditions is also evaluated in these experiments.
-
Keywords:
- speech enhancement /
- dilated convolution /
- dense connection /
- deep learning /
- context information
-
语音增强是语音信号处理的重要组成部分,它旨在最大限度地去除背景噪声,提高语音信号质量和可懂度. 在过去几十年中,传统的语音增强技术,例如,维纳滤波法[1]、谱减法[2]、基于子空间的方法[3]等受到了研究者们的青睐,但是这些技术在处理复杂环境下的语音信号时其效果往往不尽人意.
近年来,基于深度神经网络(deep neural network, DNN)的语音增强方法已被证实可获得比传统语音增强方法更高的性能[4-6]. 具体而言,该类方法的实质在于通过优化途径获得去噪后语音的短时傅里叶变换(short-time Fourier transform, STFT)幅度谱,并将之与原带噪语音的相位谱结合构造出完整的时频谱,再进行逆短时傅里叶变换(inverse short-time Fourier transform, ISTFT),即可生成增强后的语音信号. 其中幅度谱优化可分为2类途径:一类是间接方法,其致力于估计对带噪语音的STFT幅度谱进行掩蔽操作的时频模板,如理想二值模板(ideal binary mask,IBM)[7]、理想比值模板(ideal ratio mask,IRM)[8]等;另一类是直接映射方法,借助网络优化直接求取去噪后的语音STFT幅度谱. 研究表明,间接方法比直接映射方法可在语音增强上获得更好的性能[9],故本文采用间接方法中的IRM作为训练目标.
近年来,卷积神经网络(convolutional neural network, CNN)被广泛应用于语音增强中[10-12]. 文献[10]提出了第1个全卷积语音增强网络,该网络证明了CNN可在消耗比DNN更少参数的情况下,获得比DNN更优越的性能.
但需要指出,DNN和CNN存在共同的缺陷,即无法捕获语音信号的相邻连续时间帧之间的长依赖关系,这使其性能受到限制. 为解决这一问题,研究者们在这些方法中融入了循环神经网络(recurrent neural network, RNN)、长短时记忆(long short-term memory, LSTM)网络,并取得了相应的性能提升. 例如,文献[13]中提出基于RNN的深度循环神经网络(deep recurrent neural network, DRNN),实验结果表明DRNN的性能优于DNN. 另外,文献[14]通过在编码器和解码器之间插入了双向长短时记忆(bidirectional long short-term memory, Bi-LSTM)网络,证明了获取相邻连续时间帧之间的长依赖关系可提升语音增强的性能,但代价是消耗更多网络参数.
为在不增加网络参数量的同时又可以有效捕获输入序列的长依赖关系,研究者们将时域卷积网络(temporal convolutional network, TCN)引入到语音增强中[15-18]. 文献[19]指出:由于TCN由扩张卷积构成,拥有更大的感受野,从而可在不额外增加参数量的同时,获得比LSTM更长的长期有效记忆能力. 然而,以上基于TCN的工作的缺陷在于,随着网络层数的增加,梯度消失问题变得突出,使得网络收敛速度变缓.
为解决梯度消失问题和进一步提升语音增强质量,本文将扩张卷积和密集连接网络(densely connected convolutional network, DenseNet)[20]相结合,提出频率-时间扩张密集网络(frequency-time dilated dense network, FTDDN). 其特色在于:
1) 在学习上下文信息方面,除了时间方向,扩张卷积同时被应用在频率方向. 通过所构造的时间扩张卷积单元(time dilated convolution unit, TDCU)和频率扩张卷积单元(frequency dilated convolution unit, FDCU),本文所提网络在时频域内均可获得较大的感受野,从而能有效提取出深层语音特征,达到提升语音增强性能的目的.
2) 在网络效率方面,本文中各级TDCU和FDCU所提取的特征以密集连接的方式传递,不仅可缓解梯度消失问题,而且可避免经典信息论所指出的因级联信息处理模块数目增加而导致的信息丢失问题[21].
1. 语音增强问题描述
假设含噪离散语音{{\boldsymbol{x}}}(k)表示为
{{\boldsymbol{x}}}(k) = {{\boldsymbol{s}}}(k) + {{\boldsymbol{n}}}(k) , (1) 其中k表示时间索引,{{\boldsymbol{s}}}(k)和{{\boldsymbol{n}}}(k)分别表示干净语音和加性噪声. 为实现语音增强从含噪语音{{\boldsymbol{x}}}(k)中恢复出干净的语音估计\hat {{\boldsymbol{s}}}(k)的目的,需将{{\boldsymbol{x}}}(k)进行STFT,得到时频表示:
{{\boldsymbol{X}}}(t,f) = {{\boldsymbol{S}}}(t,f) + {{\boldsymbol{N}}}(t,f) , (2) 其中
\begin{gathered} {{\boldsymbol{X}}}(t,f) = \left| {{{\boldsymbol{X}}}(t,f)} \right|{{\rm{e}}^{j{{{\boldsymbol{\varPhi}} }_{{\boldsymbol{X}}}}\left( {t,f} \right)}}, \\ {{\boldsymbol{S}}}(t,f) = \left| {{{\boldsymbol{S}}}(t,f)} \right|{{\rm{e}}^{j{{{\boldsymbol{\varPhi}} }_{{\boldsymbol{S}}}}\left( {t,f} \right)}}, \\ {{\boldsymbol{N}}}(t,f) = \left| {{{\boldsymbol{N}}}(t,f)} \right|{{\rm{e}}^{j{{{\boldsymbol{\varPhi}} }_{{\boldsymbol{N}}}}\left( {t,f} \right)}}, \\ \end{gathered} (3) 其中 t \in \left[ {0,T - 1} \right],f \in \left[ {0,F - 1} \right] ,T和F分别是时间帧和观测频率的数量(为简化起见,后文将省略以上各时频表示的自变量 t 和 f ). 随后将此时频表示的幅度谱\left| {{\boldsymbol{X}}} \right|作为语音特征输入到神经网络. 经过神经网络的优化,得到时频掩蔽{{\boldsymbol{M}}},并将此掩蔽{{\boldsymbol{M}}}与\left| {{\boldsymbol{X}}} \right|相乘,得到增强后的语音幅度谱\left| {\hat {{\boldsymbol{S}}}} \right|,最后通过对\left| {\hat {{\boldsymbol{S}}}} \right|和含噪语音的相位谱{{{\boldsymbol{\varPhi }}}_{\boldsymbol{X}}}进行ISTFT得到增强后的语音\hat {{\boldsymbol{s}}}(k). 以上过程可用式(4)描述:
\begin{gathered} \left| {\hat {{\boldsymbol{S}}}} \right| = {{\boldsymbol{M}}} \odot \left| {{\boldsymbol{X}}} \right|, \\ \hat {{\boldsymbol{s}}}(k) = \Re \left(\left| {\hat {{\boldsymbol{S}}}} \right|,{{{\boldsymbol{\varPhi}} }_{{\boldsymbol{X}}}}\right), \\ \end{gathered} (4) 其中 \Re 表示ISTFT, \odot 表示矩阵对应元素相乘.
2. 网络结构设计
2.1 融合扩张卷积与密集连接的模块设计
为能够充分捕获语音时频谱在频率、时间方向上的上下文信息,同时解决随着网络深度增加带来的信息丢失问题,本文将扩张卷积与密集连接结构相结合,分别设计了频率扩张密集模块(frequency dilated dense module, FDDM)和时间扩张密集模块(time dilated dense module, TDDM).
FDDM的结构如图1所示(图中表示卷积层的方框内第1行数字依次表示扩张因子、卷积核大小和卷积核数量),其由{\text{6}}个FDCU卷积单元以密集连接的方式组成,其中每个FDCU都包括2层2D卷积层,且每个卷积层之后都连接了1层归一化层(batch normalization, BN)和1个修正线性单元(rectified linear unit, ReLU). 但第1个卷积层使用普通2D卷积,用以减少通道数;而第2个卷积层使用频率扩张2D卷积,其只在频率方向使用扩张因子以增大卷积核尺寸,由此增大感受野来捕获频率方向的上下文信息.
FDDM结构特色在于引入了密集连接结构:表现为每一级FDCU的输入都是整个FDDM的输入与其前面各级FDCU输出的汇集,从而各级FDCU的输入依次为16i \times 257 \times T,i = 1,2, … ,6. 为保证在频率方向获得足够大的感受野,需逐级增大FDCU的扩张因子{d_i},将其依次设定为{2^{i - 1}},i = 1,2, … ,6.
TDDM则借鉴了TCN[19]的设计结构,并采用了与FDDM类似的框架结构,如图2所示:同样由6个TDCU卷积块以密集连接的方式组成,每个TDCU都包括3部分,其中前2部分的结构为1D卷积层、归一化层、带参数的线性修正单元(parametric rectified linear unit, PReLU),第3部分只有1层单独的1D卷积层. 第1部分采用普通1D卷积,用以减少通道数;第2部分使用时间扩张卷积,用以学习时间方向的上下文信息;第3部分的单独卷积层则在输出时恢复整个TDCU的通道.
与FDDM同理,TDDM也融入了密集连接结构,表现为每一级TDCU的输入都是整个TDDM的输入与其前面各级TDCU输出的汇集,从而各级TDCU的输入为128i \times T,i = 1,2, … ,6,且其扩张因子{d_i}设定为{2^{i - 1}},i = 1,2, … ,6.
从深层次意义上讲,正是因为图1所示的FDDM和图2所示的TDDM的各层级联的FDCU和TDCU的入口采用了密集连接,才避免了经典信息论所述及的“多处理模块级联会引起信息丢失”的现象(即信息不增性原理)[21],从而保证了特征重用,并促进信息流的传递.
2.2 总体频率-时间扩张密集网络的设计
综合以上拥有较大感受野的FDDM和TDDM的基本模块设计,本文提出频率-时间扩张密集网络FTDDN.
图3展示了本文所提出的网络的框架结构,其输入时频幅度谱 \left| {{\boldsymbol{X}}} \right| 首先通过2层2D卷积层. 第1个卷积层用于增加输入特征的通道数;第2个卷积层用于学习局部信息,并将其输出反馈给FDDM,以捕获频率方向的上下文信息和学习时间方向的局部信息.图3中表示卷积层的方框内的第1行数字表示卷积核大小和卷积核数量.
FDDM之后连接了2层2D卷积层和1层1D卷积层,其共同的作用是实现维度转换以及减少通道数,使FDDM的输出的维度转换为128 \times T,并反馈至TDDM中以学习时间方向的上下文信息.
经TDDM处理后,其输出会送到3个卷积单元中,前2个卷积单元由1D卷积层、归一化层和PReLU激活函数组成,用以聚合FDDM和TDDM学习到的频率、时间方向上的上下文信息,后1个卷积单元由1D卷积层和Sigmoid激活函数组成,其将网络估计到的时频掩蔽模板 {{\boldsymbol{M}}} 的维度恢复到257 \times T并将其值限制在[0, 1]区间内.
2.3 损失函数
图3总体网络采用了文献[22]中提出的噪声感知多任务损失函数,即加权平均绝对误差(weighted mean absolute error, WMAE),其定义为:
\begin{split} {{WMAE}} = a \times \frac{1}{{T\times F}}\sum\limits_{t = 0}^{T - 1} {\sum\limits_{f = 0}^{F - 1} {| {| {\hat {{\boldsymbol{S}}}(t,f)} | - | {{{\boldsymbol{S}}}(t,f)} |} |} } + \\ (1 - a) \times \frac{1}{{T\times F}}\sum\limits_{t = 0}^{T - 1} {\sum\limits_{f = 0}^{F - 1} {| {| {\hat {{\boldsymbol{N}}}(t,f)} t| - | {{{\boldsymbol{N}}}(t,f)}|} |} } , \\[-10pt] \end{split} (5) 其中| {\hat {{\boldsymbol{N}}}(t,f)} | = | {{{\boldsymbol{X}}}(t,f)} | - | {\hat {{\boldsymbol{S}}}(t,f)} |表示噪声的幅度谱估计,而a则为干净语音和噪声之间的能量比值,即
a = \dfrac{{\displaystyle\sum\limits_{t = 0}^{T - 1} {\displaystyle\sum\limits_{f = 0}^{F - 1} {{{\left| {{{\boldsymbol{S}}}(t,f)} \right|}^2}} } }}{{\displaystyle\sum\limits_{t = 0}^{T - 1} {\displaystyle\sum\limits_{f = 0}^{F - 1} {{{\left| {{{\boldsymbol{S}}}(t,f)} \right|}^2}} } + \displaystyle\sum\limits_{t = 0}^{T - 1} {\displaystyle\sum\limits_{f = 0}^{F - 1} {{{\left| {{{\boldsymbol{N}}}(t,f)} \right|}^2}} } }} . (6) 3. 实验设置
3.1 数据集及评价指标
实验数据集之一采用开源的VCTK语料库[23],其训练集包括28位说话人(14位女性和14位男性),测试集则包括另外2位不同的说话人(1位女性和1位男性). 为创建含噪语音数据集,文献[23]的作者以4种信噪比(signal-noise ratio, SNR)(15 dB,10 dB,5 dB,0 dB)向干净语音训练集添加了10种常见环境噪声和人工制造的噪声[23],从而生成包含有11572个语音的含噪语音训练集;以另外4种SNR(17.5 dB,12.5 dB,7.5 dB,2.5 dB)向干净语音测试集中添加了5种常见环境噪声[23],从而生成包含有824个语音的含噪语音测试集. 为测试网络的泛化能力,测试集与训练集中所使用的噪声均不相同. 因测试集中使用的说话人和噪声类型均与训练集不同,故也将其用作验证集以优化模型参数. 为降低计算复杂度,本文将该语料库的信号采样率由48 kHz降为16 kHz.
实验数据集之二采用LibriSpeech语料库[24]的干净语音,其采样率为16 kHz,而噪声来源取自DEMAND噪声库[25]和DNS Challenge中的噪声集[26]. 为了构造实验所用数据集,在训练阶段,本文分别从LibriSpeech干净语音训练集和干净语音验证集中随机选取13976句语音和871句语音,并采用随机选择的方式,将DEMAND噪声库中的1000种噪声以10种SNR(−7.5 dB,−6.5 dB,−4 dB,−3 dB,−1 dB,1 dB,3 dB,7 dB,−9 dB,11 dB)与这些干净语音混合,以生成含噪语音训练集和含噪语音验证集. 在测试阶段,本文从LibriSpeech干净语音测试集中随机选取740句语音,并以4种SNR(−5 dB,0 dB,5 dB,10 dB)向干净语音添加4种噪声(DEMAND噪声库:Cafter噪声、Kitchen噪声、Meeting噪声、Office噪声),生成含噪语音测试集. 为测试网络的泛化能力,该数据集中,测试集、验证集与训练集中的噪声不同:有水流声、汽车声等.
本文使用业内普遍接受的语音质量客观评估(perceptual evaluation of speech quality,PESQ)[27]和短时客观可懂度(short-time objective intelligibility,STOI)[28],以及主观平均意见分数——信号失真的复合测度 (CSIG)、噪声失真的复合测度 (CBAK)和语音整体质量的复合测度 (COVL),作为实验结果的评价指标[29].
3.2 网络参数设置
本文所提出的FTDDN网络的主要参数设置为:使用汉宁(Hanning)窗作为STFT的时间窗,窗长为32 ms(帧长点数为512),帧移为16 ms(即50%重叠),由于实信号傅里叶变换具有共轭对称性,故图3输入STFT幅度谱特征的尺寸为257 \times T(T取决于各条语音的长度).
在每次训练实验中,本文将设每批处理语音的条数BatchSize=4,在每批处理中,通过补零的方式使各句语音与该Batch中最长语音长度保持一致,对于超出4 s的语音,则只取前4 s参与训练. 实验选用Adam优化器,并以学习率0.0002训练网络100次.
4. 对比实验及结果分析
实验主要包括2方面:1) 开展消融实验,以探究FDDM,TDDM内部的密集连接结构及卷积块FDCU和TDCU的数量R对本文所提模型的语音增强性能的影响;2) 分别针对3.1节所提的2个数据集,将本文所提模型与现有的语音增强网络做性能对比.
4.1 消融实验
为探究卷积块FDCU和TDCU的数量R和模块FDDM及TDDM中的密集连接结构对语音增强网络性能的影响,本文基于VCTK语料库[23]进行了消融实验. 为了简洁,消融实验结果仅使用PESQ和STOI作为客观评价指标.
图4展示了在FDDM和TDDM均存在密集连接结构的情况下,不同的卷积块数量R对网络性能的影响.
从图4可看出,随着R的增大,网络性能逐渐提高至最高点后又开始逐渐下降. 具体而言,当R从2增加到4时,PESQ和STOI分别从2.89增加到2.95和从0.9388增加到0.9442;当R从4增加到6时,PESQ和STOI虽然也呈现一定程度的增加,但增速变缓,这是由于随着R的增加,网络深度增加,感受野也随之增加,使得网络学习到的上下文信息更丰富,最终提高了网络性能; 而当R从6继续增大时,可看到PESQ变化趋势平缓、STOI开始下降,这是因为当R继续增加时,网络深度也会加深,这导致信息丢失问题加剧,而密集连接结构的信息补充作用又无法完全解决这一问题,进而导致了网络性能退化.
表1列出了在R = 6的情况下去除TDDM和FDDM中的密集连接结构后网络的性能变化. 可发现:当分别去除TDDM和FDDM中的密集连接时,PESQ从3.02分别下降到了2.83和2.97,STOI从0.9451分别下降到了0.9409和0.9447,这反映了密集连接结构的有效性,证实了该结构可通过信息补充加强特征传递和特征重用,达到增强网络性能的效果. 从表1的PESQ和STOI的下降比例可看出,相比较而言,消融TDDM比消融FDDM影响更大,这是因为时间方向的上下文信息比频率方向的上下文信息更加丰富,从而间接证明了时间信息融合在提高网络性能方面更重要,但频率信息也不可忽略.
表 1 密集连接对网络性能的影响Table 1. Influence of Dense Connection on Network Performance方法 评价指标 PESQ STOI 无密集连接TDDM 2.83(↓6.29%) 0.9409(↓0.48%) 无密集连接FDDM 2.97(↓1.66%) 0.9447(↓0.04%) FTDDN 3.02 0.9451 注:(↓*)表示该方法的得分相比于FTDDN的得分的下降比例. 4.2 对比实验1
针对LibriSpeech语料库[24]在不同噪声和信噪比的情况下,将本文网络与3种已有网络进行性能对比,这3种网络分别是:基于LSTM的语音增强方法、基于卷积循环网络(convolutional recurrent network, CRN)[30]的语音增强方法、基于时间卷积神经网络(temporal convolutional neural network, TCNN)[31]的语音增强方法.
表2和表3分别展示了对本文模型和3种对比模型测评得到的PESQ分数和STOI分数,可以看出:除了5dB Meeting噪声条件下,本文模型的STOI分数略低于CRN以外,在其他情况下,本文模型的PESQ分数和STOI分数均要高于对比模型,这表明本文模型的语音增强性能更优越.
表 2 使用LibriSpeech语料库对FTDDN与基线模型的评测PESQ分数Table 2. Evaluation PESQ Scores of FTDDN and Baseline Models Using LibriSpeech Corpus噪声 SNR/dB 对比模型 Noisy LSTM CRN TCNN FTDDN Cafter −5 1.10 1.08 1.13 1.12 1.16 0 1.14 1.15 1.30 1.24 1.39 5 1.28 1.30 1.58 1.42 1.80 10 1.57 1.50 1.93 1.62 2.33 Kitchen −5 1.07 1.29 1.45 1.35 2.00 0 1.15 1.44 1.77 1.52 2.48 5 1.33 1.61 2.13 1.72 2.94 10 1.66 1.75 2.51 1.91 3.34 Meeting −5 1.07 1.09 1.13 1.11 1.17 0 1.14 1.15 1.26 1.21 1.31 5 1.29 1.26 1.49 1.38 1.60 10 1.60 1.42 1.83 1.60 2.05 Office −5 1.31 1.50 1.81 1.55 2.18 0 1.61 1.62 2.18 1.76 2.63 5 1.99 1.74 2.56 1.93 3.06 10 2.84 1.85 2.89 2.06 3.49 注:加粗的数字表示每一行中最高的PESQ分数. 表 3 使用LibriSpeech语料库对FTDDN与基线模型的评测STOI分数Table 3. Evaluation STOI Scores of FTDDN and Baseline Models Using LibriSpeech Corpus噪声 SNR/dB 对比模型 Noisy LSTM CRN TCNN FTDDN Cafter −5 0.6033 0.5816 0.6614 0.6355 0.6679 0 0.7261 0.7228 0.8044 0.7654 0.8052 5 0.8296 0.8116 0.8884 0.8524 0.8885 10 0.9014 0.8564 0.9337 0.9022 0.9350 Kitchen −5 0.8569 0.8147 0.8921 0.8523 0.9114 0 0.9110 0.8511 0.9328 0.8964 0.9418 5 0.9498 0.8724 0.9581 0.9236 0.9626 10 0.9741 0.8852 0.9734 0.9391 0.9772 Meeting −5 0.6543 0.6374 0.6746 0.6455 0.6890 0 0.7608 0.7295 0.7909 0.7629 0.7937 5 0.8480 0.7999 0.8741 08482 0.8733 10 0.9097 0.8460 0.9252 0.9000 0.9254 Office −5 0.9345 0.8644 0.9396 0.9119 0.9496 0 0.9630 0.8802 0.9606 0.9344 0.9678 5 0.9796 0.8889 0.9729 0.9451 0.9801 10 0.9893 0.8944 0.9805 0.9498 0.9884 注:加粗的数字表示每一行中最高的STOI分数. 观察表2、表3的数据可发现,所有模型在Cafter和Meeting噪声条件下的语音增强性能都低于在Kitchen和Office噪声条件下的语音增强性能,这可归结为不同噪声源的时频谱结构造成的影响. 具体解释如下:如图5所示,Cafter和Meeting噪声中以人声为主,其时频谱结构与干净语音的结构非常相似,故增加了噪声与干净语音的区分难度,导致网络去噪性能下降;而Kitchen和Office噪声结构与干净语音结构相差很大,降低了网络从含噪语音中学习干净语音结构的难度,有助于提升去噪性能.
为直观反映各对比模型与本文模型的语音增强效果,图6展示了这些模型对 5dB Kitchen的含噪语音增强后的结果(其加噪前后的时频谱如图6(a)(b)所示),从中可看出,图6(c)所示的LSTM模型只是轻微地去除了噪声,只能恢复干净语音的大致结构;相比而言,图6(d)所示的CRN模型和图6(e)所示的TCNN模型去噪更显著,但其优势主要体现在低频区,而高频细节较为模糊;而本文提出的FTDDN模型在去除噪声的同时,又最大限度地保留了语音信息,见图6(f). 究其原因,各对比模型仅着重考虑了语音时间方向的上下文信息,而忽略了语音频率方向上下文信息间的联系,而语音的能量大部分聚集在低频部分,这导致模型对语音的高频信息关注度降低,使得增强后的语音高频信息丢失,而本文提出的FTDDN模型给予了语音频率方向和时间方向上下文信息同等关注度,并同时学习了语音时频谱高频信息与低频信息之间的相关性和时间帧之间的依赖关系,最终得以保留完整的语音时频谱信息. 需指出的是,以上实验所使用的测试集中的说话人、噪声种类以及信噪比皆与训练集和验证集中的完全不同. 故表2、表3的实验结果证实了本文模型在数据条件完全不匹配的情况下,仍可实现高性能降噪,证实了本文模型具备较高的泛化能力,可适应不同噪声条件下的复杂环境.
4.3 对比实验2
将本文提出的FTDDN模型与现有的SEGAN[32],Wave-U-Net[33],WaveCRN[34],MetricGAN[35],MB-TCN[17],NAAGN[22]模型进行性能比较. 所有模型都使用VCTK语料库进行实验. 从表4列出的对比结果可以看出,本文提出的FTDDN模型在除STOI以外,所有指标都优于其他对比模型,这是由于SEGAN,Wave-U-Net,WaveCRN这3个网络的输入为时域波形,而本文的FTDDN则以时频幅度谱作为网络的输入,但时频域的信息往往比时域更加丰富、细致,从而使得网络可学习到更丰富的信息,这有利于网络性能的提升;MetricGAN,MB-TCN,NAAGN这3个网络虽然与本文的FTDDN一样,都以时频幅度谱作为网络的输入,但MetricGAN的设计是直接基于评价指标来优化网络,未专注于学习语音信号的细节信息,从而使网络性能受到限制;MB-TCN更多关注于学习语音信号的时间方向的上下文信息,却忽略了频率方向的上下文信息的重要性;NAAGN通过扩张卷积同时学习时间和频率方向的上下文信息,但并没有进行单独学习;而本文通过融合密集连接结构和扩张卷积将学习频率和时间方向的上下文信息分开进行,并在网络末端进行信息整合,故使网络学习到的语音信息更加细致,进而提升网络性能. 特别地,可以发现NAAGN模型的STOI分数略高于本文所提模型,这是由于NAAGN模型相对于本文模型额外引入了注意力门(attention gate, AG)模块,因此可进一步学习到输入样本中的更感兴趣的特征,并对其进行修剪,以保留相关的激活,从而可获得略高的STOI分数.
表 4 使用VCTK语料库对FTDDN与基线模型的性能评测分数Table 4. Performance Evaluation Scores of FTDDN and Baseline Models Using VCTK Corpus模型 评价指标 PESQ STOI CSIG CBAK COVL Noisy 1.97 0.9210 3.34 2.44 2.63 SEGAN 2.16 3.48 2.94 2.80 Wave-U-Net 2.40 3.52 3.24 2.96 WaveCRN 2.64 3.94 3.37 3.29 MetricGAN 2.86 3.99 3.18 3.42 NAAGN 2.90 0.9480 4.13 3.50 3.51 MB-TCN 2.94 0.9364 4.21 3.41 3.59 FTDDN 3.02 0.9451 4.25 3.49 3.63 注:加粗的数字表示每一列中的最高分数. 5. 结 论
为高质量地恢复语音信号,本文设计了频率-时间扩张密集网络(frequency-time dilated dense network, FTDDN),其包括2个最主要的模块:FDDM和TDDM,由于这2个模块均融入了扩张卷积和密集连接结构,因而FTDDN可获得较大的感受野以捕获频率方向和时间方向的上下文信息. 基于LibriSpeech和VCTK语料库与各类现有语音增强网络性能的对比实验表明:本文提出的FTDDN网络的语音增强性能更加优越,可在有效抑制噪声的同时高质量地恢复语音,故在语音识别、文本语音转换、助听器设计、网上会议等应用中有广阔应用前景.
作者贡献声明:黄翔东完善实验方案并修改论文;陈红红提出算法思路,并负责完成实验和撰写论文;甘霖提出指导意见.
-
表 1 密集连接对网络性能的影响
Table 1 Influence of Dense Connection on Network Performance
方法 评价指标 PESQ STOI 无密集连接TDDM 2.83(↓6.29%) 0.9409(↓0.48%) 无密集连接FDDM 2.97(↓1.66%) 0.9447(↓0.04%) FTDDN 3.02 0.9451 注:(↓*)表示该方法的得分相比于FTDDN的得分的下降比例. 表 2 使用LibriSpeech语料库对FTDDN与基线模型的评测PESQ分数
Table 2 Evaluation PESQ Scores of FTDDN and Baseline Models Using LibriSpeech Corpus
噪声 SNR/dB 对比模型 Noisy LSTM CRN TCNN FTDDN Cafter −5 1.10 1.08 1.13 1.12 1.16 0 1.14 1.15 1.30 1.24 1.39 5 1.28 1.30 1.58 1.42 1.80 10 1.57 1.50 1.93 1.62 2.33 Kitchen −5 1.07 1.29 1.45 1.35 2.00 0 1.15 1.44 1.77 1.52 2.48 5 1.33 1.61 2.13 1.72 2.94 10 1.66 1.75 2.51 1.91 3.34 Meeting −5 1.07 1.09 1.13 1.11 1.17 0 1.14 1.15 1.26 1.21 1.31 5 1.29 1.26 1.49 1.38 1.60 10 1.60 1.42 1.83 1.60 2.05 Office −5 1.31 1.50 1.81 1.55 2.18 0 1.61 1.62 2.18 1.76 2.63 5 1.99 1.74 2.56 1.93 3.06 10 2.84 1.85 2.89 2.06 3.49 注:加粗的数字表示每一行中最高的PESQ分数. 表 3 使用LibriSpeech语料库对FTDDN与基线模型的评测STOI分数
Table 3 Evaluation STOI Scores of FTDDN and Baseline Models Using LibriSpeech Corpus
噪声 SNR/dB 对比模型 Noisy LSTM CRN TCNN FTDDN Cafter −5 0.6033 0.5816 0.6614 0.6355 0.6679 0 0.7261 0.7228 0.8044 0.7654 0.8052 5 0.8296 0.8116 0.8884 0.8524 0.8885 10 0.9014 0.8564 0.9337 0.9022 0.9350 Kitchen −5 0.8569 0.8147 0.8921 0.8523 0.9114 0 0.9110 0.8511 0.9328 0.8964 0.9418 5 0.9498 0.8724 0.9581 0.9236 0.9626 10 0.9741 0.8852 0.9734 0.9391 0.9772 Meeting −5 0.6543 0.6374 0.6746 0.6455 0.6890 0 0.7608 0.7295 0.7909 0.7629 0.7937 5 0.8480 0.7999 0.8741 08482 0.8733 10 0.9097 0.8460 0.9252 0.9000 0.9254 Office −5 0.9345 0.8644 0.9396 0.9119 0.9496 0 0.9630 0.8802 0.9606 0.9344 0.9678 5 0.9796 0.8889 0.9729 0.9451 0.9801 10 0.9893 0.8944 0.9805 0.9498 0.9884 注:加粗的数字表示每一行中最高的STOI分数. 表 4 使用VCTK语料库对FTDDN与基线模型的性能评测分数
Table 4 Performance Evaluation Scores of FTDDN and Baseline Models Using VCTK Corpus
模型 评价指标 PESQ STOI CSIG CBAK COVL Noisy 1.97 0.9210 3.34 2.44 2.63 SEGAN 2.16 3.48 2.94 2.80 Wave-U-Net 2.40 3.52 3.24 2.96 WaveCRN 2.64 3.94 3.37 3.29 MetricGAN 2.86 3.99 3.18 3.42 NAAGN 2.90 0.9480 4.13 3.50 3.51 MB-TCN 2.94 0.9364 4.21 3.41 3.59 FTDDN 3.02 0.9451 4.25 3.49 3.63 注:加粗的数字表示每一列中的最高分数. -
[1] Lim J, Oppenheim A. All-pole modeling of degraded speech[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1978, 26(3): 197−210 doi: 10.1109/TASSP.1978.1163086
[2] Boll S. Suppression of acoustic noise in speech using spectral subtraction[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1979, 27(2): 113−120 doi: 10.1109/TASSP.1979.1163209
[3] Ephraim Y, Van Trees H. A signal subspace approach for speech enhancement[J]. IEEE Transactions on Speech and Audio Processing, 1995, 3(4): 251−266 doi: 10.1109/89.397090
[4] 时文华,倪永婧,张雄伟,等. 联合稀疏非负矩阵分解和神经网络的语音增强[J]. 计算机研究与发展,2018,55(11):2430−2438 Shi Wenhua, Ni Yongjing, Zhang Xiongwei, et al. Deep neural network based monaural speech enhancement with sparse non-negative matrix factorization[J]. Journal of Computer Research and Development, 2018, 55(11): 2430−2438 (in Chinese)
[5] Jamal N, Fuad N, Shanta S, et al. Monaural speech enhancement using deep neural network with cross-speech dataset [C]// Proc of the 6th IEEE Int Conf on Signal and Image Processing Applications. Piscataway, NJ: IEEE, 2021: 44−49
[6] Gao Meng, Gao Ying, Pei Feng. DNN-based speech separation with joint improved distortion constraints [C]// Proc of the 14th Int Symp on Computational Intelligence and Design. Piscataway, NJ: IEEE, 2021: 5−8
[7] Wang Deliang. Speech Separation by Humans and Machines [M]. Berlin: Springer, 2005: 181−197
[8] Narayanan A, Wang Deliang. Ideal ratio mask estimation using deep neural networks for robust speech recognition [C]// Proc of the 38th IEEE Int Conf on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013: 7092−7096
[9] Wang Yuxuan, Narayanan A, Wang Deliang. On training targets for supervised speech separation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(12): 1849−1858 doi: 10.1109/TASLP.2014.2352935
[10] Park S R, Lee J. A fully convolutional neural network for speech enhancement [J]. arXiv preprint, arXiv: 1609.07132, 2016
[11] Pandey A, Wang Deliang. Dense CNN with self-attention for time-domain speech enhancement[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 1270−1279 doi: 10.1109/TASLP.2021.3064421
[12] Mamun N, Majumder S, Akter K. A self-supervised convolutional neural network approach for speech enhancement [C/OL]// Proc of the 5th Int Conf on Electrical Engineering and Information Communication Technology. Piscataway, NJ: IEEE, 2021[2020-06-01].https://ieeexplore.ieee.org/abstract/document/9667875
[13] Huang P S, Kim M, Hasegawa-Johnson M, et al. Joint optimization of masks and deep recurrent neural networks for monaural source separation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(12): 2136−2147 doi: 10.1109/TASLP.2015.2468583
[14] Xian Yang, Sun Yang, Wang Wenwu, et al. Multi-scale residual convolutional encoder decoder with bidirectional long short-term memory for single channel speech enhancement [C]// Proc of the 28th European Signal Processing Conf. Piscataway, NJ: IEEE, 2021: 431−435
[15] Lin Ju, Van Wijngaarden A J, Wang K C, et al. Speech enhancement using multi-stage self-attentive temporal convolutional networks[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3440−3450 doi: 10.1109/TASLP.2021.3125143
[16] Li Chao, Jiang Ting, Yu Jiacheng. Single channel speech enhancement based on temporal convolutional network [C]// Proc of the 6th IEEE Int Conf on Signal and Image Processing. Piscataway, NJ: IEEE, 2021: 831−835
[17] Zhang Qiquan, Nicolson A, Wang Mingjiang, et al. Monaural speech enhancement using a multi-branch temporal convolutional network [J]. arXiv preprint, arXiv: 1912.12023, 2020
[18] Zhang Zehua, Zhang Lu, Zhuang Xuyi, et al. FB-MSTCN: A full-band single-channel speech enhancement method based on multi-scale temporal convolutional network [C]// Proc of the 47th IEEE Int Conf on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2022: 9276−9280
[19] Bai Shaojie, Kolter J Z, Koltun V. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling[J]. arXiv preprint, arXiv: 1803.01271, 2018
[20] Huang Gao, Liu Zhuang, Van Der Maaten L, et al. Densely connected convolutional networks [C]// Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 4700−4708
[21] 戴善荣. 信息论与编码基础[M]. 北京: 机械工业出版社, 2005 Dai Shanrong. Fundamentals of Information Theory and Coding[M]. Beijing: China Machine Press, 2005(in Chinese)
[22] Deng Feng, Jiang Tao, Wang Xiaorui, et al. NAAGN: Noise-aware attention-gated network for speech enhancement [C]// Proc of INTERSPEECH 2020. Grenoble, France: ISCA, 2020: 2457−2461
[23] Valentini-Botinhao C, Wang Xin, Takaki S, et al. Investigating RNN based speech enhancement methods for noise-robust text-to-speech [C]// Proc of the 9th ISCA Speech Synthesis Workshop. Grenoble, France: ISCA, 2016: 146−152
[24] Panayotov V , Chen Guoguo, Povey D, et al. Librispeech: An ASR corpus based on public domain audio books [C]// Proc of the 40th IEEE Int Conf on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2015: 5206–5210
[25] Thiemann J, Ito N, Vincent E, et al. The diverse environments multi-channel acoustic noise database (DEMAND): A database of multichannel environmental noise recordings physical characteristics of the microphone array [C/OL]// Proc of Meetings on Acoustics ICA 2013 Montreal. Melville, NY: Acoustical Society of America, 2013[2022-06-01].https://asa.scitation.org/doi/pdf/10.1121/1.4799597
[26] Reddy C K A, Dubey H, Gopal V, et al. ICASSP 2021 deep noise suppression challenge [C]// Proc of the 46th IEEE Int Conf on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2021: 6623−6627
[27] Rix A W, Beerends J. G, Hollier M P, et al. Perceptual evaluation of speech quality (PESQ)—A new method for speech quality assessment of telephone networks and codecs [C]// Proc of the 26th IEEE Int Conf on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 2001: 749−752
[28] Taal C H, Hendriks R C, Heusdens R, et al. An algorithm for intelligibility prediction of time–frequency weighted noisy speech[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(7): 2125−2136 doi: 10.1109/TASL.2011.2114881
[29] Hu Yi, Loizou P C. Evaluation of objective quality measures for speech enhancement[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2008, 16(1): 229−238 doi: 10.1109/TASL.2007.911054
[30] Tan Ke, Wang Deliang. A convolutional recurrent neural network for real-time speech enhancement [C]// Proc of INTERSPEECH 2018. Grenoble, France: ISCA, 2018: 3229−3233
[31] Pandey A, Wang Deliang. TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain [C]// Proc of the 44th IEEE Int Conf on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2019: 6875−6879
[32] Pascual S, Bonafonte A, Serra J. SEGAN: Speech enhancement generative adversarial network [C]// Proc of INTERSPEECH 2017. Grenoble, France: ISCA, 2017: 3642−3646
[33] Macartney C, Weyde T. Improved speech enhancement with the Wave-U-Net [J]. arXiv preprint, arXiv: 1811.11307, 2018
[34] Hsieh T A, Wang H M, Lu Xugang, et al. WaveCRN: An efficient convolutional recurrent neural network for end-to-end speech enhancement[J]. IEEE Signal Processing Letters, 2020, 27: 2149−2153 doi: 10.1109/LSP.2020.3040693
[35] Fu S W, Liao C F, Tsao Y, et al. MetricGAN: Generative adversarial networks based black-box metric scores optimization for speech enhancement [C/OL]// Proc of the 36th Int Conf on Machine Learning (PMLR). 2019: 2031−2041. [2022-06-01]. http://proceedings.mlr.press/v97/fu19b/fu19b.pdf
-
期刊类型引用(1)
1. 李静莹. 基于模糊理论和卷积神经网络的翻译机器人交互语音降噪方法研究. 自动化与仪器仪表. 2025(01): 286-289+294 . 百度学术
其他类型引用(1)