• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

单声道语音降噪与去混响研究综述

蓝天, 彭川, 李森, 叶文政, 李萌, 惠国强, 吕忆蓝, 钱宇欣, 刘峤

蓝天, 彭川, 李森, 叶文政, 李萌, 惠国强, 吕忆蓝, 钱宇欣, 刘峤. 单声道语音降噪与去混响研究综述[J]. 计算机研究与发展, 2020, 57(5): 928-953. DOI: 10.7544/issn1000-1239.2020.20190306
引用本文: 蓝天, 彭川, 李森, 叶文政, 李萌, 惠国强, 吕忆蓝, 钱宇欣, 刘峤. 单声道语音降噪与去混响研究综述[J]. 计算机研究与发展, 2020, 57(5): 928-953. DOI: 10.7544/issn1000-1239.2020.20190306
Lan Tian, Peng Chuan, Li Sen, Ye Wenzheng, Li Meng, Hui Guoqiang, Lü Yilan, Qian Yuxin, Liu Qiao. An Overview of Monaural Speech Denoising and Dereverberation Research[J]. Journal of Computer Research and Development, 2020, 57(5): 928-953. DOI: 10.7544/issn1000-1239.2020.20190306
Citation: Lan Tian, Peng Chuan, Li Sen, Ye Wenzheng, Li Meng, Hui Guoqiang, Lü Yilan, Qian Yuxin, Liu Qiao. An Overview of Monaural Speech Denoising and Dereverberation Research[J]. Journal of Computer Research and Development, 2020, 57(5): 928-953. DOI: 10.7544/issn1000-1239.2020.20190306
蓝天, 彭川, 李森, 叶文政, 李萌, 惠国强, 吕忆蓝, 钱宇欣, 刘峤. 单声道语音降噪与去混响研究综述[J]. 计算机研究与发展, 2020, 57(5): 928-953. CSTR: 32373.14.issn1000-1239.2020.20190306
引用本文: 蓝天, 彭川, 李森, 叶文政, 李萌, 惠国强, 吕忆蓝, 钱宇欣, 刘峤. 单声道语音降噪与去混响研究综述[J]. 计算机研究与发展, 2020, 57(5): 928-953. CSTR: 32373.14.issn1000-1239.2020.20190306
Lan Tian, Peng Chuan, Li Sen, Ye Wenzheng, Li Meng, Hui Guoqiang, Lü Yilan, Qian Yuxin, Liu Qiao. An Overview of Monaural Speech Denoising and Dereverberation Research[J]. Journal of Computer Research and Development, 2020, 57(5): 928-953. CSTR: 32373.14.issn1000-1239.2020.20190306
Citation: Lan Tian, Peng Chuan, Li Sen, Ye Wenzheng, Li Meng, Hui Guoqiang, Lü Yilan, Qian Yuxin, Liu Qiao. An Overview of Monaural Speech Denoising and Dereverberation Research[J]. Journal of Computer Research and Development, 2020, 57(5): 928-953. CSTR: 32373.14.issn1000-1239.2020.20190306

单声道语音降噪与去混响研究综述

基金项目: 国家自然科学基金项目(U19B2028,61772117);提升政府治理能力大数据应用技术国家工程实验室开放基金项目(10-2018039);四川省科技服务业示范项目(2018GFW0150);中央高校基本科研业务费专项资金(ZYGX2019J077)
详细信息
  • 中图分类号: TP391.4; TN912.3

An Overview of Monaural Speech Denoising and Dereverberation Research

Funds: This work was supported by the National Natural Science Foundation of China (U19B2028, 61772117); the Big Data Application on Improving Government Governance Capabilities National Engineering Laboratory Open Fund Project (10-2018039), the Sichuan Hi-Tech Industrialization Program (2018GFW0150), and the Fundamental Research Funds for the Central Universities (ZYGX2019J077).
  • 摘要: 语音增强是提高语音质量与可懂度的关键技术,在语音识别、语音通话、电话会议和听力辅助等领域具有广泛应用前景与重要研究价值.从模型方法、数据集、特征、评估指标等方面,对单声道语音增强研究工作的发展现状进行了全面调研和深入分析.1)对传统的与基于机器学习的单声道语音降噪以及语音去混响的已有研究工作进行了梳理分类,简要介绍了典型方法的研究思路,并对不同方法的实验结果进行了综合比较;2)对在实验与结果评估过程中所涉及到的常用数据集、常见特征、学习目标与评估指标等进行了整理与介绍;3)对目前单声道语音增强仍然面临的主要问题与挑战进行了总结.
    Abstract: Speech enhancement refers to the use of audio signal processing techniques and various algorithms to improve the intelligibility and quality of the distorted speech signals. It has great research value and a wide range of applications including speech recognition, VoIP, tele-conference and hearing aids. Most early work utilized unsupervised digital signal analysis methods to decompose the speech signal to obtain the characteristics of the clean speech and the noise. With the development of machine learning, some supervised methods which aim to learn the relationship between noisy and clean speech signals were proposed. In particular, the introduction of deep learning has greatly improved the performance. In order to help beginners and related researchers to understand the current research status of this topic, this paper conducts a comprehensive survey of the development process of the monaural speech enhancement, and systematically summarizes from the aspect of model methods, datasets, features, evaluation metrics, etc. First, we divide speech enhancement into noise reduction and de-reverberation, then respectively sort out the existing work of traditional and machine-learning-based methods in these two directions. Moreover, we briefly introduce the main ideas of typical solutions, and compare the performance of different methods. Then, commonly used datasets, features, learning objectives and evaluation metrics in experiments are enumerated and illustrated. Finally, four major challenges and corresponding issues in this area are summarized.
  • 期刊类型引用(18)

    1. 董胡,陈伟,彭高丰,陈耀东,刘刚. 基于信号子空间和DNN的语音增强方法. 微型电脑应用. 2025(01): 32-34+38 . 百度学术
    2. 王向辉,李梅,田旭华,王姣,谭歆,路东东. 短时傅里叶变换域最优非因果滤波器和滤波矩阵降噪算法. 陕西科技大学学报. 2024(02): 164-173+197 . 百度学术
    3. 尤昕源,王恒. 基于门控膨胀卷积循环网络的单声道语音增强. 计算机应用. 2024(04): 1317-1324 . 百度学术
    4. 莫尚斌,王文君,董凌,高盛祥,余正涛. 基于多路信息聚合协同解码的单通道语音增强. 计算机应用. 2024(08): 2611-2617 . 百度学术
    5. 缪悦. 时频域变换技术在语音降噪中的应用. 电声技术. 2024(12): 92-94+100 . 百度学术
    6. 李鑫元,黄鹤鸣. 基于并行卷积循环网络的单通道语音增强系统. 计算机工程与设计. 2023(04): 1181-1188 . 百度学术
    7. 文丽萍. 噪声环境下基于小波变换的普通话智能测试系统设计. 自动化与仪器仪表. 2023(05): 153-157 . 百度学术
    8. 刘汾港,马建芬,张朝霞. 基于离散余弦变换与Transformer的语音增强. 计算机工程与设计. 2023(06): 1893-1898 . 百度学术
    9. 徐浩森,姜囡,齐志坤. 基于注意力机制的卷积循环网络语音降噪. 科学技术与工程. 2022(05): 1950-1957 . 百度学术
    10. 李小平,白超. 一种基于多模态信息融合的火车司机疲劳驾驶检测方法. 铁道学报. 2022(06): 56-65 . 百度学术
    11. 胡勉宁,李欣,李明锋,孙海春. 面向诈骗短信息识别的融合多策略数据增强技术研究. 信息网络安全. 2022(10): 121-128 . 百度学术
    12. 孙立辉,曹丽静,张竟雄. 基于升降编解码全卷积神经网络语音增强技术. 智能计算机与应用. 2021(02): 19-22 . 百度学术
    13. 刘元,匡文凯,苏盛,李彬. 基于双通道能量差的环网柜局放信号消噪方法. 仪器仪表学报. 2021(02): 218-227 . 百度学术
    14. 台文鑫,王钇翔,李森,蓝天,刘峤. 基于动态选择机制的低信噪比单声道语音增强算法. 计算机应用研究. 2021(09): 2604-2608 . 百度学术
    15. 祁晓,赵连玉. 基于多频带谱减法的老年人语音增强算法的研究. 电声技术. 2020(05): 34-37 . 百度学术
    16. 梁力,莫晓毅,柯华强. 基于语音识别技术的测试平台研究. 科技视界. 2020(31): 17-18 . 百度学术
    17. 曹洁,周尧风,于泓,李晓旭. 基于SI-SDR优化的生成对抗网络语音增强方法. 华中科技大学学报(自然科学版). 2020(11): 17-23 . 百度学术
    18. 许春冬,徐琅,周滨,凌贤鹏. 单通道语音增强技术的研究现状与发展趋势. 江西理工大学学报. 2020(05): 55-64 . 百度学术

    其他类型引用(43)

计量
  • 文章访问数:  2144
  • HTML全文浏览量:  6
  • PDF下载量:  1395
  • 被引次数: 61
出版历程
  • 发布日期:  2020-04-30

目录

    /

    返回文章
    返回