Global and Temporal-Frequency Attention Based Network in Audio Deepfake Detection
-
摘要: 语音伪造检测是近年的一个研究热点,受到了广泛关注.目前,卷积神经网及其变种的提出,使其在语音伪造检测任务中取得了不错进展.然而,目前仍存在2方面问题:1)当前工作假设送入卷积神经网络的特征图的每一维对结果的影响是相同的,忽视了每一维上特征图的不同位置强调的信息是不一样的.2)此外,前人工作大多关注特征图的局部信息,没有利用全局视图中特征图之间的关系.为了解决以上挑战,引入全局-时频注意力框架,分别对通道维度和时频维度做了注意力变换.具体而言,引入了2个并行的注意力模块:1)时频注意力模块;2)全局注意力模块.对于时频注意力模块,可以通过使用加权求和在所有时频特征图上聚合特征来进行更新.对于全局注意力模块,借鉴了SE-Net的思想,通过参数为每个特征通道生成权重.通过这种办法,可以得到特征通道上响应的全局分布.在ASVspoof2019 LA公开数据集上进行了一系列实验,结果显示所提的模型取得不错的效果,最佳模型的等错误率达到4.12%,刷新了单个模型的最好成绩.Abstract: Audio deepfake detection is a hot topic in recent years and has been widely concerned. At present, convolutional neural networks and their variants have made good progress in the task of audio deepfake detection. However, there are still two problems: 1) The assumption of current work is that each aspect of the feature map fed into the convolutional neural network has the same effect on the result, ignoring that the information emphasized at different locations on each dimensional feature map is different. 2) In addition, the current work focuses on the local information of the feature map, and cannot make use of the relationship between the feature map from the global view. To solve these challenges, we introduce a global and temporal-frequency attention based network that focuses on channel dimensions and temporal-frequency dimensions, respectively. Specifically, we introduced two parallel attention modules. One is the temporal-frequency attention module and the other is the global attention module. For the temporal-frequency attention module, we can update the features by using weighted aggregation on all temporal-frequency feature maps. For the global attention module, we draw on the idea of SE-Net to generate weights for each feature channel by parameters. And by this way, we can get the global distribution of the response on the feature channel. We have carried out a series of experiments on ASVspoof2019 LA open data set, and the results showed that the proposed model achieved good results, and the EER of the best model reached 4.12%, which refreshed the best results of the single model.
-
-
期刊类型引用(18)
1. 徐宁,李静秋,王岚君,刘安安. 时序特性引导下的谣言事件检测方法评测. 南京大学学报(自然科学). 2025(01): 71-82 . 百度学术
2. 崔蒙蒙,刘井平,阮彤,宋雨秋,杜渂. 基于双重多视角表示的目标级隐性情感分类. 计算机工程. 2024(01): 79-90 . 百度学术
3. 张乐怡,周怡洁,俞定国,闫燕勤. 媒介变迁下的谣言传播研究. 新媒体研究. 2024(14): 12-16 . 百度学术
4. 王世雄,吴泽政. 基于异质信息网络表征学习的微博虚假信息甄别研究. 情报杂志. 2024(12): 152-160 . 百度学术
5. 陈雄逸,许力,张欣欣,尤玮婧. 社交网络基于意见领袖的谣言抑制方案. 信息安全研究. 2023(01): 57-65 . 百度学术
6. 张欣欣 ,许力 ,徐振宇 . 基于网络模体的移动社会网络信息可控传播方法. 电子与信息学报. 2023(02): 635-643 . 百度学术
7. 杨晓晖,王卫宾. 基于门控图神经网络的谣言检测模型. 燕山大学学报. 2023(01): 73-81 . 百度学术
8. 孙书魁,范菁,李占稳,曲金帅,路佩东. 人工智能在新型冠状病毒肺炎中的研究综述. 计算机工程与应用. 2023(05): 28-39 . 百度学术
9. 陈卓敏,王莉,朱小飞,王子康. 基于对抗图增强对比学习的虚假新闻检测. 中文信息学报. 2023(06): 137-146 . 百度学术
10. 鲁贻锦,吴蕾. 基于大数据驱动技术的媒体风险感知模型研究. 佳木斯大学学报(自然科学版). 2023(06): 52-56 . 百度学术
11. 许云红,崔乐靖,朱南丽,郑娜娜. 社交媒体用户谣言传播行为的影响因素研究综述. 新媒体研究. 2023(24): 14-17+33 . 百度学术
12. 龙小农,靳旭鹏. 新冠疫情、信息疫情与政治疫情的互动关系及作用机制. 现代传播(中国传媒大学学报). 2022(02): 66-76 . 百度学术
13. 杨秀璋,刘建义,任天舒,宋籍文,武帅,姜婧怡,陈登建,周既松,李娜. 基于改进LDA-CNN-BiLSTM模型的社交媒体情感分析研究. 现代计算机. 2022(02): 29-36 . 百度学术
14. 张放,范琳琅. 公共危机中社交媒体辟谣信息采纳的关键要素探究——基于新冠疫情微博辟谣文本的计算分析. 新闻界. 2022(10): 75-85 . 百度学术
15. 朱梦蝶,付少雄,郑德俊,李杨. 文献视角下的社交媒体健康谣言研究:特征、传播与治理. 图书情报知识. 2022(05): 131-143 . 百度学术
16. 肖喜珠,杨闻远,高慧敏,高世奇,郭书恒,路思玲,聂欣政,任书漫,王一民,温馨. “后真相”时代的风险感知与反击:青年社交媒体用户信息行为研究. 新媒体研究. 2022(21): 40-46 . 百度学术
17. 徐建民,王恺霖,吴树芳. 基于改进D-S证据理论的微博不可信用户识别研究. 数据分析与知识发现. 2022(12): 99-112 . 百度学术
18. 周晖. 国内外基于社交媒体的社会情绪对比分析. 中华医学图书情报杂志. 2022(12): 65-69 . 百度学术
其他类型引用(21)
计量
- 文章访问数: 747
- HTML全文浏览量: 10
- PDF下载量: 644
- 被引次数: 39