Audio-Visual Correlated Multimodal Concept Detection
-
摘要: 随着在线视频应用的流行,互联网上的视频数量快速增长.面对互联网上海量的视频,人们对视频检索的要求也越来越精细化.如何按照合适的语义概念对视频进行组织和管理,从而帮助用户更高效、更准确地获取所需视频,成为亟待解决的问题.在大量的应用场景下,需要声音和视觉同时出现才能确定某个视频事件.因此,提出具有视听信息的多模态概念的检测工作.首先,以名词-动词二元组的形式定义多模态概念,其中名词表达了视觉信息,动词表达了听觉信息,且名词和动词具有语义相关性,共同表达语义概念所描述的事件.其次,利用卷积神经网络,以多模态概念的视听相关性为目标训练多模态联合网络,进行端到端的多模态概念检测.实验表明:在多模态概念检测任务上,通过视听相关的联合网络的性能超过了单独的视觉网络和听觉网络.同时,联合网络能够学习到精细化的特征表示,利用该网络提取的视觉特征,在Huawei视频数据集某些特定的类别上超过ImageNet预训练的神经网络特征;联合网络提取的音频特征,在ESC50数据集上,也超过在Youtube8m上训练的神经网络音频特征约5.7%.Abstract: With the wide dissemination of online video sharing applications, massive number of videos are generated online every day. Facing such massive videos, people require more refined retrieval services. How to organize and manage such massive videos on the Internet to help users retrieve videos more efficiently and accurately has become one of the most challenging topics in video analysis. In most scenarios, it is necessary that sounds and visual information appear simultaneously to decide a video event. Therefore, this paper proposes multimodal concept detection task based on audio-visual information. Firstly, a multimodal concept is defined as a noun-verb pair, in which the noun and verb represent visual and audio information separately. The audio and visual information in a multimodal concept is correlated. Secondly, this paper performs end-to-end multimodal concept detection using convolutional neural network. Specifically, audio-visual correlation is considered to train a joint learning network. The experimental results show that performance of the joint network via audio-visual correlation exceeds that of single visual or audio network. Thirdly, the joint network learns fine-grained features. In the Huawei video concept detection task, using visual features extracted from the joint network outperforms features extracted from an ImageNet pre-trained network on some specific concepts. In the ESC 50 audio classification task, acoustic features from the joint network exceeds that from VGG pre-trained on Youtube8m about 5.7%.
-
-
期刊类型引用(20)
1. 徐宁,李静秋,王岚君,刘安安. 时序特性引导下的谣言事件检测方法评测. 南京大学学报(自然科学). 2025(01): 71-82 . 百度学术
2. 张元园,袁嘉霁. 基于社交媒体的谣言检测研究综述. 数据通信. 2024(01): 28-33 . 百度学术
3. 廖劲智,赵和伟,连小童,纪文亮,石海明,赵翔. 基于对比图学习的跨文档虚假信息检测. 计算机科学. 2024(03): 14-19 . 百度学术
4. 凤丽洲,刘馥榕,王友卫. 基于图卷积网络和注意力机制的谣言检测方法. 数据分析与知识发现. 2024(04): 125-136 . 百度学术
5. 王晰巍,孙哲,姜奕冰,李玥琪. 社交媒体网络辟谣回音室效应分析模型及实验研究. 现代情报. 2024(10): 3-17 . 百度学术
6. 朱奕,王根生,金文文,黄学坚,李胜. 基于文本语义增强和评论立场加权的网络谣言检测. 计算机科学与探索. 2024(12): 3311-3323 . 百度学术
7. 甘臣权,付祥,冯庆东,祝清意. 基于公共情感特征压缩与融合的轻量级图文情感分析模型. 计算机研究与发展. 2023(05): 1099-1110 . 本站查看
8. 聂大成,汪明达,刘世钰,杨慧,张翔,邱鸿杰. 在线社会网络虚假信息检测关键技术研究综述. 通信技术. 2023(04): 391-399 . 百度学术
9. 李卓远,李军. 基于对比学习的多模态注意力网络虚假信息检测方法. 中国科技论文. 2023(11): 1192-1197 . 百度学术
10. 强子珊,顾益军. 基于多模态异质图的社交媒体谣言检测模型. 数据分析与知识发现. 2023(11): 68-78 . 百度学术
11. 陈志毅,隋杰. 基于DeepFM和卷积神经网络的集成式多模态谣言检测方法. 计算机科学. 2022(01): 101-107 . 百度学术
12. 陆恒杨,范晨悠,吴小俊. 面向网络社交媒体的少样本新冠谣言检测. 中文信息学报. 2022(01): 135-144+172 . 百度学术
13. 唐樾,马静. 基于增强对抗网络和多模态融合的谣言检测方法. 情报科学. 2022(06): 108-114+131 . 百度学术
14. 王壮,隋杰. 基于多级融合的多模态谣言检测模型. 计算机工程与设计. 2022(06): 1756-1761 . 百度学术
15. 吴诗苑,董庆兴,宋志君,张斌. 社交媒体中错误信息的检测方法研究述评. 情报学报. 2022(06): 651-661 . 百度学术
16. 范伟,刘勇. 基于时空Transformer的社交网络信息传播预测. 计算机研究与发展. 2022(08): 1757-1769 . 本站查看
17. 姜梦函,李邵梅,吴子仪,张建朋. 多模态特征融合的中文谣言检测. 信息工程大学学报. 2022(04): 485-490 . 百度学术
18. 孟佳娜,王晓培,李婷,刘爽,赵迪. 基于对抗神经网络的跨模态谣言检测. 数据分析与知识发现. 2022(12): 32-42 . 百度学术
19. 徐铭达,张子柯,许小可. 基于模体度的社交网络虚假信息传播机制研究. 计算机研究与发展. 2021(07): 1425-1435 . 本站查看
20. 胡斗,卫玲蔚,周薇,淮晓永,韩冀中,虎嵩林. 一种基于多关系传播树的谣言检测方法. 计算机研究与发展. 2021(07): 1395-1411 . 本站查看
其他类型引用(32)
计量
- 文章访问数: 881
- HTML全文浏览量: 2
- PDF下载量: 333
- 被引次数: 52