Action Recognition of Temporal Segment Network Based on Feature Fusion
-
摘要: 行为识别是当今计算机视觉领域的一个研究热点,是一项具有挑战性的任务.行为识别分析与其网络输入数据类型、网络结构、特征融合环节具有密切联系.目前,主流的行为识别网络输入数据为RGB图像和光流图像,网络结构主要以双流和3D卷积为主;而特征选择直接影响到识别的效率,多层次的特征融合工作还有很多问题有待解决.针对主流的双流卷积网络输入数据为RGB图像和光流图像的局限,利用低秩空间中稀疏特征能够有效捕捉视频中运动物体信息的特点,对网络输入数据进行补充.同时,针对网络中缺乏信息交互的特点,将深度网络中高层语义信息和低层细节信息结合起来共同识别行为动作,使时序分割网络性能更具优势.在行为识别数据集UCF101和HMDB51上取得了97.1%和76.7%的识别效果,较目前主流算法有了较大的提升.实验结果表明,该方法能够有效地提高行为识别的识别率.Abstract: Action recognition is a research hot topic and a challenging task in the field of computer vision nowadays. Action recognition analysis is closely related to its network input data type, network structure and feature fusion. At present, the main input data of action recognition network is RGB images and optical flow images, and the network structure is mainly based on two-stream and three dimension convolution. While the selection of features directly affects the efficiency of recognition and there are still many problems to be solved in multi-layer feature fusion. In view of the limitation of the RGB images and optical flow images which are the input of the popular two-stream convolution network, using sparse features in low rank space can effectively capture the information characteristics of moving objects in video and supplement the network input data. Meanwhile, for the lack of information interaction in the deep network, the high-level semantic information and the low-level detailed information are combined to recognize actions together, which makes temporal segment network performance more advantageous. Extensive experiments in subjective and objective comparison are performed on UCF101 and HMDB51 and the results show that the proposed algorithm is significantly better than several state-of-the-art algorithms, and the average accuracy rate of the proposed algorithm reaches 97.1% and 76.7%. The experimental results show that our method can effectively improve the recognition rate of action recognition.
-
-
期刊类型引用(16)
1. 张静鑫. 基于深度神经网络的软件机器人语义识别方法. 微型电脑应用. 2024(02): 180-183+196 . 百度学术
2. 雷静思,刘双广,刘乔寿,王祥雪. 基于改进时空图卷积网络的人员交互行为识别. 计算机应用与软件. 2024(04): 151-158 . 百度学术
3. 方成焰,杨超宇. 基于轻量化YOLOv5煤矿人员不安全行为识别研究. 南阳理工学院学报. 2024(02): 63-68 . 百度学术
4. 吕蕾,庞辰. 基于图卷积网络的人体骨架行为识别方法综述. 山东师范大学学报(自然科学版). 2024(03): 210-232 . 百度学术
5. 高海龙,徐一博,侯德藻,王雪松. 基于深度异步残差网络的路网短时交通流预测算法. 吉林大学学报(工学版). 2023(12): 3458-3464 . 百度学术
6. 裴利沈,赵雪专,张国华. 基于多级深度网络架构的群体行为分析模型研究. 计算机应用研究. 2022(03): 931-937 . 百度学术
7. 裴利沈,刘少博,赵雪专. 人体行为识别研究综述. 计算机科学与探索. 2022(02): 305-322 . 百度学术
8. 裴利沈,赵雪专. 群体行为识别深度学习方法研究综述. 计算机科学与探索. 2022(04): 775-790 . 百度学术
9. 余金锁,卢先领. 基于分割注意力的特征融合CNN-Bi-LSTM人体行为识别算法. 电子测量与仪器学报. 2022(02): 89-95 . 百度学术
10. 熊英乔,邱芬. 恶意软件攻击行为的时序逻辑建模分析. 计算机仿真. 2022(06): 430-433+438 . 百度学术
11. 梁新彦 ,钱宇华 ,郭倩 ,黄琴 . 多粒度融合驱动的超多视图分类方法. 计算机研究与发展. 2022(08): 1653-1667 . 本站查看
12. 任佳迪. 基于面部动态数据捕获的心理自动测评系统设计. 自动化与仪器仪表. 2022(09): 143-146+151 . 百度学术
13. 黄耀,雷景生. 基于帧级骨架拓展类特征的人体动作实时检测技术. 计算机应用与软件. 2022(10): 175-183+211 . 百度学术
14. 李克文,张震涛,李素杰,雷永秀. 面向时空特征融合的GSTIN动作识别网络. 计算机应用研究. 2021(08): 2479-2484 . 百度学术
15. 陶庆凤. 基于人工蜂群算法的无线网络攻击行为的辨识研究. 宁夏师范学院学报. 2021(07): 89-95 . 百度学术
16. 陈纾,孟刚. 视觉传感网络图像破损数据交互方法仿真. 计算机仿真. 2021(10): 185-188+203 . 百度学术
其他类型引用(12)
计量
- 文章访问数: 1467
- HTML全文浏览量: 4
- PDF下载量: 527
- 被引次数: 28