• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

视频实时评论的深度语义表征方法

吴法民, 吕广奕, 刘淇, 何明, 常标, 何伟栋, 钟辉, 张乐

吴法民, 吕广奕, 刘淇, 何明, 常标, 何伟栋, 钟辉, 张乐. 视频实时评论的深度语义表征方法[J]. 计算机研究与发展, 2019, 56(2): 293-305. DOI: 10.7544/issn1000-1239.2019.20170752
引用本文: 吴法民, 吕广奕, 刘淇, 何明, 常标, 何伟栋, 钟辉, 张乐. 视频实时评论的深度语义表征方法[J]. 计算机研究与发展, 2019, 56(2): 293-305. DOI: 10.7544/issn1000-1239.2019.20170752
Wu Famin, Lü Guangyi, Liu Qi, He Ming, Chang Biao, He Weidong, Zhong Hui, Zhang Le. Deep Semantic Representation of Time-Sync Comments for Videos[J]. Journal of Computer Research and Development, 2019, 56(2): 293-305. DOI: 10.7544/issn1000-1239.2019.20170752
Citation: Wu Famin, Lü Guangyi, Liu Qi, He Ming, Chang Biao, He Weidong, Zhong Hui, Zhang Le. Deep Semantic Representation of Time-Sync Comments for Videos[J]. Journal of Computer Research and Development, 2019, 56(2): 293-305. DOI: 10.7544/issn1000-1239.2019.20170752
吴法民, 吕广奕, 刘淇, 何明, 常标, 何伟栋, 钟辉, 张乐. 视频实时评论的深度语义表征方法[J]. 计算机研究与发展, 2019, 56(2): 293-305. CSTR: 32373.14.issn1000-1239.2019.20170752
引用本文: 吴法民, 吕广奕, 刘淇, 何明, 常标, 何伟栋, 钟辉, 张乐. 视频实时评论的深度语义表征方法[J]. 计算机研究与发展, 2019, 56(2): 293-305. CSTR: 32373.14.issn1000-1239.2019.20170752
Wu Famin, Lü Guangyi, Liu Qi, He Ming, Chang Biao, He Weidong, Zhong Hui, Zhang Le. Deep Semantic Representation of Time-Sync Comments for Videos[J]. Journal of Computer Research and Development, 2019, 56(2): 293-305. CSTR: 32373.14.issn1000-1239.2019.20170752
Citation: Wu Famin, Lü Guangyi, Liu Qi, He Ming, Chang Biao, He Weidong, Zhong Hui, Zhang Le. Deep Semantic Representation of Time-Sync Comments for Videos[J]. Journal of Computer Research and Development, 2019, 56(2): 293-305. CSTR: 32373.14.issn1000-1239.2019.20170752

视频实时评论的深度语义表征方法

基金项目: 国家重点研发计划项目(2016YFB1000904);国家自然科学基金项目(61672483,U1605251);中国科学院青年创新促进会会员专项基金项目(2014299)
详细信息
  • 中图分类号: TP181

Deep Semantic Representation of Time-Sync Comments for Videos

  • 摘要: 随着互联网技术的进步,以视频实时评论为代表的众包短文本(又称弹幕)逐渐流行,对在线媒体分享平台和娱乐产业都带来了重要影响.针对此类短文本展开研究,为推荐系统以及人工智能等领域的发展提供了新的机遇,在各行各业都具有巨大价值.然而在弹幕带来机遇的同时,理解和分析这种面向视频的众包短文本也面临诸多挑战:视频实时评论的高噪声、不规范表达和隐含语义等特性,使得传统自然语言处理(natural language processing, NLP)技术具有很大局限性,因此亟需一种容错性强、能刻画短文本深度语义的理解方法.针对以上挑战,在“相近时间段内的视频实时评论具有相似语义”假设的基础上,提出了一种基于循环神经网络(recurrent neural network, RNN)的深度语义表征模型.该模型由于引入了字符级别的循环神经网络,避免了弹幕噪声对文本分词带来的影响.通过使用神经网络,使所得的语义向量能够表达弹幕的隐含语义.在此基础上,进一步设计了基于语义检索的弹幕解释框架,同时作为对语义表征结果的应用验证.最后,设计了多种对比方法,并采用不同指标对所提出的模型进行充分的验证.该模型能够精准地刻画弹幕短文本的语义,也证明了关于弹幕相关假设的合理性.
    Abstract: With the development of Internet, crowdsourcing short texts such as time-sync comments for videos are of significant importance for online media sharing platforms and leisure industry. It also provides a new research opportunity for the evolution of recommender system, artificial intelligence and so on, which have tremendous values for every walk of life. At the same time, there are many challenges for crowdsourcing short text analysis, because of its high noise, non-standard expressions and latent semantic implication. These have limited the application of traditional natural language processing (NLP) techniques, thus it needs a novel short text understanding method which is of high fault tolerance, and can capture the deep semantics. To this end, this paper proposes a deep semantic representation model based on recurrent neural network (RNN). It can avoid the effect of noise on text segmentation by exploiting the character-based RNN. To achieve the semantic representation, we apply the neural network to represent the latent semantics such that the outputted semantic vectors can deeply reflect the time-sync comments. Then we further design a time-sync comment explanation framework based on semantic retrieval, used for the validation of semantic representation. Finally, we compare them with others baselines, and apply many measures to validate the proposed model. The experimental results show that model can capture the semantics in these short texts more precisely, and the assumptions related to time-sync comments are reasonable.
  • 期刊类型引用(18)

    1. 苏小红,郑伟宁,蒋远,魏宏巍,万佳元,魏子越. 基于学习的源代码漏洞检测研究与进展. 计算机学报. 2024(02): 337-374 . 百度学术
    2. 刘忠鑫,唐郅杰,夏鑫,李善平. 代码变更表示学习及其应用研究进展. 软件学报. 2023(12): 5501-5526 . 百度学术
    3. 奚建飞,王志英,邹文景,甘莹. 基于深度学习的非结构化表格文档数据抽取方法. 微型电脑应用. 2022(02): 102-105 . 百度学术
    4. 钱忠胜,宋佳,俞情媛,成轶伟,孙志旺. 利用函数影响力的相似程序间测试用例重用与生成. 电子学报. 2022(07): 1696-1707 . 百度学术
    5. 张祥平,刘建勋. 基于深度学习的代码表征及其应用综述. 计算机科学与探索. 2022(09): 2011-2029 . 百度学术
    6. 魏敏,张丽萍,闫盛. 基于程序向量树和聚类的学生程序算法识别方法. 计算机工程与设计. 2022(10): 2790-2798 . 百度学术
    7. 汶东震,张帆,刘海峰,杨亮,徐博,林原,林鸿飞. 深度程序理解视角下代码搜索研究综述. 计算机工程与应用. 2022(20): 63-72 . 百度学术
    8. 王一凡,赵逢禹,艾均. 面向基本路径学习的代码自动命名. 小型微型计算机系统. 2022(11): 2302-2307 . 百度学术
    9. 杨静宜,崔建弘,庞雅静. 基于特征深度学习的机器人协调操作感知控制. 计算机仿真. 2021(01): 307-311 . 百度学术
    10. 赵乐乐,张丽萍. 代码注释自动生成研究进展. 计算机应用研究. 2021(04): 982-989 . 百度学术
    11. 陈翔,杨光,崔展齐,孟国柱,王赞. 代码注释自动生成方法综述. 软件学报. 2021(07): 2118-2141 . 百度学术
    12. 谢春丽,梁瑶,王霞. 深度学习在代码表征中的应用综述. 计算机工程与应用. 2021(20): 53-63 . 百度学术
    13. 魏敏,张丽萍. 代码搜索方法研究进展. 计算机应用研究. 2021(11): 3215-3221+3230 . 百度学术
    14. 李眩,吴晓兵,童百利. 基于动态模糊聚类的数据挖掘研究——以安徽城市综合实力分析为例. 贵阳学院学报(自然科学版). 2020(01): 52-57 . 百度学术
    15. 池昊宇,陈长波. 基于神经网络的循环分块大小预测. 计算机科学. 2020(08): 62-70 . 百度学术
    16. 景艳娥. 基于深度学习技术的语法纠错算法模型构建分析. 信息技术. 2020(09): 143-147+152 . 百度学术
    17. 霍丽春,张丽萍. 代码注释演化及分类研究综述. 内蒙古师范大学学报(自然科学汉文版). 2020(05): 423-432 . 百度学术
    18. 何后裕,王炳鑫. 基于深度学习的综合性共享数据匹配算法研究. 电子设计工程. 2020(20): 111-115 . 百度学术

    其他类型引用(29)

计量
  • 文章访问数:  1399
  • HTML全文浏览量:  1
  • PDF下载量:  653
  • 被引次数: 47
出版历程
  • 发布日期:  2019-01-31

目录

    /

    返回文章
    返回