• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

基于多模态输入的对抗式视频生成方法

于海涛, 杨小汕, 徐常胜

于海涛, 杨小汕, 徐常胜. 基于多模态输入的对抗式视频生成方法[J]. 计算机研究与发展, 2020, 57(7): 1522-1530. DOI: 10.7544/issn1000-1239.2020.20190479
引用本文: 于海涛, 杨小汕, 徐常胜. 基于多模态输入的对抗式视频生成方法[J]. 计算机研究与发展, 2020, 57(7): 1522-1530. DOI: 10.7544/issn1000-1239.2020.20190479
Yu Haitao, Yang Xiaoshan, Xu Changsheng. Antagonistic Video Generation Method Based on Multimodal Input[J]. Journal of Computer Research and Development, 2020, 57(7): 1522-1530. DOI: 10.7544/issn1000-1239.2020.20190479
Citation: Yu Haitao, Yang Xiaoshan, Xu Changsheng. Antagonistic Video Generation Method Based on Multimodal Input[J]. Journal of Computer Research and Development, 2020, 57(7): 1522-1530. DOI: 10.7544/issn1000-1239.2020.20190479
于海涛, 杨小汕, 徐常胜. 基于多模态输入的对抗式视频生成方法[J]. 计算机研究与发展, 2020, 57(7): 1522-1530. CSTR: 32373.14.issn1000-1239.2020.20190479
引用本文: 于海涛, 杨小汕, 徐常胜. 基于多模态输入的对抗式视频生成方法[J]. 计算机研究与发展, 2020, 57(7): 1522-1530. CSTR: 32373.14.issn1000-1239.2020.20190479
Yu Haitao, Yang Xiaoshan, Xu Changsheng. Antagonistic Video Generation Method Based on Multimodal Input[J]. Journal of Computer Research and Development, 2020, 57(7): 1522-1530. CSTR: 32373.14.issn1000-1239.2020.20190479
Citation: Yu Haitao, Yang Xiaoshan, Xu Changsheng. Antagonistic Video Generation Method Based on Multimodal Input[J]. Journal of Computer Research and Development, 2020, 57(7): 1522-1530. CSTR: 32373.14.issn1000-1239.2020.20190479

基于多模态输入的对抗式视频生成方法

基金项目: 国家重点研发计划基金项目(2018AAA0100604);国家自然科学基金项目(61702511,61720106006,61728210,61751211,U1836220,U1705262,61872424);模式识别国家重点实验室自主课题(Z-2018007)
详细信息
  • 中图分类号: TP391

Antagonistic Video Generation Method Based on Multimodal Input

Funds: This work was supported by the National Key Research and Development Program of China (2018AAA0100604), the National Natural Science Foundation of China (61702511, 61720106006, 61728210, 61751211, U1836220, U1705262, 61872424), and the Research Program of National Laboratory of Pattern Recognition (Z-2018007).
  • 摘要: 视频生成是计算机视觉和多媒体领域一个重要而又具有挑战性的任务.现有的基于对抗生成网络的视频生成方法通常缺乏一种有效可控的连贯视频生成方式.提出一种新的多模态条件式视频生成模型.该模型使用图片和文本作为输入,通过文本特征编码网络和运动特征解码网络得到视频的运动信息,并结合输入图片生成连贯的运动视频序列.此外,该方法通过对输入图片进行仿射变换来预测视频帧,使得生成模型更加可控、生成结果更加鲁棒.在SBMG(single-digit bouncing MNIST gifs),TBMG(two-digit bouncing MNIST gifs)和KTH(kungliga tekniska hgskolan human actions)数据集上的实验结果表明:相较于现有的视频生成方法,生成结果在目标清晰度和视频连贯性方面都具有更好的效果.另外定性评估和定量评估(SSIM(structural similarity index)与PSNR(peak signal to noise ratio)指标)表明提出的多模态视频帧生成网络在视频生成中起到了关键作用.
    Abstract: Video generation is an important and challenging task in the field of computer vision and multimedia. The existing video generation methods based on generative adversarial networks (GANs) usually lack an effective scheme to control the coherence of video. The realization of artificial intelligence algorithms that can automatically generate real video is an important indicator of more complete visual appearance information and motion information understanding.A new multi-modal conditional video generation model is proposed in this paper. The model uses pictures and text as input, gets the motion information of video through text feature coding network and motion feature decoding network, and generates video with coherence motion by combining the input images. In addition, the method predicts video frames by affine transformation of input images, which makes the generated model more controllable and the generated results more robust. The experimental results on SBMG (single-digit bouncing MNIST gifs), TBMG(two-digit bouncing MNIST gifs) and KTH(kungliga tekniska hgskolan human actions) datasets show that the proposed method performs better on both the target clarity and the video coherence than existing methods. In addition, qualitative evaluation and quantitative evaluation of SSIM(structural similarity index) and PSNR(peak signal to noise ratio) metrics demonstrate that the proposed multi-modal video frame generation network plays a key role in the generation process.
  • 期刊类型引用(14)

    1. 胡磊,甘胜丰. 基于YOLO-CIRCLE算法的圆形钢卷检测. 湖北第二师范学院学报. 2023(02): 18-25 . 百度学术
    2. 张晓辉,何金海,兰鹏燕,徐圣斯. 局部几何与全局结构联合感知的三维形状分类方法. 计算机应用研究. 2023(12): 3828-3833 . 百度学术
    3. 张晓媛,于洋,王新蕊. 三维图像虚拟视点生成优化研究仿真. 计算机仿真. 2022(03): 205-209 . 百度学术
    4. 张艳丽,牛任恺,张鑫磊,孙志杰,王利赛. 基于序列标注的业务异常工单判别方法研究. 电子设计工程. 2022(07): 139-143 . 百度学术
    5. 吴康楠,姜洪庆. 面向绿色化改造的历史民居建筑三维重构方法. 工业加热. 2022(05): 27-30+40 . 百度学术
    6. 连远锋,裴守爽,胡伟. 融合NFFD与图卷积的单视图三维物体重建. 光学精密工程. 2022(10): 1189-1202 . 百度学术
    7. 李远松,丁津津,徐晨,高博,汤汉松,单荣荣. 基于智能感知与深度学习的智能变电站设备状态检测方法. 电气工程学报. 2022(02): 208-214 . 百度学术
    8. 郭艺辉,陆寄远,黄承慧,钟雪灵,林淑金,苏卓,罗笑南. 基于混合频谱信号编码的网格纹理平滑. 计算机学报. 2021(02): 318-333 . 百度学术
    9. 谢昊洋,钟跃崎. 基于图卷积网络的非参数化三维人体重建. 毛纺科技. 2021(04): 18-24 . 百度学术
    10. 李海生,武玉娟,郑艳萍,吴晓群,蔡强,杜军平. 基于深度学习的三维数据分析理解方法研究综述. 计算机学报. 2020(01): 41-63 . 百度学术
    11. 曲海成,田小容,刘腊梅,石翠萍. 多尺度显著区域检测图像压缩. 中国图象图形学报. 2020(01): 31-42 . 百度学术
    12. 杨晓文,尹洪红,韩燮,刘佳鸣. 基于蚁狮优化的极限学习机的网格分割方法. 激光与光电子学进展. 2020(04): 163-169 . 百度学术
    13. 崔金栋,陈思远. 融媒体信息推荐模型构建与信息推荐方法研究. 情报科学. 2020(07): 52-58 . 百度学术
    14. 周燕,曾凡智,吴臣,罗粤,刘紫琴. 基于深度学习的三维形状特征提取方法. 计算机科学. 2019(09): 47-58 . 百度学术

    其他类型引用(20)

计量
  • 文章访问数:  1201
  • HTML全文浏览量:  7
  • PDF下载量:  332
  • 被引次数: 34
出版历程
  • 发布日期:  2020-06-30

目录

    /

    返回文章
    返回