基于CLIP生成多事件表示的视频文本检索方法

涂荣成; 毛先领; 孔伟杰; 蔡成飞; 赵文哲; 王红法; 黄河燕

doi:10.7544/issn1000-1239.202220440

基于CLIP生成多事件表示的视频文本检索方法

1.
北京理工大学计算机学院　北京　100081
2.
北京大学信息工程学院　广东深圳　518055
3.
浙江大学电子信息学院　杭州　310058
4.
华南理工大学软件学院　广州　510006
5.
中国科学院自动化所　北京　100190

基金项目: 国家重点研发计划项目（2018YFB1005100)）；国家自然科学基金项目（U21B2009，62172039，61732005，61602197，L1924068）；北京语言资源先进创新中心基金项目（TYZ19005）

详细信息

作者简介:
涂荣成: 1995年生. 博士. 主要研究方向为信息检索和深度学习

毛先领: 1983年生. 博士，副教授，博士生导师. 主要研究方向为机器学习、深度学习、数据挖掘和跨模态检索

孔伟杰: 1995年生. 硕士. 主要研究方向为视频行为识别、视频行为检测和跨模态检索

蔡成飞: 1992年生. 硕士. 主要研究方向为人脸识别和信息检索

赵文哲: 1995年生. 硕士. 主要研究方向为目标检测、信息检索

王红法: 1981年生. 硕士. 主要研究方向为计算机视觉、信息检索、场景文字检测

黄河燕: 1963年生. 博士，教授，博士生导师. 主要研究方向为机器学习、深度学习、数据挖掘和自然语言处理

通讯作者:
毛先领（maoxl@bit.edu.cn）

中图分类号: TP183
计量
- 文章访问数: 237
- HTML全文浏览量: 13
- PDF下载量: 98
出版历程
- 收稿日期: 2022-05-27
- 修回日期: 2022-11-17
- 网络出版日期: 2023-06-26
- 刊出日期: 2023-09-13

CLIP Based Multi-Event Representation Generation for Video-Text Retrieval

1.
Department of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081
2.
School of Information Engineering, Peking University, Shenzhen, Guangdong 518055
3.
School of Electronic Information, Zhejiang University, Hangzhou 310058
4.
School of Software, South China University of Technology, Guangzhou 510006
5.
Institute of Automation, Chinese Academy of Sciences, Beijing 100190

Funds: This work was supported by the National Key Research and Development Program of China (2018YFB1005100), the National Natural Science Foundation of China (U21B2009, 62172039, 61732005, 61602197, L1924068), and the Funds of Beijing Advanced Innovation Center for Language Resources (TYZ19005).

More Information

Author Bio:
Tu Rongcheng: born in 1995. PhD. His main research interests include information retrieval and deep learning

Mao Xianling: born in 1983. PhD, associate professor, PhD supervisor. His main research interests include machine learning, deep learning, data mining, and cross-modal retrieval

Kong Weijie: born in 1995. Master. His main research interests include video action recognition, video action detection, and cross-modal retrieval

Cai Chengfei: born in 1992. Master. His main research interests include face recognition and information retrieval

Zhao Wenzhe: born in 1995. Master. His main research interests include object detection and information retrieval

Wang Hongfa: born in 1981. Master. His main research interests include computer vision, information retrieval, and optical character recognition

Huang Heyan: born in 1963. PhD, professor, PhD supervisor. Her main research interests include machine learning, deep learning, data mining, and natural language processing

摘要

摘要:
视频-文本检索作为一项被广泛应用于现实生活中的多模态检索技术受到越来越多的研究者的关注. 近来, 大部分视频文本工作通过利用大规模预训练模型中所学到的视觉与语言之间的匹配关系来提升文本视频间跨模态检索效果. 然而, 这些方法忽略了视频、文本数据都是由一个个事件组合而成. 倘若能捕捉视频事件与文本事件之间的细粒度相似性关系, 将能帮助模型计算出更准确的文本与视频之间的语义相似性关系, 进而提升文本视频间跨模态检索效果. 因此, 提出了一种基于CLIP生成多事件表示的视频文本检索方法(CLIP based multi-event representation generation for video-text retrieval, CLIPMERG). 首先, 通过利用大规模图文预训练模型CLIP的视频编码器(ViT)以及文本编码器(Tansformer)分别将视频、文本数据转换成视频帧token序列以及文本的单词token序列；然后, 通过视频事件生成器(文本事件生成器)将视频帧token序列(单词token序列)转换成k个视频事件表示(k个文本事件表示)；最后, 通过挖掘视频事件表示与文本事件表示之间的细粒度关系以定义视频、文本间的语义相似性关系. 在3个常用的公开视频文本检索数据集MSR-VTT, DiDeMo, LSMDC上的实验结果表明所提的CLIPMERG优于现有的视频文本检索方法.
- 预训练模型 /
- 视频文本检索 /
- 事件表示 /
- CLIP模型 /
- Transformer模型
Abstract:
Video-text retrieval has been widely used in many real-world applications and attracted more and more research attention. Recently, many work has been proposed to leverage the visual-language matching knowledge of the pre-training models to further improve the retrieval performance. However, these methods ignore that video and text data are composed of events. If the fine-grained similarities between events in video and events in text can be captured well, it will help to calculate more accurate semantic similarities between texts and videos, and then improve the retrieval performance. Hence, in this paper, we propose a CLIP based multi-event representation generation for video-text retrieval, called CLIPMERG. Specifically, CLIPMERG first utilizes the video encoder and text encoder of pre-training model CLIP to transform the video and text inputs into video frame token sequences and word token sequences, respectively. Next, CLIPMERG uses a video (text) event generator to map the video frame (text word) token sequence into k video (text) event representations. Finally, CLIPMERG calculates the semantic similarities between videos and texts through capturing the fine-grained similarities between video event representations and text event representations. Extensive experimental results on three widely used benchmark datasets MSR-VTT, DiDeMo and LSMDC show that our proposed CLIPMERG achieves better performance than state-of-the-art baselines on the video-text retrieval tasks.
- pre-training model /
- video-text retrieval /
- event representation /
- CLIP model /
- Transformer model

HTML全文

随着互联网上视频文本数据的日益增多，如何检索视频、文本^[1-6] 以及如何对视频、文本中的信息进行挖掘^[7-11]等任务成为了人们日常生活中的新需求. 视频文本间的检索作为多模态视觉和语义理解的一项基础研究任务，近年来受到了越来越多的研究者关注. 现有的视频文本检索方法依据视频模态输入数据类型的不同主要可以分为基于原视频像素以及基于视频特征的检索方法.

基于原视频像素的这类方法^[12-19]在训练模型时直接将原始视频作为输入，通过利用视频文本对匹配信息，将视频特征提取以及视频文本间相似性计算联合起来训练. 早期的大部分视频文本检索方法主要是属于这类方式. 近年来，在大规模视频-文本数据集（如Howto100M^[20]）上预训练好的模型表现出了强大的视频特征提取能力，因而基于视频特征的视频文本检索方法^[1-6]应运而生. 该类方法通过将预训练模型作为视频特征提取器来为每个视频提取好特征，并将提取到的特征作为视频模态的输入以训练视频文本匹配模块. 由于预训练模型已在大规模数据集上训练至收敛，这些模型已能较好地将视觉中的语义概念以及文本中的语义概念进行对齐，因此用它们作为特征提取器能使所提取的数据特征更好地连接视觉和语言模态并包含丰富的语义信息，更利于训练检索模型. 所以基于预训练模型的视频文本检索方法往往具有较快的训练速度以及出色的检索效果. 但由于在训练视频文本检索模型时预训练好的视频特征提取器将不会参与训练，即其参数在训练时不会被更新，因而该类方法往往受限于预训练好的视频特征提取器的能力.

为了进一步提升视频文本检索的效果，如何将预训练模型与原始视频相结合作为输入是一个重要的研究方向. 近年来，有些工作开始使用原始视频作为输入预训练视频文本检索模型. 这些方法的主要难点在于如何解决稠密视频输入所带来的高计算量问题. 为解决该问题，Lei等人^[12]提出ClipBERT通过采用稀疏采样策略，使端到端预训练模型成为可能. 具体来说，该方法在每个训练批次中仅从视频中稀疏地采样1个或几个短片段作为视频输入以训练模型，最终实验结果表明，这种端到端训练方式有利于低层特征提取，并且少量稀疏采样的视频片段足以解决视频文本检索任务. 虽然这些方法的效果相比于以前的工作取得了不错的提升，但受限于预训练模型的文本视频数据集的规模或其标注质量，这些方法的效果仍然难以满足用户对检索精度的需求.

近年来，在大规模数据集上预训练的图文匹配模型—对比图文预训练（contrastive language-image pretraining, CLIP）^[21]受到很多研究者的关注. 该模型提出的CLIP方法在从网络中收集到的4亿条图文对中进行预训练. 因其训练数据规模巨大，该模型相比于同时期的预训练模型具有更强的视觉、文本语义概念对齐能力，在多个视觉-语言跨模态任务上表现出了更强的泛化能力，例如在zero-shot图片文本检索任务上相比其他预训练模型能取得更好的检索效果. 因此，目前有些工作开始研究如何将图文预训练模型CLIP^[21]所学到的知识转换到视频文本检索模型中以提升视频文本检索效果. 这些方法一般是基于全局特征的哈希方法，如图1所示，它们将视频和文本分别映射成全局特征表示，进而利用全局特征表示计算视频、文本间的相似性关系. 例如，由Luo等人^[17]提出的CLIP4Clip通过在检索数据集上微调预训练模型CLIP来将视频文本映射到同一个特征空间，然后在检索时每个视频以及文本都被映射成1个全局特征向量，只需计算视频特征与文本特征之间的点积得到视频文本之间的相似度，进而找出匹配的数据点. 然而，这些方法忽略了视频、文本数据都是由一个个事件组合而成，如图1所示，这一视频文本对可以概括成“倒水入锅中”“倒番茄酱”“搅拌食物”3个事件. 因此，若我们将视频和文本中的事件表示出来，进而计算视频事件与文本事件间的细粒度关系，然后以此更为精准地计算出文本数据与视频数据之间的语义相似性关系，进而提升文本视频间跨模态检索效果.

图 1 本文所提的CLIPMERG与现有方法的区别

Figure 1. Difference between our proposed CLIPMERG and existing methods

下载: 全尺寸图片幻灯片

因此针对上述问题，本文提出了一种基于CLIP生成多事件表示的视频文本检索方法（CLIP based multi-event representation generation for video-text retrieval, CLIPMERG），模型框架图如图2所示. 该模型首先通过利用大规模图文预训练模型CLIP的视觉编码器（ViT^[22]）以及文本编码器（Tansformer^[23]）分别将视频、文本数据转换成视频帧token序列以及文本的单词token序列，而后通过视频事件生成器（文本事件生成器）将视频帧token序列（单词token序列）转换成$ k $个视频事件表示（$ k $个文本事件表示）. 最后，通过挖掘视频事件表示与文本事件表示之间的细粒度关系以定义视频、文本间的相似性关系. 通过在3个常用的公开视频文本检索数据集MSR-VTT^[24]，DiDeMo^[25]，LSMDC^[26]上的大量实验结果表明，本文所提的CLIPMERG优于现有的视频文本检索方法.

图 2 CLIPMERG框架

Figure 2. Architecture of CLIPMERG

下载: 全尺寸图片幻灯片

1. 相关工作

视频文本检索是一项被广泛应用于现实生活中的多模态检索技术，其旨在对于给定的输入文本（视频）在视频（文本）数据库中查找与其相似的视频（文本）数据. 现有的视频文本检索方法依据视频模态数据输入形式可以被分成基于视频特征的视频文本检索方法以及基于原视频像素的视频文本检索方法.

基于视频特征的视频文本检索方法^[1-6]通过将预训练模型作为视频特征提取器来为每个视频提取好特征，并将提取到的特征作为视频模态的输入以训练视频文本匹配模块. 这些预训练模型在大规模视频-文本数据集（如Howto100M^[20]）上预训练好，具有强大的视频特征提取能力，因而这类方法往往能取得不错的检索效果. 例如Gabeur等人^[4]提出MMT （multi-modal transformer），该方法通过利用在大规模数据集Howto100M^[20]上训练了多个模态的特征提取器，如视频模态、文本模态以及音频模态等. 而后用这些预训练好的提取器提取视频、文本数据的特征以进行视频文本间的检索，此外，Patrick等人^[5]提出SSB （support-set bottlenecks），该方法通过为每个数据文本对选择支持集并根据支持集中的数据加权组合以重构文本来提升预训练模型的表征能力，进而提升模型在视频文本检索任务上的检索效果. 然而，由于这类方法在训练视频文本检索模型时，预训练好的视频特征提取器将不会参与训练，即特征提取器的参数在训练时不会被更新，因而该类方法往往受限于预训练好的特征提取器的表征能力.

基于原视频像素的这类方法^[8-15]在训练模型时直接将原始视频作为输入，通过利用视频文本对匹配信息，将视频特征提取以及视频文本间相似性计算联合起来训练. 该类别中，早期的工作如Yu等人^[15]所提的h-RNN （hierarchical recurrent neural networks）在训练时使用原视频作为输入导致计算复杂度极高，因而使其训练速度十分缓慢，难以在较大规模的数据集中训练，最终使其检索效果往往不如基于视频特征的视频文本检索方法. 另外，Bain等人^[16]提出Frozen模型，该方法将1张图片视为单帧视频，并设计了课程学习计划使得模型能在图像和视频数据集上进行训练. 此外，最近由Radford等人^[21]提出的在大规模的图片文本数据集上预训练的图文匹配模型CLIP在多个视觉-语言跨模态任务上取得了令人印象深刻的效果，展现了强大的视觉、语言特征提取能力，因此，目前有些工作开始研究如何将图文预训练模型CLIP所学到的知识转换到视频文本检索模型中以提升视频文本检索效果. 例如，由Luo等人^[17]提出的CLIP4Clip，这个方法通过在检索数据集上微调预训练模型CLIP以将视频文本映射到同一个特征空间，然后在检索时每个视频以及文本都被映射成1个全局特征向量，只需计算视频特征与文本特征之间的点积得到视频文本之间的相似度，进而找出匹配的数据点. 之后，Cheng等人^[18]又提出CAMoE，该方法通过从数据点的实体、动作以及全局3个视角计算视频文本之间的相似性关系以提升模型的检索效果.

然而，文献[8-18]所提的方法忽略了视频、文本数据都是由一个个事件组合而成. 倘若我们能捕捉视频事件与文本事件之间的细粒度关系，这将能帮助模型更好地计算文本数据与视频数据之间的相似性关系，进而提升文本视频间跨模态检索效果. 因此，为解决这一问题，本文提出基于CLIP生成多事件表示的视频文本检索方法.

2. 基于CLIP生成多事件表示的视频文本检索方法

虽然目前已有基于图文匹配预训练模型CLIP的视频文本检索工作被提出，但这些工作忽略了捕捉视频事件与文本事件之间的细粒度关系以辅助计算出更为准确的文本与视频间的语义相似性关系. 因此，本文提出一种基于CLIP生成多事件表示的视频文本检索方法CLIPMERG，其框架如图2所示.

2.1 基本定义

为方便描述，首先给出问题描述以及符号定义. 给定一个包含$ n $个视频文本对的数据集，第$ i $个视频文本对用$ \left({v}_{i},{t}_{i}\right) $表示，其中$ {v}_{i} $表示第$ i $个视频，$ {t}_{i} $表示第$ i $个文本. 具体地，每个视频$ {v}_{i} $由至多$ {m}_{v} $帧视频帧表示，记为${v}_{i}=\{{\boldsymbol{v}}_{i}^{1},{\boldsymbol{v}}_{i}^{2},… ,{\boldsymbol{v}}_{i}^{{m}_{v}}\}$，其中${\boldsymbol{v}}_{i}^{j}$表示视频$ {v}_{i} $中的第j帧；每个文本$ {t}_{i} $由至多$ {m}_{t} $个单词组成，记为${t}_{i}=\{{\boldsymbol{t}}_{i}^{1},{\boldsymbol{t}}_{i}^{2},… ,{\boldsymbol{t}}_{i}^{{m}_{t}}\}$，其中${\boldsymbol{t}}_{i}^{j}$表示文本$ {t}_{i} $中的第j个单词. 视频文本跨模态检索任务的定义为：给定一个查询文本$ {t}_{i} $（视频$ {v}_{i} $）将所有视频$ \{{v}_{j}{\}}_{j=1}^{n} $（文本$ \{{t}_{j}{\}}_{j=1}^{n} $）按照它们与查询文本（视频）之间的相似性打分进行排序以查找出与查询点最为相似的视频$ {v}_{i} $（文本$ {t}_{i} $）. 因此，视频文本检索方法的目标是学习一个相似性计算函数$ s({v}_{i},{t}_{j}) $，当视频$ {v}_{i} $与文本$ {t}_{j} $的相似性高时$ s({v}_{i},{t}_{j}) $所计算的相似性打分高，反之则打分低.

2.2 视频的多事件表征学习

类似于CLIP4Clip，本文所提的CLIPMERG通过利用预训练好的CLIP的视频编码器（ViT-B/16）的强大视觉特征提取能力将每个输入视频${v}_{i}=\{{\boldsymbol{v}}_{i}^{1}, {\boldsymbol{v}}_{i}^{2},… ,{\boldsymbol{v}}_{i}^{{m}_{v}}\}$转化成相应的视频帧token序列，记为${f}_{{{v}}_{\mathit{i}}}=\{{\boldsymbol{f}}_{{{v}}_{\mathit{i}}}^{{{1}}},{\boldsymbol{f}}_{{{v}}_{\mathit{i}}}^{{{2}}},… ,{\boldsymbol{f}}_{{{v}}_{{i}}}^{{{m}}_{{v}}}\}$，其中，${\boldsymbol{f}}_{{{v}}_{\mathit{i}}}^{{j}}$为一个512维的向量且其表示视频帧$ {\boldsymbol{v}}_{i}^{j} $经视频编码器转换后所得的视觉特征.

在得到视频$ {v}_{i} $的视频帧token序列$ {f}_{{v}_{i}} $后，需要为其生成事件表示. 为了方便处理，我们假设每个视频都存在$ k $个事件，所以需为每个视频生成$ k $个事件表示. 受到基于文本的视频内容定位方法LGI^[27]的启发，我们所用的视频事件表示生成器在为视频$ {v}_{i} $生成第$ j $个事件表示${\boldsymbol{r}}_{{v}_{i}}^{j}$时需要依据第$ j-1 $个事件表示${\boldsymbol{r}}_{{v}_{i}}^{j-1}$. 首先，用512维的零向量${\boldsymbol{r}}_{{v}_{i}}^{0}$表示视频$ {v}_{i} $的第0个事件的表示，以及对视频帧token序列$ {f}_{{v}_{i}} $进行平均池化操作得到视频$ {v}_{i} $的全局视频表示${\bar{\boldsymbol{f}}}_{{v}_{i}}$. 而后，依据前一事件表示以及全局视频表示通过注意力机制计算每帧在当前事件表示中的权重，具体公式为：

$$ {\boldsymbol{q}}_{{v}_{i}}^{\left(n\right)}=ReLU\left({\boldsymbol{W}}_{q}\left(\left[{\boldsymbol{W}}_{f}^{\left(n-1\right)}{\bar{\boldsymbol{f}}}_{{v}_{i}};{\boldsymbol{r}}_{{v}_{i}}^{\left(n-1\right)}\right]\right)\right) , $$

(1)

$$ {p}_{{v}_{i}j}^{\left(n\right)}={\boldsymbol{W}}_{p}(\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}({\boldsymbol{W}}_{pq}{\boldsymbol{q}}_{{v}_{i}}^{\left(n\right)}+{\boldsymbol{W}}_{pv}{\boldsymbol{f}}_{{v}_{i}}^{j}\left)\right) , $$

(2)

$$ {\boldsymbol{a}}_{{v}_{i}}^{\left(n\right)}={s}{o}{f}{t}{m}{a}{x}\left(\right[{p}_{{v}_{i}1}^{\left(n\right)},{p}_{{v}_{i}2}^{\left(n\right)},… ,{p}_{{v}_{i}{m}_{v}}^{\left(n\right)}\left]\right) , $$

(3)

其中${\boldsymbol{W}}_{q}\in {\mathbb{R}}^{512\times 1\,024}$, ${\boldsymbol{W}}_{f}^{\left(n-1\right)}\in {\mathbb{R}}^{512\times 512}$, ${\boldsymbol{W}}_{p}\in {\mathbb{R}}^{1\times 512}$，${\boldsymbol{W}}_{pq}\in {\mathbb{R}}^{512\times 512}$, ${\boldsymbol{W}}_{pv}\in {\mathbb{R}}^{512\times 512}$表示视频事件表示生成器中的可学习参数矩阵. ${\boldsymbol{a}}_{{v}_{i}}^{\left(n\right)}\in {\left[\mathrm{0,1}\right]}^{{m}_{v}}$是一个$ {m}_{v} $维的权重向量，其第$ j $位${{{a}}}_{{v}_{i}j}^{\left(n\right)}$表示视频帧token序列中第$ j $个视频帧的视觉特征${\boldsymbol{f}}_{{v}_{i}}^{j}$在生成第$ n $个视频事件表示${\boldsymbol{r}}{\,}_{{v}_{i}}^{n}$的权重. 故第$ n $个视频事件表示${\boldsymbol{r}}{\,}_{{v}_{i}}^{n}$被定义为

$$ {\boldsymbol{r}}{\,}_{{v}_{i}}^{n}=\sum _{j=1}^{{m}_{v}}{a}_{{v}_{i}j}^{\left(n\right)}{\boldsymbol{f}}_{{v}_{i}}^{j}. $$

(4)

通过上述方式，对于视频$ {v}_{i} $，可为其依次生成$ k $个视频事件表示${r}_{{v}_{i}}=\left\{{\boldsymbol{r}}_{{v}_{i}}^{1},{\boldsymbol{r}}{\,}_{{v}_{i}}^{2},… ,{\boldsymbol{r}}{\,}_{{v}_{i}}^{k}\right\}$.

2.3 文本的多事件表征学习

对于输入文本${t}_{i}=\{{\boldsymbol{t}}_{i}^{1},{\boldsymbol{t}}_{i}^{2},… ,{\boldsymbol{t}}_{i}^{{m}_{t}}\}$，类似于CLIP4Clip，CLIPMERG首先在起止位置分别加上[CLS]和[EOS]标志，而后通过利用预训练好的CLIP的文本码器将文本输入转化成相应的单词token序列，记为${f}_{{t}_{i}}= \{{\boldsymbol{f}}_{{t}_{i}}^{\mathrm{C}\mathrm{L}\mathrm{S}},{\boldsymbol{f}}_{{t}_{i}}^{1},{\boldsymbol{f}}_{{t}_{i}}^{2},… ,{\boldsymbol{f}}_{{t}_{i}}^{{m}_{t}},{\boldsymbol{f}}_{{t}_{i}}^{\mathrm{E}\mathrm{O}\mathrm{S}}\}$，其中，${\boldsymbol{f}}_{{t}_{i}}^{j}$为一个512维的向量且其是文本$ {t}_{i} $中第j个单词$ {t}_{i}^{j} $经文本编码器转换后所得的语义特征表示，${\boldsymbol{f}}_{{t}_{i}}^{\mathrm{C}\mathrm{L}\mathrm{S}}$与${\boldsymbol{f}}_{{t}_{i}}^{\mathrm{E}\mathrm{O}\mathrm{S}}$则分别为[CLS]和[EOS]标志的语义特征表示.

在得到文本$ {t}_{i} $的单词token序列$ {f}_{{t}_{i}} $后，和视频模态数据一样，我们假设每个文本$ {t}_{i} $都包含$ k $个事件，所以需为每个文本生成$ k $个事件表示. 与视频事件表示生成器一样，文本事件表示生成器在为文本$ {t}_{i} $生成第$ j $个事件表示${\boldsymbol{r}}_{{t}_{i}}^{j}$时需要依据第$ j-1 $个事件表示${\boldsymbol{r}}{\,}_{{t}_{i}}^{j-1}$. 首先，用512维的零向量${\boldsymbol{r}}_{{t}_{i}}^{0}$表示视频$ {t}_{i} $的第0个事件的表示，并将${\boldsymbol{f}}_{{t}_{i}}^{\mathrm{E}\mathrm{O}\mathrm{S}}$作为文本$ {t}_{i} $的全局语义表示. 而后依据前一事件表示${\boldsymbol{r}}{\,}_{{t}_{i}}^{j-1}$以及全局语义表示${\boldsymbol{f}}_{{t}_{i}}^{\mathrm{E}\mathrm{O}\mathrm{S}}$通过注意力机制计算每个单词token在当前事件表示${{\boldsymbol{r}}}{\,}_{{t}_{i}}^{j}$中的权重，具体公式为：

$$ {\boldsymbol{q}}_{{t}_{i}}^{\left(n\right)}=ReLU\left({\boldsymbol{H}}_{q}\left([{\boldsymbol{H}}_{f}^{\left(n-1\right)}{\boldsymbol{f}}_{{t}_{i}}^{\mathrm{E}\mathrm{O}\mathrm{S}};{\boldsymbol{r}}_{{t}_{i}}^{\left(n-1\right)}]\right)\right) , $$

(5)

$$ {p}_{{t}_{i}j}^{\left(n\right)}={H}_{p}(\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}({\boldsymbol{H}}_{pq}{\boldsymbol{q}}_{{t}_{i}}^{\left(n\right)}+{\boldsymbol{H}}_{pt}{\boldsymbol{f}}_{{t}_{i}}^{j}\left)\right) , $$

(6)

$$ {\boldsymbol{a}}_{{t}_{i}}^{\left(n\right)}={s}{o}{f}{t}{m}{a}{x}\left(\right[{p}_{{t}_{i}0}^{\left(n\right)},{p}_{{t}_{i}1}^{\left(n\right)},… ,{p}_{{t}_{i}{m}_{t}+1}^{\left(n\right)}\left]\right) , $$

(7)

其中${\boldsymbol{H}}_{q}\in {\mathbb{R}}^{512\times 1\,024}$，${\boldsymbol{H}}_{f}^{\left(n-1\right)}\in {\mathbb{R}}^{512\times 512}$，${\boldsymbol{H}}_{p}\in {\mathbb{R}}^{1\times 512}$，${\boldsymbol{H}}_{pq}\in {\mathbb{R}}^{512\times 512}$，${\boldsymbol{H}}_{pt}\in {\mathbb{R}}^{512\times 512}$表示文本事件表示生成器中的可学习参数矩阵. ${\boldsymbol{a}}_{{t}_{i}}^{\left(n\right)}\in {\left[\mathrm{0,1}\right]}^{{m}_{t}+2}$是一个$ {m}_{t}+2 $维的权重向量，其第$ j $位$ {a}_{{t}_{i}j}^{\left(n\right)} $表示单词token序列中第$ j-1 $个单词的语义特征${\boldsymbol{f}}_{{t}_{i}}^{j}$在生成的第$ n $个文本事件表示${\boldsymbol{r}}{\,}_{{t}_{i}}^{n}$的权重；$ {a}_{{t}_{i}0}^{\left(n\right)} $以及$ {a}_{{t}_{i}{m}_{t}+1}^{\left(n\right)} $则表示[CLS]和[EOS]的权重. 故第$ n $个文本事件表示${\boldsymbol{r}}{\,}_{{t}_{i}}^{n}$被定义为

$$ {\boldsymbol{r}}{\,}_{{t}_{i}}^{n}=\sum _{j=0}^{{m}_{t}+1}{a}_{{t}_{i}j}^{\left(n\right)}{\boldsymbol{f}}_{{t}_{i}}^{j} . $$

(8)

通过上述方式，对文本$ {t}_{i} $，可为其依次生成$ k $个文本事件表示${r}_{{t}_{i}}=\{{\boldsymbol{r}}_{{t}_{i}}^{1},{\boldsymbol{r}}{\,}_{{t}_{i}}^{2},… ,{\boldsymbol{r}}{\,}_{{t}_{i}}^{k}\}$.

2.4 基于事件特征的跨模态相似度计算

本文所提出的CLIPMERG通过计算视频$ {v}_{i} $中的每个视频事件与文本$ {t}_{j} $中的每个文本事件之间的相似度以挖掘出视频$ {v}_{i} $与文本$ {t}_{j} $之间的高质量语义相似性，进而提升模型对视频$ {v}_{i} $与文本$ {t}_{j} $间的相似性打分的准确性. 由视频$ {v}_{i} $的$ k $个文本事件表示${r}_{{v}_{i}}= \left\{{\boldsymbol{r}}_{{v}_{i}}^{1}, {\boldsymbol{r}}{\,}_{{v}_{i}}^{2},… ,{\boldsymbol{r}}{\,}_{{v}_{i}}^{k}\right\}$以及文本$ {t}_{j} $的$ k $个文本事件表示${r}_{{t}_{i}}=\{{\boldsymbol{r}}_{{t}_{i}}^{1}, {\boldsymbol{r}}{\,}_{{t}_{i}}^{2},… , {\boldsymbol{r}}{\,}_{{t}_{i}}^{k}\}$，我们能得到视频$ {v}_{i} $与文本$ {t}_{j} $间细粒度的事件相似性打分矩阵${\boldsymbol{B}}^{ij}\in {[-\mathrm{1,1}]}^{k\times k}$，其第$ z $行第$ l $列的元素$ {B}_{zl}^{ij} $表示视频$ {v}_{i} $的第$ z $个视频事件与文本$ {t}_{j} $的第$ l $个文本事件间的语义相似度，计算公式为

$$ {B}_{zl}^{ij}=\frac{{{\boldsymbol{r}}_{{v}_{i}}^{z}}^{\mathrm{T}}{\boldsymbol{r}}_{{t}_{j}}^{l}}{{\lVert{\boldsymbol{r}}_{{v}_{i}}^{z}\rVert}_{2}{\lVert{\boldsymbol{r}}_{{t}_{j}}^{l}\rVert}_{2}} \text{，} $$

(9)

其中${\lVert\cdot \rVert}_{2}$表示向量的$ {l}_{2} $范数.

对于视频$ {v}_{i} $的第$ z $个视频事件${\boldsymbol{r}}_{{v}_{i}}^{z}$，我们用其与文本$ {t}_{j} $的$ k $个事件中语义相似性打分的最大值表示视频事件${\boldsymbol{r}}_{{v}_{i}}^{z}$与文本$ {t}_{j} $的语义相似度，即${\boldsymbol{B}}^{ij}$第$ z $行的最大值，记为${S}_{{{\boldsymbol{v}}}_{i}^{z}{t}_{j}}=\underset{l}{\mathrm{max}}{B}_{zl}^{ij}$. 视频$ {v}_{i} $到文本$ {t}_{j} $的语义相似度则被定义为其$ k $个视频事件与文本$ {t}_{j} $的语义相似度的均值，即${S}_{{{v}}_{i}{t}_{j}}=\dfrac{1}{k}\displaystyle\sum\limits_{z=1}^{k}{S}_{{{\boldsymbol{v}}}_{i}^{z}{{t}}_{j}}$.

类似地，对于文本$ {t}_{j} $的第$ l $个文本事件${\boldsymbol{r}}_{{t}_{i}}^{\,l}$，我们用其与视频$ {v}_{i} $的$ k $个事件中语义相似性打分的最大值表示文本事件${\boldsymbol{r}}_{{t}_{i}}^{\,l}$与视频$ {v}_{i} $的语义相似度，即${\boldsymbol{B}}^{ij}$第$ l $列的最大值，记为${S}_{{{\boldsymbol{t}}}_{j}^{l}{v}_{i}}=\underset{z}{\mathrm{max}}{B}_{zl}^{ij}$. 文本$ {t}_{j} $到视频$ {v}_{i} $的语义相似度则被定义为其$ k $个文本事件与视频$ {v}_{i} $的语义相似度的均值，即${S}_{{{t}}_{j}{v}_{i}}=\dfrac{1}{k}\displaystyle\sum\limits _{l=1}^{k}{S}_{{\boldsymbol{t}}_{j}^{l}{{{v}}}_{i}}$.

最终, 视频$ {v}_{i} $与文本$ {t}_{j} $的语义相似性打分$ s({v}_{i},{t}_{j}) $被定义为视频$ {v}_{i} $到文本$ {t}_{j} $的语义相似度$ {S}_{{v}_{i}{t}_{j}} $和文本$ {t}_{j} $到视频$ {v}_{i} $的语义相似度$ {S}_{{t}_{j}{v}_{i}} $的均值，即$s({v}_{i},{t}_{j})= \dfrac{1}{2}({S}_{{v}_{i}{t}_{j}}+{S}_{{t}_{j}{v}_{i}})$.

2.5 目标函数

本文使用对称交叉熵损失作为CLIPMERG的目标函数$ L $以优化模型参数，对称交叉熵损失定义为：

$$ {L}_{\mathrm{V}2\mathrm{T}}=\dfrac{1}{n}\sum\limits _{i=1}^{n}\dfrac{\mathrm{e}\mathrm{x}\mathrm{p}\left(s\right({v}_{i},{t}_{i}\left)\right)}{\displaystyle\sum_{j=1}^{n}\mathrm{e}\mathrm{x}\mathrm{p}\left(s\right({v}_{i},{t}_{j}\left)\right)} , $$

(10)

$$ {L}_{\mathrm{T}2\mathrm{V}}=\dfrac{1}{n}\sum\limits _{i=1}^{n}\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left(s\right({v}_{i},{t}_{i}\left)\right)}{{\displaystyle\sum_{j=1}^{n}}\mathrm{e}\mathrm{x}\mathrm{p}\left(s\right({v}_{j},{t}_{i}\left)\right)} , $$

(11)

$$ L=\dfrac{1}{2}{(L}_{\mathrm{V}2\mathrm{T}}+{L}_{\mathrm{T}2\mathrm{V}}). $$

(12)

式（10）~（12）中L的下标V2T表示视频检索文本，T2V表示文本检索视频. 式（12）是由2个标准对比损失构成，其中对比损失$ {L}_{\mathrm{V}2\mathrm{T}} $的目标是使得视频$ {v}_{i} $与来自同一个视频文本对中的文本$ {t}_{i} $的相似性$ s({v}_{i},{t}_{i}) $大于v_i与来自其他视频文本对中的文本$ {t}_{j} $的相似性$ s({v}_{i},{t}_{j}) $；类似地，$ {L}_{\mathrm{T}2\mathrm{V}} $的目标是使得文本$ {t}_{i} $与来自同一个视频文本对中的视频$ {v}_{i} $的相似性$ s({v}_{i},{t}_{i}) $大于t_i与来自其他视频文本对中的视频${v}_{j}$的相似性$ s({v}_{j},{t}_{i}) $. 因此，通过最小化式（12），将会使得匹配的视频文本对中的视频文本相似性$ s({v}_{i},{t}_{i}) $大于来自不同视频文本对中的数据之间的相似性.

3. 实验分析

3.1 实验数据及评价指标

我们在3个公开视频文本数据集上进行实验,包括MSR-VTT^[22], DiDeMo^[23], LSMDC^[24]. 这3个数据集的详细划分如表1所示.

表 1 数据集划分

Table 1. Datasets Division

数据集	训练数据对	验证数据对	测试数据对
MSR-VTT	180 000	0	1000
DiDeMo	8 395	1 065	1 004
LSMDC	109 673	7 408	1 000

下载: 导出CSV

| 显示表格

MSR-VTT数据集包含了10 000个视频，每个视频的时长在10~32 s之间，且每个视频对应了20个文本描述. 对于该实验数据集的划分，我们采用与CLIP4Clip^[13]一样的划分方式. 具体地，我们使用其中的9 000个视频及其对应的文本描述作为训练集，其中每个视频有20个与其相对应的文本，因此训练集总共有18万个视频文本对；测试集则用剩余的1 000个视频以及其对应的文本构成1 000个视频文本对.

DiDeMo数据集包含10 464个视频，每个视频有3~5个句子描述. 按照CLIP4Clip^[13]的实验设置，我们将每个视频的所有句子描述，拼接起来作为整个视频的最终描述，并且我们用其中的8 395对视频文本对作为训练集、1 065对视频文本对作为验证集以及剩余的1 004对图片文本对作为测试集.

LSMDC数据集包含了118 081对视频文本对，这些视频是从202部电影中抽取出来的，并且每个视频的时长在2~30 s之间. 对于该数据集，我们用其中的109 673对视频文本对作为训练集、7 408对视频文本对作为验证集以及剩余的1 000对视频文本对作为测试集.

本文使用标准的视频文本检索的评价指标R@K, MdR, MnR. 其中，R@K表示返回前$ K $个检索结果中包含与查询样本相关结果的查询点占总查询点数的比例，该值越高表示检索效果越好. 在本文中主要考察R@1, R@5, R@10；MdR表示返回结果中与查询点相关结果排名的中位数，该值越低表示结果越好；MnR表示返回结果中与查询点相关结果排名的均值，该值越低表示检索效果越好.

3.2 基准模型及实验细节

我们将所提方法CLIPMERG与MMT^[4], SSB^[5], ClipBERT^[12], Frozen^[16], CLIP4Clip^[17], CAMoE^[18], MDMMT^[19], CLIP^[21], HiT^[28], TT-CE+^[29], CE^[30]进行了比较. 其中：ClipBERT提出了一个通用的端到端的视频文本学习框架，通过稀疏采样用部分视频片段来表示整个视频以训练模型；SSB通过将跨实例间的视频描述生成任务作为辅助任务以拉近相似的视频、文本表示间的距离；HiT通过考虑视频、文本间的层次信息来提升模型检索效果； CE通过聚合不同模态预训练模型中的信息来辅助视频文本检索；MMT通过利用原视频、音频等不同模态特征来对齐视频文本的表征；Frozen将一张图片视为单帧视频, 并设计了课程学习计划使得模型能在图像和视频数据集上进行训练；MDMMT通过着重关注文本中有关动作的单词来提升模型检索效果；CLIP4Clip通过在检索数据集上微调预训练模型CLIP来将视频文本映射到同一个特征空间；CAMoE通过从数据点的实体、动作以及全局3个视角计算视频文本之间的相似性关系以提升模型的检索效果.

在实验过程中，本文方法对实验数据集的划分与CLIP4Clip和CAMoE方法的划分一致，故所有对比方法的实验结果均来源于文献[17-18]. 本文所提方法CLIPMERG的视频编码器以及文本编码器的参数用预训练好的CLIP模型中相应编码器的参数初始化，CLIPMERG中的其他参数则随机初始化. 设置视频、文本的事件数k=4. 通过使用Adam^[31]优化器优化模型，每次采样的批次大小为128，CLIPMERG模型参数中，由CLIP模型参数初始化部分的学习率为1E−7，其余部分的学习率为5E−5.

3.3 视频文本检索实验结果

为了评估本文所提出的基于CLIP生成多事件表示的视频文本检索方法CLIPMERG的有效性，我们分别在数据集MSR-VTT上进行了文本检索视频任务以及视频检索文本任务实验，实验结果如表2所示. 在数据集DiDeMo以及数据集LSMDC上进行了文本检索视频任务实验，实验结果分别展示在表3和表4中. 另外，在表2~4中，除CLIPMERG的实验结果均来源于CLIP4Clip.

表 2 CLIPMERG与基准方法在数据集MSR-VTT上的结果

Table 2. Results of CLIPMERG and All the Baselines on MSR-VTT Dataset

是否基于CLIP	方法	文本检索视频					视频检索文本
是否基于CLIP	方法	R@1/%	R@5/%	R@10/%	MdR	MnR	R@1/%	R@5/%	R@10/%	MdR	MnR
否	CE	20.9	48.8	62.4	9.0	28.2
	MMT	24.6	54.0	67.1	4.0	26.7
	SSB	30.1	58.5	69.3	3.0
	Frozen	31.0	59.5	79.5	3.0
	HiT	30.7	60.9	73.2	2.6
	TT-CE+	29.6	61.6	74.2	3.0
是	CLIP	31.2	53.7	64.2	4.0		27.2	51.7	62.6	5.0
	MDMMT	38.9	69.0	79.9	2.0	16.5
	CLIP4Clip	44.5	71.4	81.6	2.0	15.3	42.7	70.9	80.6	2.0
	CAMoE	44.6	72.6	81.8	2.0	13.3	45.1	72.4	83.1	2.0	10.0
	CLIPMERG（本文）	48.4	74.0	82.8	2.0	12.3	47.9	75.2	85.1	2.0	10.0
注：黑体值表示最优结果.

下载: 导出CSV

| 显示表格

表 3 CLIPMERG与基准方法在数据集DiDeMo上的结果

Table 3. Results of CLIPMERG and All the Baselines on DiDeMo Dataset

是否基于CLIP	方法	文本检索视频
是否基于CLIP	方法	R@1/%	R@5/%	R@10/%	MdR	MnR
否	CE	16.1	41.1	NA	8.3	43.7
	ClipBERT	20.4	48.0	60.8	6.0
	TT-CE+	21.6	48.6	62.9	6.0
	Frozen	31.0	59.5	79.5	3.0
是	CLIP4Clip	43.4	70.2	80.6	2.0	17.5
是	CLIPMERG （本文）	44.3	72.8	81.9	2.0	14.7
注：黑体值表示最优结果.

下载: 导出CSV

| 显示表格

表 4 CLIPMERG与基准方法在数据集LSMDC上的结果

Table 4. Results of CLIPMERG and All the Baselines on LSMDC Dataset

是否基于CLIP	方法	文本检索视频
是否基于CLIP	方法	R@1/%	R@5/%	R@10/%	MdR	MnR
否	CE	11.2	26.9	34.8	25.3	96.8
	MMT	12.9	29.9	40.1	19.3	75.0
	Frozen	15.0	30.8	39.8	20.0
	HiT	14.0	31.2	41.6	18.5
	TT-CE+	17.2	36.5	46.3	13.7
是	CLIP	11.3	22.7	29.2	56.5
	MDMMT	18.8	38.5	47.9	12.3	58.0
	CLIP4Clip	21.6	41.8	49.8	11.0	58.0
	CAMoE	22.5	42.6	50.9		56.5
	CLIPMERG （本文）	24.2	43.5	53.0	9.0	57.7
注：黑体值表示最优结果.

下载: 导出CSV

| 显示表格

由表2~4的实验结果可知，CLIPMERG视频文本检索方法能取得比现有方法更好的检索效果. 如表2所示，在MSR-VTT数据集上，本文所提方法CLIPMERG相比于实验效果最好的基准方法CAMoE，在文本检索视频任务的$ \mathrm{R}@1 $, $ \mathrm{R}@5 $, $ \mathrm{R}@10 $等指标上取得了3.8%, 1.4%, 1.0%的提升；在视频检索文本任务的$ \mathrm{R}@1 $，$ \mathrm{R}@5 $，$ \mathrm{R}@10 $等指标上取得了2.8%，2.8%，2.0%的提升. 如表3所示，在DiDeMo数据集上，本文所提方法CLIPMERG相比于方法CLIP4Clip，在文本检索视频任务的$ \mathrm{R}@1 $, $ \mathrm{R}@5 $，$ \mathrm{R}@10 $，MnR等指标上取得了0.9%，2.6%，1.3%，2.8的提升. 如表4所示，在LSMDC数据集上，本文所提方法CLIPMERG相比于方法CAMoE，在文本检索视频任务的$ \mathrm{R}@1 $, $ \mathrm{R}@5 $, $ \mathrm{R}@10 $等指标上取得了1.7%，0.9%，2.1%的提升. 表2~4充分表明，本文所提方法CLIPMERG通过利用预训练模型CLIP为视频文本分别生成事件表示来定义视频文本间相似性的方式比现有的视频文本检索方法取得更好的实验效果.

3.4 消融实验

为了验证本文提出的为视频、文本数据分别生成多个事件表示, 并通过这些事件间的细粒度的相似性关系更好地刻画岀视频与文本间的语义相似性关系这一想法的有效性, 我们提出了1个CLIPMERG的变种CLIPMERG_1, 即在计算视频与文本相似性关系时直接用视频的视频帧token序列的平均池化后的全局特征与文本的EOS特征直接进行点积表示, 并在数据集MSR-VTT, DiDeMo, LSMDC上做实验, 实验结果如表5所示.

表 5 CLIPMERG与其变种在3个数据集上的实验结果

Table 5. Experimental Results of CLIPMERG and Its Variants on Three Datasets

数据集	方法	文本检索视频					视频检索文本
数据集	方法	R@1	R@5	R@10	MdR	MnR	R@1	R@5	R@10	MdR	MnR
MSR-VTT	CLIPMERG_1	46.0	73.3	81.9	2.0	13.2	46.6	74.0	82.7	2.0	11.5
MSR-VTT	CLIPMERG（本文）	48.4	74.0	82.8	2.0	12.3	47.9	75.2	85.1	2.0	10.0
DiDeMo	CLIPMERG_1	41.5	70.4	79.1	2.0	18.2	42.4	72.0	81.1	2.0	11.5
DiDeMo	CLIPMERG（本文）	44.3	72.8	81.9	2.0	14.7	45.3	72.9	82.1	2.0	9.8
LSMDC	CLIPMERG_1	22.6	42.0	52.1	9.0	58.8	24.1	42.7	51.2	10.0	48.5
LSMDC	CLIPMERG（本文）	24.2	43.5	53.0	9.0	57.7	25.0	42.8	51.9	9.0	48.1

下载: 导出CSV

| 显示表格

由表5可以发现, CLIPMERG相比于CLIPMERG_1在3个数据集上均能取得更好的实验效果. 如在数据集DiDeMo上, 在文本检索视频的任务中CLIPMERG在R@1, R@5, R@10, MnR等指标上分别取得了2.8%, 2.4%, 2.8%, 3.5的提升. 表5表明, 通过挖掘视频与文本中事件间的细粒度相似性关系将能更好地刻画出视频与文本间的语义相似性关系, 进而提升视频、文本间的检索效果.

3.5 参数敏感性分析

为了充分探讨视频、文本数据生成不同的事件个数$ k $对模型最终的检索效果的影响，本文展示了随$ k $值变化，CLIPMERG模型在${\rm{ R}}@1 $指标上的检索效果变化趋势，在数据集MSR-VTT, DiDeMo, LSMDC上的实验结果分别如图3所示.

图 3 视频、文本的事件数$k$对R@1的影响

Figure 3. Influence of the number of video and text events $k$ on R@1

下载: 全尺寸图片幻灯片

由图3可以发现，在这3个数据集中，当事件数$ k $=4时，本文所提的CLIPMERG在文本检索视频（T2V）任务以及视频检索文本（V2T）任务上均能取得不错的实验结果，因此在本文的其他实验中，我们将为每个视频（文本）数据分别生成4个视频（文本）事件表示，然后通过挖掘数据的事件间的细粒度相似性关系以定义数据点间的语义相似性.

3.6 示例展示

图4展示了 CLIP4Clip方法以及CLIPMERG方法在用视频检索文本时的一个示例，其中正确返回的文本为框中的文本. CLIP4Clip方法返回最相似的3个文本，且相似性从左往右依次降低；CLIPMERG方法返回最相似的3个文本，且相似性从左往右依次降低. 可以发现，CLIPMERG的检索效果更好，这表明通过挖掘视频事件与文本事件间细粒度关系能更好地定义视频文本间的语义关系，进而提升模型的检索效果.

图 4 MSR-VTT数据集上视频检索文本示例

Figure 4. The case of video retrieval text on MSR-VTT dataset

下载: 全尺寸图片幻灯片

4. 结　　论

本文提出了一个基于CLIP生成多事件表示的视频文本检索方法CLIPMERG. 该方法通过捕捉视频中事件与文本中事件之间的细粒度相似性关系来更好地计算文本与视频间的相似性关系，进而提升文本视频间跨模态检索效果. 具体地，该方法首先通过利用大规模图文预训练模型CLIP的视频编码器（ViT）以及文本编码器（Tansformer）分别将视频、文本数据转换成视频帧token序列以及文本的单词token序列，而后通过视频事件生成器（文本事件生成器）将视频帧token序列（单词token序列）转换成$ k $个视频事件表示（$ k $个文本事件表示）. 最后，通过挖掘视频事件表示与文本事件表示之间的细粒度关系以定义视频、文本间的相似性关系. 在3个常用的公开视频文本检索数据集MSR-VTT, DiDeMo, LSMDC上的实验结果表明本文所提的CLIPMERG优于现有的视频文本检索方法.

作者贡献声明：涂荣成提出了算法思路、实验方案以及撰写论文；毛先领负责指导实验、撰写论文以及论文润色；孔伟杰、蔡成飞以及赵文哲负责实验部分；王红法以及黄河燕提出指导意见并修改论文.

图 1 本文所提的CLIPMERG与现有方法的区别

Figure 1. Difference between our proposed CLIPMERG and existing methods

下载: 全尺寸图片幻灯片

图 2 CLIPMERG框架

Figure 2. Architecture of CLIPMERG

下载: 全尺寸图片幻灯片

图 3 视频、文本的事件数$k$对R@1的影响

Figure 3. Influence of the number of video and text events $k$ on R@1

下载: 全尺寸图片幻灯片

图 4 MSR-VTT数据集上视频检索文本示例

Figure 4. The case of video retrieval text on MSR-VTT dataset

下载: 全尺寸图片幻灯片

表 1 数据集划分

Table 1 Datasets Division

数据集	训练数据对	验证数据对	测试数据对
MSR-VTT	180 000	0	1000
DiDeMo	8 395	1 065	1 004
LSMDC	109 673	7 408	1 000

下载: 导出CSV

表 2 CLIPMERG与基准方法在数据集MSR-VTT上的结果

Table 2 Results of CLIPMERG and All the Baselines on MSR-VTT Dataset

是否基于CLIP	方法	文本检索视频					视频检索文本
是否基于CLIP	方法	R@1/%	R@5/%	R@10/%	MdR	MnR	R@1/%	R@5/%	R@10/%	MdR	MnR
否	CE	20.9	48.8	62.4	9.0	28.2
	MMT	24.6	54.0	67.1	4.0	26.7
	SSB	30.1	58.5	69.3	3.0
	Frozen	31.0	59.5	79.5	3.0
	HiT	30.7	60.9	73.2	2.6
	TT-CE+	29.6	61.6	74.2	3.0
是	CLIP	31.2	53.7	64.2	4.0		27.2	51.7	62.6	5.0
	MDMMT	38.9	69.0	79.9	2.0	16.5
	CLIP4Clip	44.5	71.4	81.6	2.0	15.3	42.7	70.9	80.6	2.0
	CAMoE	44.6	72.6	81.8	2.0	13.3	45.1	72.4	83.1	2.0	10.0
	CLIPMERG（本文）	48.4	74.0	82.8	2.0	12.3	47.9	75.2	85.1	2.0	10.0
注：黑体值表示最优结果.

下载: 导出CSV

表 3 CLIPMERG与基准方法在数据集DiDeMo上的结果

Table 3 Results of CLIPMERG and All the Baselines on DiDeMo Dataset

是否基于CLIP	方法	文本检索视频
是否基于CLIP	方法	R@1/%	R@5/%	R@10/%	MdR	MnR
否	CE	16.1	41.1	NA	8.3	43.7
	ClipBERT	20.4	48.0	60.8	6.0
	TT-CE+	21.6	48.6	62.9	6.0
	Frozen	31.0	59.5	79.5	3.0
是	CLIP4Clip	43.4	70.2	80.6	2.0	17.5
是	CLIPMERG （本文）	44.3	72.8	81.9	2.0	14.7
注：黑体值表示最优结果.

下载: 导出CSV

表 4 CLIPMERG与基准方法在数据集LSMDC上的结果

Table 4 Results of CLIPMERG and All the Baselines on LSMDC Dataset

是否基于CLIP	方法	文本检索视频
是否基于CLIP	方法	R@1/%	R@5/%	R@10/%	MdR	MnR
否	CE	11.2	26.9	34.8	25.3	96.8
	MMT	12.9	29.9	40.1	19.3	75.0
	Frozen	15.0	30.8	39.8	20.0
	HiT	14.0	31.2	41.6	18.5
	TT-CE+	17.2	36.5	46.3	13.7
是	CLIP	11.3	22.7	29.2	56.5
	MDMMT	18.8	38.5	47.9	12.3	58.0
	CLIP4Clip	21.6	41.8	49.8	11.0	58.0
	CAMoE	22.5	42.6	50.9		56.5
	CLIPMERG （本文）	24.2	43.5	53.0	9.0	57.7
注：黑体值表示最优结果.

下载: 导出CSV

表 5 CLIPMERG与其变种在3个数据集上的实验结果

Table 5 Experimental Results of CLIPMERG and Its Variants on Three Datasets

数据集	方法	文本检索视频					视频检索文本
数据集	方法	R@1	R@5	R@10	MdR	MnR	R@1	R@5	R@10	MdR	MnR
MSR-VTT	CLIPMERG_1	46.0	73.3	81.9	2.0	13.2	46.6	74.0	82.7	2.0	11.5
MSR-VTT	CLIPMERG（本文）	48.4	74.0	82.8	2.0	12.3	47.9	75.2	85.1	2.0	10.0
DiDeMo	CLIPMERG_1	41.5	70.4	79.1	2.0	18.2	42.4	72.0	81.1	2.0	11.5
DiDeMo	CLIPMERG（本文）	44.3	72.8	81.9	2.0	14.7	45.3	72.9	82.1	2.0	9.8
LSMDC	CLIPMERG_1	22.6	42.0	52.1	9.0	58.8	24.1	42.7	51.2	10.0	48.5
LSMDC	CLIPMERG（本文）	24.2	43.5	53.0	9.0	57.7	25.0	42.8	51.9	9.0	48.1

下载: 导出CSV

参考文献(31)

[1]	Zhu Linchao, Yi Yang. ActBERT: Learning global-local video-text representations[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE 2020: 8746−8755
[2]	Luo Huaishao, Ji Lei, Shi Botian, et al. Univl: A unified video and language pre-training model for multimodal understanding and generation [J]. arXiv preprint, arXiv: 2002.06353, 2020
[3]	Li Linjie, Chen Yen-Chun, Cheng Yu, et al. HERO: Hierarchical encoder for video+ language omni-representation pre-training[C]//Proc of the Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2020: 2046−2065
[4]	Gabeur V, Sun Chen, Alahari K, et al. Multi-modal transformer for video retrieval[C]//Proc of European Conf on Computer Vision. Berlin: Springer, 2020: 214−229
[5]	Patrick M, Huang Poyao, Asano Y, et al. Support-set bottlenecks for video-text representation learning [EB/OL]. (2020-04-26) [2022-09-25].https://openreview.net/pdf?id=EqoXe2zmhrh
[6]	Rouditchenko A, Boggust A, Harwath D, et al. Avlnet: Learning audio-visual language representations from instructional videos [J]. arXiv preprint, arXiv: 2006.09199, 2006
[7]	吴法民,吕广奕,刘淇,等. 视频实时评论的深度语义表征方法[J]. 计算机研究与发展,2019,56(2):293−305 doi: 10.7544/issn1000-1239.2019.20170752 Wu Famin, Lü Guangyi, Liu Qi, et al. Deep semantic representation of time-sync comments for videos[J]. Journal of Computer Research and Development, 2019, 56(2): 293−305 (in Chinese) doi: 10.7544/issn1000-1239.2019.20170752
[8]	杨帆, 肖斌, 於志文. 监控视频的异常检测与建模综述[J]. 计算机研究与发展, 2021, 58 （12）: 2708−2723 Yang Fan, Xiao Bin, Yu Zhiwen. Anomaly detection and modeling of surveillance video[J]. Journal of Computer Research and Development, 2021, 58 (12): 2708−2723 (in Chinese)
[9]	于海涛,杨小汕,徐常胜. 基于多模态输入的对抗式视频生成方法[J]. 计算机研究与发展,2020,57(7):1522−1530 doi: 10.7544/issn1000-1239.2020.20190479 Yu Haitao, Yang Xiaoshan, Xu Changsheng. Antagonistic video generation method based on multimodal input[J]. Journal of Computer Research and Development, 2020, 57(7): 1522−1530 (in Chinese) doi: 10.7544/issn1000-1239.2020.20190479
[10]	奠雨洁,金琴. 视听相关的多模态概念检测[J]. 计算机研究与发展,2019,56(5):1071−1081 doi: 10.7544/issn1000-1239.2019.20180463 Dian Yujie, Jin Qin. Audio-visual correlated multimodal concept detection[J]. Journal of Computer Research and Development, 2019, 56(5): 1071−1081 (in Chinese) doi: 10.7544/issn1000-1239.2019.20180463
[11]	周航,詹永照,毛启容. 基于时空融合图网络学习的视频异常事件检测[J]. 计算机研究与发展,2021,58(1):48−59 doi: 10.7544/issn1000-1239.2021.20200264 Zhou Hang, Zhan Yongzhao, Mao Qirong. Video anomaly detection based on space-time fusion graph network learning[J]. Journal of Computer Research and Development, 2021, 58(1): 48−59 (in Chinese) doi: 10.7544/issn1000-1239.2021.20200264
[12]	Lei Jie, Li Linjie, Zhou Luowei, et al. Less is more: ClipBERT for video-and-language learning via sparse sampling[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE 2021: 7331−7341
[13]	Torabi A, Tandon N, Sigal L. Learning language-visual embedding for movie understanding with natural-language [J]. arXiv preprint, arXiv: 1609.08124, 2016
[14]	Kaufman D, Levi G, Hassner T, et al. Temporal tessellation: A unified approach for video analysis[C]//Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 94−104
[15]	Yu Haonan, Wang Jiang, Huang Zhiheng, et al. Video paragraph captioning using hierarchical recurrent neural networks[C]//Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2016: 4584−4593
[16]	Bain M, Nagrani A, Varol G, et al. Frozen in time: A joint video and image encoder for end-to-end retrieval[C]//Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2021: 1728−1738
[17]	Luo Huaishao, Ji Lei, Zhong Ming, et al. CLIP4Clip: An empirical study of clip for end to end video clip retrieval [J]. arXiv preprint, arXiv: 2104.08860, 2021
[18]	Cheng Xing, Lin Hezheng, Wu Xiangyu, et al. Improving video-text retrieval by multi-stream corpus alignment and dual softmax lossl [J]. arXiv preprint, arXiv: 2109.04290, 2021
[19]	Dzabraev M, Kalashnikov M, Komkov S, et al. MDMMT: Multidomain multimodal transformer for video retrieval[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 3354−3363
[20]	Miech A, Zhukov D, Alayrac J B, et al. Howto100M: Learning a text-video embedding by watching hundred million narrated video clips[C]//Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 2630−2640
[21]	Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//Proc of the Int Conf on Machine Learning. New York: ACM, 2021: 8748−8763
[22]	Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale [J]. arXiv preprint, arXiv: 2010.11929, 2020
[23]	Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st Advances in Neural Information Processing Systems. Cambridge, MA: MIT, 2017: 1−11
[24]	Xu Jun, Mei Tao, Yao Ting, et al. MSR-VTT: A large video description dataset for bridging video and language[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 5288−5296
[25]	Anne Hendricks L, Wang O, Shechtman E, et al. Localizing moments in video with natural language[C]//Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 5803−5812
[26]	Rohrbach A, Rohrbach M, Schiele B. The long-short story of movie description[C]// Proc of the German Conf on Pattern Recognition. Berlin: Springer, 2015: 209−221
[27]	Mun J, Cho M, Han B. Local-global video-text interactions for temporal grounding[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 10810−10819
[28]	Liu Song, Fan Haoqi, Qian Shengsheng, et al. HiT: Hierarchical transformer with momentum contrast for video-text retrieval[C]//Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2021: 11915−11925
[29]	Croitoru I, Bogolin S V, Leordeanu M, et al. Teachtext: Crossmodal generalized distillation for text-video retrieval[C]//Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2021: 11583−11593
[30]	Liu Yang, Albanie S, Nagrani A, et al. Use what you have: Video retrieval using representations from collaborative experts [J]. arXiv preprint, arXiv: 1907.13487, 2019
[31]	VKingma D P, Ba J. Adam: A method for stochastic optimization [EB/OL]. (2020-09-05) [2022-09-25].https://openreview.net/forum?id=8gmWwjFyLj