监控视频的异常检测与建模综述

杨 帆1,2 肖 斌2 於志文1

1(西北工业大学计算机学院 西安 710129) 2(香港理工大学工程学院 香港 999077)

摘 要 随着物联网技术的不断发展,监控设备在交通干道、学校医院、商场超市、小区楼宇等公共区域进行了广泛部署.这些监控设备为人们提供了一种隐性安全保障,也产生了大量的监控视频.基于监控视频的异常检测一直是图像处理、机器视觉、深度学习等相关领域的研究热点.对视频异常进行了直观描述和异常检测概述,对出现的一些综述文章进行了分析,针对其覆盖范围不全和特征表示以及模型没有清晰划分.首先从异常检测特征表示、异常检测建模2方面对传统经典的和新兴的视频异常检测算法进行分类和描述.然后从基于距离、概率、重构3个方面将不同的算法进行比较,分析不同模型的优缺点以及每种模型的特性.并对现存算法的评估标准进行归纳并指出了新的更加准确有效的评估指标.最后,介绍了监控视频异常检测常用的数据集,汇总了不同算法在常用数据集上的检测效果,并对未来的研究在实际应用中面临的一些挑战和研究方向进行了探讨.

关键词 监控视频;异常检测;深度学习;时空特征;异常模式;检测方法

随着监控摄像机的大量部署,视频监控在安防、态势检测、行为分析、刑侦等领域具有应用.室内外监控摄像机产生了大量监控视频,视频分析和异常检测成为研究热点.如何在监控视频中有效找到感兴趣的目标对象是其中的一个研究分支.基于视频的异常检测技术发展尤为迅猛,利用这项技术可以及时发现监控区域中的异常事件,提高相关部门的干预和执行效率,从而有效减少人身和财产损失.

视频异常检测的任务是在一个空间定位异常和在视频中确定异常时间,异常是不同于正常模式的活动.异常也被称为新奇、离群和其他类似的术语.视频异常具体可以是机场无人看管的行李,一个在大楼外徘徊的男人或者一个摔倒的老人.

视频异常可以被认为是不寻常的外观或运动属性的出现,或在不寻常的位置或时间出现寻常的外观或运动属性.这个定义隐含的意思是视频异常是依赖于场景的.一个事件在一个场景是异常,在另一个场景可能就不是,完全取决于在特定场景中所约定的异常含义.由于在现实场景中,异常是相对稀少的,并且异常的范围和样本是无法预知的,所以,视频异常检测算法以无监督算法为主.异常标注数据稀少难以训练一个深度卷积神经网络去分离正常类和异常类.模型训练通常需要正常的视频(即不包含任何异常的视频)来表达在特定场景中可能发生的各种正常活动.在训练过程中设计或学习一个正常的模型,测试监控视频数据时,和正常模式有明显偏差的就被认定为异常、比如异常的外观、异常时间段、异常行为等.

监控视频异常检测面临的主要挑战:1)异常事件定义与特定场景的依赖性[1-2];2)异常事件的稀少性、多样性、不可穷举性[3];3)训练样本中包含噪声[4],对训练有干扰;4)数据的隐私性,目前可用的公开数据集较少[5].

图1和图2显示了视频异常检测典型算法的训练和测试过程.首先,在训练阶段,从不包含异常事件的一个或多个视频中提取特征来学习正常活动的模型.然后在测试阶段,给出来自同一场景的新视频,并从中提取特征.利用特征和模型为输入视频的每个像素或者视频块给出异常分数.最后对异常值进行阈值处理,得到异常结果.

Fig.1 Training stage of video anomaly detection

图1 视频异常检测的训练阶段

Fig.2 Testing stage of video anomaly detection

图2 视频异常检测的测试阶段

异常检测和相应的场景是相关的,对应不同的场景,应该有异常的约定.例如,每一个正常的视频可能只显示人们走路.测试视频中的任何其他活动(比如人们打架、骑自行车或开小汽车)都应该被检测为异常.跨多个场景构建单一模型可能没有意义,除非场景在某种意义上是一致的.一种情况是,一个场景中的异常在另一个场景中也是异常.例如,在一个大型超市的不同位置的几个主要监控偷窃的摄相机是“一致的”[6].

另一种情况是,考虑2个摄像机的情况,其中第1个摄像机的场景包含一个不允许人通过的保护草地区域(因此在该区域行走是不正常的),而第2个摄像机的草地区域不是受限区域.在2个场景中检测异常的单一模型将无法检测在第1个场景中是异常的走草地活动,因为它将从第2个场景中学到在草地上行走是正常的.这个例子说明了位置相关异常与单场景视频异常检测兼容,而与多场景视频异常检测不兼容.依赖所在异常(如乱穿马路、人行道行人骑自行车、开车在错误的方向等),包括正常活动发生在不寻常的地方,随处可见的单场景视频异常检测,由于缺乏在不同场景的对应位置,所以不兼容多场景方法.与多场景数据集相比,以位置依赖方式执行的方法在单场景数据集上表现的更好.

现有的许多研究论文并没有明确说明他们使用的是哪种场景模式.这导致了关于应该测试哪些数据集以及应该比较哪些方法显得含糊和混乱;它还会导致对不同方法性能的不同理解.我们认为明确在视频异常检测中使用的问题构建是很重要的.在本文中,我们面向单一场景的视频异常检测,因为它包含一些常见的场景,并且有许多实际应用.

已有的综述文献存在3方面不足:1)文献覆盖不全面,每篇综述仅覆盖了一个发展阶段的文献;2)不同综述采用不同的算法分类策略,没有对算法进行表示形式的关联分析;3)没有汇总已有算法的异常检测效果,对检测模型没有总结归纳.

针对这3方面不足,本文对监控视频异常检测领域的算法进行全面综述,注重将不同算法的特征表示和建模进行对比分析:

1)全面综述该领域的算法,并依据算法的特征表示、算法的模型进行分类;

2)将不同类别的算法进行关联,分析了不同算法的特征表示以及每种模型的特性;

3)提炼了该领域常用的模型假设与相关知识,汇总分析了不同算法的异常检测效果.

本文首先按照视频异常检测的特征表示和模型构建对算法分类;然后逐类概述相关算法,通过对比分析不同算法模型、不同算法的特点;最后介绍该领域的常用公共数据集、评估标准,并汇总不同算法的检测效果,对未来的研究趋势进行探讨.

1 视频异常分类及检测概述

1.1 视频异常分类

根据一些公开的视频数据集和对监控视频的特点分析,把视频异常分成5种类型:

1)外观异常

这些异常可以被认为是场景中不寻常的物体出现.例如人行道上的骑自行车者,或马路上的纸箱.检测这些异常只需要检查1帧视频的局部区域.

2)短期运动异常

这些异常可以被认为是场景中不寻常的物体运动.例如一个人在图书馆跑步,或在军事基地附近闲逛.检测这些异常通常只需要在短时间内检查视频的局部区域.外观异常和短期运动异常可以进一步称为局部异常,因为它们具有额外的属性.

3)长期轨迹异常

这些异常可以被认为是场景中不寻常的物体轨迹.例如在人行道上拐来拐去的人,或在车流中不断加塞的汽车.检测轨迹异常需要检查较长时间的视频片段.

4)群体异常

群体异常可以被认为是场景中不寻常的物体相互作用.比如一群人突然向四周跑动.检测群体异常需要分析视频中2个或多个区域之间的关系.

5)时间异常

这种异常与所有其他类型的异常是正交的.使这些活动异常的是它们发生的时间.这些异常在本质上与前面讨论的位置相关异常非常相似,只是相关的上下文是时间而不是空间.举个例子,人们在黎明时分进入游乐场.通常,检测这些异常只需要在一天的不同时间使用不同的正常状态模型.

1.2 关于视频异常检测的概述

对于一个应用来说,并不是所有这些不同类型的异常都需要检测.因此,视频异常检测进一步依赖于所处环境.事实上,在我们所描述的用于检测视频异常的公开数据集中,主要只有外观异常和短期运动异常.我们还应该注意到,不同类型的反常现象并不相互排斥.实际上,很难找到上面列出的某些类型的示例.对于异常人们通常认为是一个二分类场景,但实际上视频中的异常是有连续性的,它要维持一定的时间.当2个活动相似时,找到与我们的直觉概念相对应的特征是创建较好的视频异常检测算法的关键.

Wang等人[5]的工作把视频异常检测分为不同发展阶段,以及每个阶段分为一些具有共性的模型类型.Ramachandra等人[6]的工作从表示主题和方法评估给出了总结.Sodemann等人[7]的综述文献是在深度学习兴起的2012年之前写的,所以没有把一些近几年的重要工作包含进去.2篇只关注基于深度学习的视频异常检测综述[8-9],但是大量的过去的工作没有利用深度学习,都是用特征描述子去提取视频特征.本文对过去一些经典的工作和最近几年的相关工作做了一个总结.从视频异常检测的特征表示和模型构建进行分类和评估比较.

2 视频异常检测方法分类

从视频的高级语义层面看,以往的视频异常检测工作可以分为基于距离的、基于概率的和基于重构的3种方法[6].了解这些方法的工作原理以及它们之间细微的相似性和差异.我们回顾了在一些视频异常检测数据集上评估性能的代表性工作,同时也对该领域的重要成果进行了一些分析.这些方法并不是相互排斥的,似乎以距离为基础的方法很容易用概率解释.基于图1和图2所示的视频异常检测背后的本质,我们进一步根据它们所采用的特征表示和建模策略对方法进行分类.

2.1 基于特征表示的主题

总体来说,视频异常检测方法使用了2类表示,手工制作的特征和以CNN为基础的深度特征.手工特征包括时空梯度[10]、动态纹理[11-12]、梯度直方图(histogram of gradient, HOG)[13-14]、光流直方图(histogram of optical flow, HOF)[15-16]、前景掩膜(foreground masks)[17-18].深度学习的特征表示方法是从一个预训练网络[19-23]提取特征,或者是优化特定任务相关的异常检测,例如自编码器(auto-encoder, AE)优化重构误差[24-29].

特征表示中的另一个考虑是异常检测处理的原子单位.算法处理的原子单元从图像块(image patch)[15,17,27]到视频块(video patch)[2,9-11,13,15,21,25,27,29-36]再到单一完整的视频帧[19,20,37-39]到多尺度固定大小的块[17,27,40]再到任意大小的候选区域[41].

2.2 检测方法的建模

视频异常检测方法有一些不同的建模方法,有使用one-class支持向量机(one-class support vector machine, OC SVM)[2,19,27,29].一些研究工作只关注视频帧级异常定位,在大多数情况下,这意味着该目标[15]已内置于模型中,因此模型无法执行足够的空间定位[1,13,42-44].有些研究没有特别说明异常的位置依赖性[15,22,25,37].例如,使用完整帧或视频片段作为原子处理单元的方法往往忽略了这一特性.这些方法无法区分在学校外闲逛和在学校旁边的公园闲逛[1,13,44].另一些人用2种方式之一来解释异常的位置特殊性:1)根据体素在视频帧中的位置来给出异常得分[14,30-31,36];2)以来自邻近体素的信息形式提供额外的上下文进行评分[12,35,40].

3 基于距离的方法

基于距离的方法是使用训练数据来构建一个正常模型,并从这个模型中测量偏差来确定异常的分数.通常,这些模型本身非常简单,但是巧妙地表示会带来良好的性能.以距离为基础的方法可以被视为概率和基于重建的方法的一种更一般的形式.

文献[14]中作者以异常具有局部时空特征为前提,使其在局部正常数据的联合概率分布下具有较低的可能性.他们提取交叠的固定大小的视频块,并用低级运动描述符表示它们.他们使用时空滤波器对这些表示进行统计,并计算每个训练和测试视频中每个位置的视频块的K近邻(K-nearest neighbor, K-NN)距离.然后,他们通过聚合加权的K-NN距离来计算一个综合得分.对训练和测试视频的所有视频块的综合分数进行排序,进而完成最终的检测.

文献[38]中作者从视频片段中提取了一组社会力[45],HOG[46],HOF[47]和密集轨迹[48-49],使用线性径向基函数(radial basis function, RBF)或多项式核来执行异常检测.在文献[27]中,Xu等人提出了使用学习表示与深度网络进行视频异常检测的首创方法.他们利用堆叠去噪自编码器(denoising auto-encoders, DAE)的2种流(RGB和光流)在多尺度固定大小的重叠视频块上学习低维表示.然后,利用带有RBF核的OC SVM[50]中DAE的潜在编码,对异常检测进行分类.他们进一步提出了2种方式来实现融合,分别是在特征表示阶段和后面的异常得分阶段.

文献[19]提出了利用预先训练好的卷积神经网络(convolutional neural network, CNN)进行视频异常检测.这是使用单帧作为原子处理单元的方法之一,在每一帧上训练一个OC SVM,线性核是在VGG-f网络中提取的深度特征上得到的[51].他们利用时空滤波器平滑评分图,并通过将视频分割成固定大小的视频块,简单地将异常分数聚合到补丁区域来进行定位.在文献[26]中,作者首先将视频分割成固定大小的小视频块.在级联方案的第1阶段,使用一个简单的2层稀疏自编码器和嵌入弱高斯分类器拒绝正常块.在第2阶段,他们将剩下的小块作为时空兴趣点,从其邻域中提取较大的视频块,由一个更深层次的4层稀疏自编码器组成,该自编码器按照分层方式训练,并在潜在层中嵌入类似的弱高斯分类器.对于未分类成正常类的视频块,使用每个中间表示接收到的马氏距离进行打分,如果4个马氏距离都大于一个阈值,则认为是异常.

文献[28]中作者从训练视频训练了一个简单的2层稀疏自编码器重构非重叠的固定尺寸视频块.他们认为稀疏表示层是一个全局描述符.对于局部描述符,它们用一个结构相似度度量向量[52]来表示每个patch对其时空邻居的关系.通过计算马氏距离来检测异常,训练高斯估计函数,并且只有特征表示和指定异常时的高斯分布有较大的马氏距离时才确定异常.

文献[53]中提出了一种使用卷积赢者通吃自动编码器的方法[54],从固定尺寸的视频块的光流场中学习运动特征表示.然后,他们使用学习到的运动特征表示来构建依赖位置的OC SVM来进行异常评分.

文献[55]中作者提出了一种独特的几何方法来检测异常.他们使用来自训练帧的密集轨迹来创建一个扩展凸包的集合[56],在测试时使用多曲面包含测试来识别异常,推测使用它们到凸壳的距离来为单个轨迹打分.他们还聚类潜在的异常轨迹,以检测异常区域和过滤出小的假阳性检测.

文献[57]中作者使用生长的Neural Gas[58]算法对从视频片段或视频块中提取的STIP特征[59]建立了正常模型.他们认为,过去的方法没有充分处理不断变化的场景,并提出以插入、删除、学习率自适应和停止标准的方式在线更新GNG模型.在GNG模型中,通过研究距离的分布,简单地判断新模式是否与最近邻存在显著差异,就可以进行检测.

文献[23]也使用了预先训练好的深度网络的特征,但采用了2步级联异常检测方法.首先,作者从一个预先训练好的CNN中提取一个视频片段的特征图(feature map),并对训练数据上的特征图进行高斯估计,评估其马氏距离.在这个阶段,他们通过简单地回滚特征图中像素的接受域来生成分数图.对于那些马氏距离在中间范围的进一步通过位置无关的裁剪特征映射到一个稀疏自编码器,训练裁剪产生更多不同的特性,并使用一个近似高斯分布的假设区分异常.

文献[21]中作者提出了另一种预训练卷积神经网络AlexNet,并从中提取图像特征的方法[60].作者还提出了一种双流模型,在外观特征和光流场上运行.利用CNN提取的特征,作者通过一个预先训练好的二分类全卷积网络并使用迭代量化Hash[61]来为每一帧生成二进制映射.然后作者开发了一个时间CNN模式(temporal CNN pattern, TCP)度量,一个随着时间变化的外观特征的统计数量测量,2个流的融合产生了最终的异常分数图.

文献[29]提出了一种使用对抗性训练来检测视频异常的方法.他们使用一个判别器(discriminator, D)网络来区分原始的图像块和由去噪自编码器网络(R)得到有噪声的图像块的重构.由于R只在训练数据的图像块上进行训练,所以它可以去除异常值,使得D可以很容易地从重构的图像块中辨别出异常值.

文献[2]中作者提出了一种2阶段异常检测算法.他们从训练视频中提取固定大小的视频块并添加位置、外观(从预训练的CNN中提取特征图)和运动信息(以3D梯度的形式).对于第1阶段的检测,他们执行k-means聚类和消除小聚类对应的噪声/异常值,以创建一个鲁棒的表示.第2阶段检测是建立K个OC SVM(每簇一个),建立一个缩小的正常聚类模型,在测试时将这K个OC SVM下的一个测试块的最大得分作为异常得分.

文献[24]中作者在文献[2]工作的基础上,将异常检测问题转化为K个多类one-rest分类问题.他们利用特征金字塔网络[62]对作物进行提取,对这些裁剪框的外观和梯度特征进行卷积自动编码器的训练,以学习潜在表示,然后进行k-means聚类,训练K个OC SVM进行二值单对剩余分类.在测试时,他们简单地使用K个分类分数最大值的倒数作为异常分数.它们不报告空间定位性能.

文献[18]中作者提出了2种基准算法,以便将来在他们新发布的数据集Street Scene上进行比较.他们使用简单的最近邻位置相关的异常检测方案,使用手工制作的视频块表示(光流场或模糊的前景掩模)和手工制作的距离测量(分别为L1或L2归一化体素方向的距离).通过从训练数据中构建一个简洁的代表性范例模型,极大地减少了距离计算的次数.有趣的是,这些简单的方法能够在其他数据集上胜过以前的一些先进的方法,这可能表明算法已经发展出了针对特定数据集的倾向.

文献[30]中作者通过训练一个Siamese神经网络[63],将手工制作的表示和距离函数替换为学习的表示和距离函数,建立了简单的最近邻方案.Siamese网络通过训练将视频块对分类为相似或不同,并用来找到与所有训练视频块不同的测试视频块,因此判定是异常的.从目标数据集的训练数据中学习一个样本模型(包含所有唯一的正常视频块).最后,使用经过训练的Siamese网络中的测试视频块和样本之间的最近邻居评分来为每个测试视频块分配异常评分.

4 基于概率的方法

概率方法是在一定的概率空间中计算模型下的估计值.这些方法通常旨在承认建模到一个概率框架,如概率图模型(probabilistic graphical models, PGMs)或概率分布的高维混合.

文献[36]中作者在摄像机框架上使用固定位置的监视器,该监控器有一个固定大小的存储缓冲区用来存储光流场.当给定相应的监视器缓冲,那些测试光流以低可能性呈现,他们把模型作为一个柱状图观测或使用核密度估计进而认定为异常.文献[64]中作者介绍了首次利用社会力模型[45]的建模方法.他们在视频上放置一个粒子网格,并用来自视频的光流来引导它们,估计社会力的相互作用,这大致是一个像素的光流和其附近的平均光流之间的差异.它的理念是,一个像素与其相邻像素不同的原因是由于粒子之间的相互作用.这些社会力的相互作用被映射到成像平面上,从而产生一个称为力流的映射.然后,他们在每个视频片段的随机训练视频块上创建一个潜在的狄里克雷分配(latent Dirichlet allocation, LDA)[65]词袋模型(其中单词是力流的时空区域),并在模型下将检测低似然帧作为异常,通过简单地检测高力流区域来实现定位.

文献[43]中作者通过简单的背景减除计算每个像素的二值运动标签.利用每个像素点周围的时空邻域计算正常数据的运动标签表示的共现统计量,并利用共现矩阵作为Markov随机场的势函数,通过似然比测试进行异常检测.文献[34]中作者用时空梯度表示视频.他们使用多元高斯函数来建模视频块的分布,并用混合高斯函数来表示视频帧中给定位置的视频块的分布.最后,他们使用一个耦合的隐Markov模型来合并视频块之间的时空相关性的影响[66].

文献[35]的混合物,将每个视频片段表示为图中的1个节点.作者通过计算测试时正常的最大后验估计来检测异常,还展示了模型是如何不断更新以适应环境变化和概念漂移的.文献[11]中作者提出通过训练视频块学习混合动态纹理(mixture of dynamic textures, MDT)[67-68],并在更大的区域共享混合纹理.作者检测异常的方式,就像鉴别显著性标准所给出的那些具有高中心-环绕显著性的区域[69]一样.文献[12]中作者建立在MDT表示的基础上,使用条件随机场[70]框架从多个尺度整合时空异常分数.

文献[17]的作者使用了一个相当独特的前提,通过使用从训练数据中获得的信息来解释测试数据中的正常模式,间接地进行异常检测.他们寻求一种视频分析方法,同时发现前景目标假说,共同解释前景在一个框架和那些匹配的正常样本假说.那些在测试时需要解释前景但与正常训练数据中的样本假设不匹配的对象假设是不正常的.文献[40]中作者通过考虑灵活的视频管道而不仅仅是图像块样式的对象假设进一步建立了这个想法.文献[16]用k-means聚类形成码本,检测到距离第k个最近邻居距离大的局部异常.对于全局异常,作者考虑STIP特征的集合来构建交互模板的高级码本,并用RBF核为每个模型构建高斯过程回归(Gaussian process regression, GPR)模型[71].然后,作者将第k个最邻近的GPR模型下的低似然测试集指定为异常.

文献[20]中作者提出了一种独特的方法来叙述被检测到的异常事件.作者首先训练一个Fast-RCNN[72]模型来预测大规模分类数据集COCO[73]和视觉基因组[74]图像数据集中的对象、动作和属性类.然后对每一帧从倒数第2层全连接层提取感兴趣区域的特征,并利用与训练样本的最近邻距离、基于RBF核的OC SVM或基于RBF核密度估计的似然值进行异常检测.通过简单地观察对象、动作和属性类的最大预测来进行.

文献[75]从正常图像块的3维梯度中提取深层特征表示.然后,作者使用深层GMM[76-77]来建模正常模式的生成过程,最大化对数似然的下限.深度GMM模型简单地产生测试模式的似然分数,用作异常分数.

5 基于重构的方法

视频异常检测领域,重构方法的目的是将输入视频帧进行特征提取和分解,然后将它们重新组合起来以重构输入.原理是基于这样一个前提:与分布内的正常数据相比,分布外的输入(如异常)在本质上更难重建,因此证明使用重构误差作为异常分数的判别是合理的.

文献[13]中作者训练了一个卷积自编码器以像素级L2损失重构训练视频片段.在测试视频片段重构误差,标准化每个视频序列,作为视频序列的异常分数,视频序列不执行空间定位,关注的是时间定位.通过几个数据集的训练数据作者还训练了一个通用的自编码器,并显示出良好的泛化性能.

文献[25]中作者在文献[13]中卷积自编码器架构之上,通过卷积保持帧的时序顺序,并在瓶颈层使用专门的convolutional LSTM[78]层对时序信息建模,得到了时空特征信息.文献[37]中作者尝试首次使用生成对抗网络(GANs)[79]进行视频异常检测.作者训练了2种条件GANs,将其(x,z)帧和噪声向量对作为输入,并生成一个不同模态的对应帧y(在2个GANs上,作者使用原始帧到光流,反之亦然).判别器对(x,y)帧的真实或虚假给出表示.假设异常不能很好地重构,则融合2种模式的重构误差,将光流误差加权设为原始视频帧的2倍,并对每个视频进行归一化,实现异常的检测评分和像素级定位.

文献[80]中作者使用限制玻尔兹曼机(restricted Boltzmann machines, RBMs)[81]对固定大小的原始视频块进行特征学习和重构,在测试阶段,结合从不同金字塔层级和重叠视频块的重构误差,得到一个异常分数.文献[3]中作者认为对于异常活动,预测视频片段的未来帧要比预测正常的帧更难,因此设计了一个未来帧预测框架.作者训练了一个U-net样式的网络[82],网络以长度为t的训练视频片段为输入,并预测时间为t+1的未来帧.此外,作者使用Flow Net[83]估计时刻t的帧与时刻t+1的真实帧或重构帧之间的光流映射对.重构的光流图、像素强度梯度和方向梯度之间的L1损失,以及在时刻t+1区分真实帧和重构帧的对抗损失,然后对每个视频的误差进行归一化,形成它们的异常分数.

文献[84]中作者通过在一个双流模型中学习共同对象的外观及其相关运动的对应关系来解决这个问题.使用单一帧作为输入,使用一个与预测运动的U-net解码器以及由重构误差损失项控制的重构输入帧的反卷积解码器耦合,构成单一编码器.作者认为整个网络是条件型GAN中的生成器,其中判别器是另一个小网络,用于区分输入帧和相应的由二值分类损失控制的真实/估计流场.作者以交替的方式优化这个cGAN框架.对于测试帧,作者计算块级上的损失分数,并使用每个视频的归一化分数作为最终帧级异常得分.文献[85]中作者认为过去的基于重构的方法在很大程度上是在底层特征上操作的.作者试图通过仅对抽象特征执行异常检测来解决这个问题.首先,作者在原始视频片段和相应的光流场训练去噪自编码器.然后,作者在多个层提取特征表示,并训练类似于文献[37]中的条件GANs.最后,作者将来自多个层次的重构误差映射合并在一起,得到每一帧的一致性得分图.在文献[86]中,作者认为预测和重构可以结合起来,利用两者的优势,平衡两者的劣势.作者试图通过创建一个生成器,操作视频片段组成的2个连续U-net架构,第1个预测一个生成的中间帧,用第2个预测不久的将来帧,通过在强度和梯度模式最小化重构误差训练端到端网络.作者还在ground truth future和predicted future帧对上或在一个类似Patch GAN[78]的更精细的网络上使用了对抗损失.

通过以上3种方法的分类和比较,本文把一些经典的方法的特点进行了提炼,并对使用的特征表示或所用模型给出了分析.以表格形式把3种方法和其所使用的建模方法进行了汇总.在表1中对某一个方法从特征表示和建模2个维度进行划分,在每一个分类中,又包含了具体的方法,属于基于距离、概率和重构3种之中的某一种.方便研究者根据具体的研究问题,从中选择合适的特征表示和建模策略.

Table 1 Approaches Grouping by Representation and Modeling Strategies Taken

表1 表示和建模策略采取的分组方法

相关工作方法表示主题建模主题处理单元输入特征预训练网络模型组件正则化位置依赖空间位置文献[14]距离固定尺寸VPHOF,运动量级NN√文献[38]距离VSHOF,SF,密集轨迹OCSVM文献[27]距离固定尺寸IPRaw,Flow,DeepOCSVM,AE√文献[28]距离固定尺寸VPRaw,DeepAE√文献[26]距离固定尺寸VPRaw,DeepAE√√文献[19]距离FFRaw,Deep√OCSVM√文献[53]距离固定尺寸VPFlow,DeepOCSVM,AE√√文献[55]距离FF密集轨迹√文献[57]距离VS,VPSTIPNN√文献[23]距离VSRaw,Deep√AE√文献[21]距离FF,VSFlow,Deep√√√文献[79]距离固定尺寸IPRaw,DeepAdversarial,AE文献[2]距离固定尺寸VP3Dgrad,Deep√OCSVM√√文献[24]距离固定尺寸VP2Dgrad,DeepOCSVM,AE文献[30]距离固定尺寸VPFlow,Fg-maskNN√√文献[31]距离固定尺寸VPFlow,DeepNN√√文献[36]概率固定尺寸VPFlow√√文献[32]概率固定尺寸VPFlow,SocialForce√文献[33]概率固定尺寸VPFg-maskHMM√√文献[34]概率固定尺寸VP3DgradHMM√√文献[35]概率固定尺寸VPFlowHMM√√文献[39]概率VSFlow√√文献[11]概率固定尺寸VPDT√√文献[17]概率固定尺寸IPFg-mask,FlowOCSVM√√文献[12]概率固定尺寸VPDTHMM√√文献[40]概率固定尺寸VTFg-mask,FlowOCSVM√√文献[16]概率固定尺寸VPSTIP,3DSIFT,HOG,HOFNN√√文献[80]概率固定尺寸VP3DGrad,HOFOCSVM√√文献[20]概率FFRaw,Deep√NN,OCSVM√文献[75]概率固定尺寸IP3DGrad,Deep文献[13]重构VSRaw,DeepAE√文献[1]重构VSRaw,DeepAE√文献[37]重构FFRaw,Flow,DeepAdversarial√√文献[81]重构固定尺寸VPRaw,Deep√√文献[82]重构VSRaw,Flow,Deep,2DGradAdversarial√文献[83]重构FFRaw,Flow,DeepAdversarial,AE√√文献[84]重构VSRaw,Flow,DeepAdversarial,AE√文献[85]重构VSRaw,Flow,DeepAdversarial√

注:VS(video snippets);FF(full frames);VP(video patch);IP(image patch);VT(video tube);Raw(raw data);NN(nearest neighbor);Deep(deep features);Grad(gradients,2D or 3D);Flow(optical flow);AE(auto-encoder);√(具有相应属性);DT(dynamic texture);Adversarial(adversarial net);Fg-mask(foreground-mask).

6 常用数据集及评估标准

6.1 数据集

基准数据集对计算机视觉中任何问题的研究都起着重要的作用.基准数据集有助于定义问题的范围,并提供了一种方法来公平地比较不同算法的特征.对于视频异常检测,有一些公共可用的常用基准数据集.根据ground truth标注的风格、大小和数据集的总体效用提供建议.表2提供了这些数据集的特征信息.

Table 2 Characteristics of Video Anomaly Detection Datasets

表2 异常检测数据集特征

数据集总帧数训练帧测试帧异常事件Subway1254752250010297585UCSDPed185609350921077CUHKAvenue30652153281532447UMN385511StreetScene20325756847146410205

监控视频常用检测数据集有5个:

1)Subway数据集[36].包含地铁站的入口(Subway entrance)和地铁站出口(Subway exit)两个视频文件,异常事件主要有逃票、错误的方向、徘徊等.

2)UCSD数据集[11].包含Ped1和Ped2两个子数据集.数据集中的异常事件有骑自行车的人、滑板、手推车、汽车等.

3)CUHK Avenue数据集[10].有21个视频序列,异常事件包括跑、扔书包、扔文件、徘徊等.

4)UMN数据集[86].共有3个场景,在每个场景中,是以正常的状态开始,人突然向四周跑动为异常事件.

5)Street Scene数据集[18].是一个较新的数据集,包含46个训练片段和35个测试片段,分辨率为1 280×720,是采集自包含自行车道和人行道的双行道场景.数据集很有挑战性,因为发生了各种各样的活动,例如汽车驾驶、转弯、停车、步行、慢跑和推婴儿车的行人,还有骑自行车的人.此外,视频还包括变化的阴影、移动的背景,如旗帜和在风中飘扬的树木以及树木和大型车辆造成的遮挡.异常包括横穿马路和非法掉头以及在训练集中不会发生的事情,例如遛宠物和1名交警给1辆汽车开罚单.

6.2 评估标准

一般而言,异常是与场景相关的,是否是异常完全由测试时发生的活动决定的,但是在训练集(定义正常活动的样本集)中缺失了这些活动.此外,虽然异常是一个流动的概念,但真实标注在本质上是二元的.确定训练视频中缺少哪些活动通常会导致歧义.例如,训练视频中可能会出现2个人并排走在人行道上,四五个人手牵手走在路上的情况.后者应该被标记为异常吗?异常从哪一帧开始?应该把包括2名行人在内的整个区域标记为不正常,还是只在牵手区域周围标示一个紧密区域?这个任务的每个数据集和标注都是不完美的,并且会存在类似这样的歧义.在理想的情况下,对于比较细微的一些姿态和动作变化,评估措施将尝试在实践中不可避免的模糊性的标签给出一个现实的定性算法.

6.2.1 传统标准

从大量先前的工作来看,这一领域的研究使用帧级和像素级曲线下面积(area under the curve, AUC)标准来评估性能,文献[11]首次描述了这一标准,同时也提出了UCSD行人数据集.在文献[11]中,作者没有充分描述评价措施.具体地说,作者将帧中检测到的真正异常像素至少为40%的帧定义为真阳性,否则定义为假阳性.在文献[12]中,作者澄清了假阳性只能被计算在不包含任何异常注释的帧中,也就是说,在有异常的帧中检测到的像素少于40%时,不应该计算为假阳性.这一澄清大大减少了误报的数量.我们认为一些早期的工作可能在对这个评估指标的错误解读下给出了结果,导致被报告的像素级AUC值较低.

帧级标准.检测到的帧指定为得分大于给定异常分数阈值的帧中至少有一个像素的帧.如果检测到的帧根据ground truth判别为异常,则视为真阳性,反之视为假阳性.阳性和阴性的总数由帧级标注决定,并用于计算真阳性和假阳性率.帧级标准不能评估是否已经实现了足够的空间定位,只是对某一时段提供了是否有异常.

像素级标准.检测值为得到的异常分数大于给定异常分数阈值的帧内所有像素.如果在1帧中检测到超过40%为异常标注像素,那么就会计算为异常.如果1帧没有异常标注,即使检测到1个像素,也算假阳性.在这个标准下,即使考虑了空间定位,真阳性和假阳性的计数仍然在帧级别上.阳性和阴性的总数与帧级标准一样.这会产生4方面的影响:

1)即使1个帧中存在多个异常,有可能计算了1个异常,40%的阈值适用于1帧中所有带标注的像素;

2)1个包含异常标注的帧不被认为是假阳性,无论该帧中是否出现错误检测;

3)即使帧中有多个不同的检测区域,没有异常标注的帧只能判断为1个假阳性;

4)该准则不惩罚松散的检测.也就是说,只要检测到40%的标注像素,将检测掩膜更改为整个帧并不会影响性能.

通过改变异常值的临界值,可以得到假阳性率与真阳性率的ROC曲线.ROC曲线下面积(AUC)或等错误率(equal error rate, EER)用于刻画ROC曲线.

一个方法的帧级AUC在像素级AUC上施加了一个上限.文献[30]的作者观察,上面的2)和3)点承认一个简单的后处理步骤,使得进行像素级AUC完全达到上限:扩张检测掩膜与相同大小的一个过滤器框架(即如果在1帧里1个像素检测到异常,使得该帧所有像素异常).这只能提高检测率,而不改变根据像素级准则的假阳性率.虽然这些标准可以用于对不同的视频异常检测算法进行排序,但它们现在已经饱和于较小的数据集(在过去几年帧级AUC在UMN数据集上多次大于99%),显然存在严重的缺陷.

6.2.2 一些新标准

随着对数据评估准确性和全面性的考虑,一些研究人员已经认识到帧级和像素级标准的缺陷,一些研究人员试图提出新的标准来解决这些问题.文献[26]的作者提出了双像素级判据,该判据为像素级判据增加了额外的约束.除了所述检测像素需要覆盖至少40%的标注的异常像素外,所述检测像素的至少10%需要被标注为异常的像素覆盖.换句话说,检测到的像素不能包含太多的正常像素(从而阻止了上述后处理滤波的帮助).虽然这是一种改进,但在多个异常、真阳性和假阳性检测以及多个假阳性检测的帧中,仍然不能正确计算真阳性和假阳性.文献[87]的作者也意识到像素级准则是有缺陷的,并使用目标检测风格的交并比(intersection over union, IOU)来惩罚对CUHK Avenue数据集的检测的变化.这并没有解决真阳性或假阳性多次计数的问题.此外,由于标注格式的差异,他们不能在其他数据集上使用这个基于IOU的标准.

文献[30]的作者提出了2个新的标准,基于区域的和基于轨迹的,以取代以前的标准.新的标准为算法在实践中的表现提供了更为现实的情形.他们提出观点,评估方案应该设计成这样一种方式,以考虑到任何异常检测数据集中可能出现的歧义、偏差和不一致.为了修复旧标准的问题,他们基本上采取了2个步骤.

1)通过提出一种松散目标检测风格的IOU标准来判断空间定位,解释了异常事件标注和检测中固有的模糊性.另外,基于轨迹的准则只要求在异常轨迹中检测到固定百分比帧的异常.

2)把原子检测的真阳性和假阳性计算在内,而不是按照原子来计算帧.这意味着在他们的标准下,一帧可以有不止一个真阳性或假阳性结果,这符合基本直觉.

基于区域的标准.检测值为所有大于给定异常分数阈值的像素.被检测区域是被检测像素的连接部分.如果检测区域具有IOU至少为β的ground truth边界框,则为真阳性.对于每一个检测到的不满足任意ground truth边界框的IOU为β的区域,是一个假阳性.此外,通过跨越多个ground truth边界框,一个被检测区域可能占到多个真阳性计数,但一个ground truth边界框可能只占一个真阳性计数.为了解释空间标注的歧义,以及单个检测区域可能跨越多个边界框标注的事实,文献[30]作者建议将β设置为较低值0.1,这似乎在现有数据集的实践中表现得很好.检测率的计算方法为真阳性的数量除以ground truth标注的边界框的数量.每帧的假阳性率计算为总假阳性率除以测试帧数.

基于轨迹的标准.对于基于区域的判断,检测区域定义为异常分数超过阈值的像素的连通分量.如果所述异常轨迹中的大于α%的异常标注与高维空间IOU为至少β的检测区域重叠,则检测出异常标注的轨迹.假阳性与基于区域的标准一样,即检测到的区域与任何ground truth边界框不重叠.基于轨迹标准的检测率为成功检测到标注的异常轨迹的比例.与基于区域的标准一样,每一帧都会计算误报.作者建议在最初设置α=10来解释时间标注中的歧义.这个标准是目前最能反映真实世界异常检测性能的准则.另一个不错的特性是,当这项措施开始饱和于现有的数据集和研究转移到更严格的数据集时,用于报告结果的数据分析可以增加.由于假阳性是按帧计算的,所以这2种标准的最大可能假阳性率都可能超过1.0.文献[30]建议通过计算每帧假阳性率(从0~1.0)来总结ROC曲线.使用这些新标准的结果是,作者为UCSD Ped1,UCSD Ped2,CUHK Avenue,Street Scene数据集提供了具有独特异常IDs的边界框标注和轨迹IDs.

最后,人们还应该考虑到AUC这样的度量方法只提供了对性能的一个狭隘观点的总结,并且有很多缺点.鉴于这些原因,研究人员应对检测结果提供定性分析和可视化.特别重要的是用不同方法预测的假阳性的质量,如果没有视觉检查是无法捕捉的.一种在测试数据中产生假阳性结果的方法与另一种产生貌似随机的假阳性结果的方法(训练数据中不存在这种情况)相对应,当其他数值测量比如AUC在它们之间具有可比性时.在3个常用数据集上的传统评估标准如表3所示,基于轨迹和基于区域的新评估标准如表4和表5所示.

Table 3 Traditional Evaluation Criteria on the UCSD Ped1,USD Ped2 and CUHK Avenue Datasets

表3 在3个常用数据集上的传统评估标准 %

方法UCSDPed1FrameAUCEERUCSDPed1PixelAUCUCSDPed2FrameAUCEERUCSDPed2PixelAUCCUHKAvenueFrameAUCEERAdam[36]653846.1634218Socialforce[32]67.53119.7634221MPPCA[11]594020.5773014Socialforce+MPPCA[11]673221.3713621VideoParsing[17]911883.69214.076文献[10]91.81563.8Sparsereconstruction[15]861945.3HMDTCRF[28]17.882.718.5AMDN[27]92.11667.290.817STvideoparsing[40]93.912.984.294.610.681.1App+motioncues[80]856590Conv-AE[13]8127.99021.770.225.1Deepeventmodels[75]92.515.169.9Compactfeatures[88]8221.1578419.2Conv-WTA-AE[53]91.915.968.792.811.280.982.124.2RBM[81]70.335.448.986.416.572.178.827.2Convexpolytope[55]78.22462.280.71975.7Sparsecoding[22]92.281.7GAN[37]97.4870.393.514Online-GNG[57]93.865.194Futureframe[82]83.195.4PlugandplayCNN[21]95.7864.588.418Object-centricAE[24]97.890.4Appearance-cGAN[83]96.286.9Memory-augmentedAE[89]94.183.3Predictionreconstruction[85]82.678.496.293.183.7NNvideopatchFGmasks[30]77.325.969.388.318.983.97233Siamesedistancelearning[31]8623.380.49414.19387.218.8

Table 4 Track Region-Based Area Under the ROC Curve for False Positive Rate up to 1.0 on 3 Datasets

表4 在3个数据集上跟踪ROC曲线下基于区域的面积,以获得高达1.0的假阳性率 %

方法TrackAUCRegionAUCPed1Ped2AvenuePed1Ped2AvenueFg-mask[30]84.680.580.946.662.535.8Flow[30]86.583.278.448.35527.3Siamese[31]9089.378.659.27441.2

Table 5 Track-Based, Region-Based, Pixel-Level, and Frame-Level AUC on Street Scene

表5 在数据集Street Scene上基于轨迹的和基于区域的像素级的和帧级AUC %

方法TrackAUCRegionAUCPixelAUCFrameAUCAuto-encoder[13]20.30.161Dictionary[10]102748Flow[30]52111751Fg-mask[30]53213061

7 总结与展望

本文对基于监控视频的异常检测及建模研究进行了综述.我们建立了一个直观的分类,并将过去的研究工作相互关联.同时,本文也希望能够理清不同问题方案、数据集使用、评估标准之间的一些误解以及如何比较使用相容问题方案和评估标准的假设方法.为以后的研究做一些参考,我们提供了一份该领域经典工作在各种数据集的评价标准上的表现,如表3~5中的汇总.我们现在提供了一些好的实践,并阐述了该领域在表示和建模方面的总体趋势的一些观察结果,因为它们与数据集规模的增加和设备计算能力的增强有关.

7.1 表示的趋势

视频异常检测算法的输入表示主要以原始的、固定大小的图像块为主.一些异常需要分析时间信息,因此研究人员转向使用视频块,这需要更多的计算能力.最近,研究人员已经开始使用视频块的多模态表示,使用原始帧以及估计光流场到现在的端到端深度学习方法自动提取特征.有些方法甚至试图利用GPU的先进计算能力来使用整个帧和视频片段作为输入.我们预计,随着在原始视频上使用3D和膨胀的3D卷积(放弃昂贵的光流场计算),输入表示的复杂性增加趋势将会逆转,这在视频动作识别中已经很流行[90].

7.2 模型的趋势

随着技术的发展,建模的趋势有所不同.首先,研究人员使用非常简单的手工制作的特征,这些特征的分布可以通过简单的假设很好地建模.不久,研究人员通过更复杂的模型、更复杂的假设和许多巧妙的工程设计,取得了更好的结果.最近,这一趋势发生了逆转,人们更多地依赖于从数据中学习内在表示,从而更直接地优化一种巧妙设置的优化方案和优雅的建模方法.我们预计这种数据主导的趋势将继续下去,特别是当更大、更复杂的数据集变的可用时.

7.3 展 望

一方面,视频异常检测的研究已经取得了长足的进展;另一方面,以往的研究也忽视了视频异常检测中一些更具有挑战性的问题.在现有的数据集中,徘徊类型的异常并没有在具体的建模中被解决.事实上,大多数过去的方法都无法检测到这类异常,因为它们严重依赖于运动轨迹而忽略了视频的处理部分.研究一种算法,以保留任何最新技术的优点,同时也能够检测徘徊异常,这是一个成熟的贡献领域.视频异常检测方法的另一个挑战是处理罕见但正常活动的能力.这种活动在正常的训练视频中可能很少出现,经常导致假阳性异常检测.这类活动的一个例子是一个行人停下来系鞋带.这种情况可能不会经常发生,而且当异常检测器发出警报时,保安可能不希望它发出警报.所以从正常视频中学到的模型应该不仅包括最常见的正常活动,也包括罕见的正常活动.

在异常的类型方面,异常的群组、轨迹和时间在很大程度上还没有被处理,因为包含这些异常的数据集还不存在.我们期待其他研究人员在不久的将来贡献具有这些特性的数据集.随着研究人员从注重规模较小、不那么复杂数据集的精度变得饱和到更大、更复杂的数据集和更多种类的异常类型,他们将被推到发明新的视频表示,新模型可以实现高检测率低误判率为实际应用服务.

为了提高视频异常检测的效率,多种方式的检测方法可能会出现,其中一种新型的检测方法是人机协作模式,人参与少量的反馈,使得检测模型更新,并且对于一些复杂场景(遮挡情况),人可以很好地辨识而不需要算法去迭代更新.

参考文献

[1]Chong Y S, Tay Y H.Modeling representation of videos for anomaly detection using deep learning: A review[J].arXiv preprint, arXiv:1505.00523, 2015

[2]Ionescu R T, Smeureanu S, Popescu M, et al.Detecting abnormal events in video using narrowed normality clusters[C]//Proc of the IEEE Winter Conf on Applications of Computer Vision(WACV).Piscataway, NJ: IEEE, 2019: 1951-1960

[3]Liu Wen, Luo Weixin, Lian Dongze, et al.Future frame prediction for anomaly detection—A new baseline[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2018: 6536-6545

[4]Popoola O P, Wang Kejun.Video-based abnormal human behavior recognition—A review[J].IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2012, 42(6): 865-878

[5]Wang Zhiguo, Zhang Yujin.Anomaly detection in surveillance videos: A survey[J].Journal of Tsinghua University, 2020, 60(6): 518-529

[6]Ramachandra B, Jones M J, Vatsavai R R.A survey of single-scene video anomaly detection[J].arXiv preprint, arXiv:2004.05993, 2020

[7]Sodemann A A, Ross M P, Borghetti B J.A review of anomaly detection in automated surveillance[J].IEEE Transactions on Systems, Man and Cybernetics Part C: Applications and Reviews, 2012, 42(6): 1257-1272

[8]Kiran B, Thomas D, Parakkal R.An overview of deep learning based methods for unsupervised and semi-supervised anomaly detection in videos[J].Journal of Imaging, 2018, 4(2): 1-25

[9]Chalapathy R, Chawla S.Deep learning for anomaly detection: A survey[J].arXiv preprint, arXiv: 1901.03407, 2019

[10]Lu Cewu, Shi Jianping, Jia Jiaya.Abnormal event detection at 150 FPS in MATLAB[C]//Proc of the IEEE Int Conf on Computer Vision.Piscataway, NJ: IEEE, 2013: 2720-2727

[11]Mahadevan V, Li Weixin, Bhalodia V, et al.Anomaly detection in crowded scenes[C]//Proc of the IEEE Computer Society Conf on Computer Vision and Pattern Recognition.Los Alamitos, CA: IEEE Computer Society, 2010: 1975-1981

[12]Li Weixin, Mahadevan V, Vasconcelos N.Anomaly detection and localization in crowded scenes[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(1): 18-32

[13]Hasan M, Choi J, Neumann J, et al.Learning temporal regularity in video sequences[C]//Proc of the 2016 IEEE Conf on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2016: 733-742

[14]Saligrama V, Chen Zhu.Video anomaly detection based on local statistical aggregates[C]//Proc of the IEEE Computer Society Conf on Computer Vision and Pattern Recognition.Los Alamitos, CA: IEEE Computer Society, 2012: 2112-2119

[15]Cong Yang, Yuan Junsong, Liu Ji.Abnormal event detection in crowded scenes using sparse representation[J].Pattern Recognition, 2013, 46(7): 1851-1864

[16]Cheng Kaiwen, Chen Y T, Fang W H.Video anomaly detection and localization using hierarchical feature representation and Gaussian process regression[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2015: 2909-2917

[17]Anti B, Ommer B.Video parsing for abnormality detection[C]//Proc of the IEEE Int Conf on Computer Vision.Piscataway, NJ: IEEE, 2011: 2415-2422

[18]Ramachandra B, Jones M.Street scene: A new dataset and evaluation protocol for video anomaly detection[J].arXiv preprint, arXiv: 1902.05872, 2019

[19]Smeureanu S, Ionescu R T, Popescu M, et al.Deep appearance features for abnormal behavior detection in video[G]//Proc of the Image Analysis and Processing-ICIAP.Berlin: Springer, 2017: 779-789

[20]Hinami R, Mei Tao, Satoh S.Joint detection and recounting of abnormal events by learning deep generic knowledge[C]//Proc of the IEEE Int Conf on Computer Vision.Piscataway, NJ: IEEE, 2017: 3639-3647

[21]Ravanbakhsh M, Nabi M, Mousavi H, et al.Plug-and-play CNN for crowd motion analysis: An application in abnormal event detection[C]//Proc of the IEEE Winter Conf on Applications of Computer Vision(WACV).Piscataway, NJ: IEEE, 2018: 1689-1698

[22]Luo Weixin, Liu Wen, Gao Shenghua.A revisit of sparse coding based anomaly detection in stacked RNN framework[C]//Proc of the IEEE Int Conf on Computer Vision(ICCV).Piscataway, NJ: IEEE, 2017: 341-349

[23]Sabokrou M, Fayyaz M, Fathy M, et al.Deep-anomaly: Fully convolutional neural network for fast anomaly detection in crowded scenes[J].Computer Vision and Image Understanding, 2018, 172: 88-97

[24]Ionescu R T, Khan F S, Georgescu M I, et al.Object-centric auto-encoders and dummy anomalies for abnormal event detection in video[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition(CVPR).Piscataway, NJ: IEEE, 2019: 7834-7843

[25]Chong Y S, Tay Y H.Abnormal event detection in videos using spatiotemporal autoencoder[C]//Proc of the Advanes in Neural Networks.Berlin: Springer, 2017: 189-196

[26]Sabokrou M, Fayyaz M, Fathy M, et al.Deep-cascade: Cascading 3D deep neural networks for fast anomaly detection and localization in crowded scenes[J].IEEE Transactions on Image Processing, 2017, 26(4): 1992-2004

[27]Xu Dan, Ricci E, Yan Yan, et al.Learning deep representations of appearance and motion for anomalous event detection[J].Computer Vision and Image Understanding, 2015, 156: 117-127

[28]Sabokrou M, Fathy M, Hoseini M, et al.Real-time anomaly detection and localization in crowded scenes[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition Workshops.Piscataway, NJ: IEEE, 2015: 56-62

[29]Sabokrou M, Khalooei M, Fathy M, et al.Adversarially learned one-class classifier for novelty detection[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2018: 3379-3388

[30]Ramachandra B, Jones M J.Street scene: A new dataset and evaluation protocol for video anomaly detection[C]//Proc of the IEEE Winter Conf on Applications of Computer Vision.Piscataway, NJ: IEEE, 2020: 2558-2567

[31]Ramachandra B, Jones M J, Raju V R.Learning a distance function with a Siamese network to localize anomalies in videos[C]//Proc of the IEEE Winter Conf on Applications of Computer Vision.Piscataway, NJ: IEEE, 2020: 2587-2596

[32]Mehran R, Oyama A, Shah M.Abnormal crowd behavior detection using social force model[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2009: 935-942

[33]Benezeth Y, Jodoin P M, Saligrama V, et al.Abnormal events detection based on spatio-temporal co-occurences[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2009: 2458-2465

[34]Kratz L, Nishino K.Anomaly detection in extremely crowded scenes using spatio-temporal motion pattern models[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2009: 1446-1453

[35]Kim J, Grauman K.Observe locally, infer globally: A space-time MRF for detecting abnormal activities with incremental updates[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2009: 2921-2928

[36]Adam A, Rivlin E, Shimshoni I, et al.Robust real-time unusual event detection using multiple fixed-location monitors[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(3): 555-560

[37]Ravanbakhsh M, Nabi M, Sangineto E, et al.Abnormal event detection in videos using generative adversarial nets[C]//Proc of the Int Conf on Image Processing.Piscataway, NJ: IEEE, 2017: 1577-1581

[38]Guo Huiwen, Wu Xinyu, Li Nannan, et al.Anomaly detection and localization in crowded scenes using short-term trajectories[C]//Proc of the IEEE Int Conf on Robotics and Biomimetics.Piscataway, NJ: IEEE, 2013: 245-249

[39]Wu Shandong, Moore B E, Shah M.Chaotic invariants of lagrangian particle trajectories for anomaly detection in crowded scenes[C]//Proc of the IEEE Int Conf on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2010: 2054-2060

[40]Anti B, Ommer B.Spatio-temporal video parsing for abnormality detection[J].arXiv preprint, arXiv: 1502.06235, 2015

[41]Bhakat S, Ramakrishnan G.Anomaly detection in surveillance videos[C]//Proc of the ACM India Joint Int Conf on Data Science and Management of Data.New York: ACM, 2019: 252-255

[42]Saligrama V, Konrad J, Jodoin P M.Video anomaly identification[J].IEEE Signal Processing Magazine, 2010, 27(5): 18-33

[43]Jodoin P M, Konrad J, Saligrama V.Modeling background activity for behavior subtraction[C]//Proc of the IEEE Conf on Distributed Smart Cameras.Piscataway, NJ: IEEE, 2008: 1-10

[44]Sultani W, Chen Chen, Shah M.Real-world anomaly detection in surveillance videos[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2018: 6479-6488

[45]Helbing D, Molnár P.Social force model for pedestrian dynamics[J].Physical Review E, 1995, 51(5): 4282-4286

[46]Dalal N, Triggs B.Histograms of oriented gradients for human detection[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2005: 886-893

[47]Dalal N, Triggs B, Schmid C.Human detection using oriented histograms of flow and appearance[C]//Proc of the European Conf on Computer Vision.Berlin: Springer,2006: 428-441

[48]Laptev I, Marszaek M, Schmid C, et al.Learning realistic human actions from movies[C]//Proc of the 26th IEEE Conf on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2008: 1-8

[49]Wang Heng, Kläser A, Schmid C, et al.Dense trajectories and motion boundary descriptors for action recognition[J].International Journal of Computer Vision, 2013, 103: 60-79

[50]Schölkopf B, Williamson R, Smola A, et al.Support vector method for novelty detection[C]//Proc of the 12th Int Conf on Neural Information Processing Systems.Cambridge, MA: MIT Press, 1999: 582-588

[51]Chatfield K, Simonyan K, Vedaldi A, et al.Return of the devil in the details: Delving deep into convolutional nets[J].arXiv preprint, arXiv: 1405.3531, 2014

[52]Wang Z, Bovic A C, Sheikh H R, et al.Image quality assessment: From error visibility to structural similarity[J].IEEE Transactions on Image Processing, 2004, 13(4): 600-612

[53]Tran H T M, Hogg D.Anomaly detection using a convolutional winner-take-all autoencoder[C]//Proc of the British Machine Vision Conf.London: BMVA Press, 2017: 1-12

[54]Makhzani A, Frey B.Winner-take-all autoencoders[C]//Advances in Neural Information Processing Systems.Cambridge, MA: MIT Press, 2015: 2791-2799

[55]Turchini F, Seidenari L, Del Bimno A.Convex polytope ensembles for spatio-temporal anomaly detection[G]//LNCS 10484: Proc of the Int Conf on Image Analysis and Processing.Berlin: Springer, 2017: 174-184

[56]Casale P, Pujol O, Radeva P.Approximate polytope ensemble for one-class classification[J].Pattern Recognition, 2014, 47(2): 854-864

[57]Sun Qianru, Liu Hong, Harada T.Online growing neural gas for anomaly detection in changing surveillance scenes[J].Pattern Recognition, 2017, 64: 187-201

[58]Frizke B.A growing neural gas network learns topologies[C]//Proc of the Advances in Neural Information Processing Systems 7.Cambridge, MA: MIT Press, 1995: 625-632

[59]Dollár P, Rabaud V, Cottrell G, et al.Behavior recognition via sparse spatio-temporal features[C]//Proc of the 2nd Joint IEEE Int Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance.Los Alamitos, CA: IEEE Computer Society, 2005: 65-72

[60]Krizhevsky A, Hinton G E.ImageNet classification with deep convolutional neural networks[C]//Porc of the Neural Information Processing Systems.Cambridge, MA: MIT Press, 2017, 60(6): 84-90

[61]Gong Y, Lazebnik S, Gordo A, et al.Iterative quantization: A procrustean approach to learning binary codes for large-scale image retrieval[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2916-2929

[62]Lin T Y, Dollár P, Girshick R, et al.Feature pyramid networks for object detection[J].arXiv preprint, arXiv: 1612.03144, 2017

[63]Bromley J, Guyon I, Shah R, et al.Signature verification using a “Siamese” time delay neural network[C]//Proc of the 6th Int Conf on Neural Information Processing Systems.Cambridge, MA: MIT Press, 1993: 734-744

[64]Gu Xuxin, Cui Jinrong, Zhu Qi.Abnormal crowd behavior detection by using the particle entropy[J].Optik, 2014, 125(14): 3428-3433

[65]Blei D M, Ng A Y, Jordan M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research, 2003, 3: 993-1022

[66]Tipping M E, Bishop C M.Mixtures of probabilistic principal component analyzers[J].Neural Computation, 1999, 11(2): 443-482

[67]Doretto G, Chiuso A, Wu Yingnian, et al.Dynamic textures[J].International Journal of Computer Vision, 2003, 51(2): 91-109

[68]Chan A B, Vasconcelos N.Modeling, clustering, and segmenting video with mixtures of dynamic textures[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(5): 909-926

[69]Gao D, Vasconcelos N.Decision-theoretic saliency: Com-putational principles, biological plausibility, and implications for neurophysiology and psychophysics[J].Neural Computation, 2009, 21(1): 239-271

[70]Lafferty J, McCallum A, Pereira F C N.Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proc of the 18th Int Conf on Machine Learning.San Francisco, CA: Morgan Kaufmann, 2001: 282-289

[71]Seeger M.Gaussian processes for machine learning[J].International Journal of Neural Systems, 2004,14(2): 69-106

[72]Girshick R.Fast R-CNN[J].arXiv preprint, arXiv: 1504.08083, 2015

[73]Lin T Y, Maire M, Belongie S, et al.Microsoft COCO: Common objects in context[J].arXiv preprint, arXiv: 1405.0312, 2015

[74]Krishna R, Zhu Yuke, Groth O, et al.Visual genome: Connecting language and vision using cowdsourced dense image annotations[J].International Journal of Computer Vision, 2017, 123: 32-73

[75]Feng Yachuang, Yuan Yuan, Lu Xiaoqiang.Learning deep event models for crowd anomaly detection[J].Neurocomputing, 2017, 219: 548-556

[76]Chan T H, Jia Kui, Gao Shenghua, et al.PCANet: A simple deep learning baseline for image classification[J].IEEE Transactions on Image Processing, 2015, 24(12): 5017-5032

[77]Oord A, Schrauwen B.Factoring variations in natural images with deep Gaussian mixture models[C]//Proc of Advances in Neural Information Processing Systems.Cambridge, MA: MIT Press, 2014: 3518-3526

[78]Isola P, Zhu Junyan, Zhou Tinghui, et al.Image-to-image translation with conditional adversarial networks[C]//Proc of the Int IEEE Conf on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2017: 5967-5976

[79]Sabokrou M, Khalooei M, Fathy M, at al.Adversarially learned one-class classifier for novelty detection[J].arXiv preprint, arXiv: 1802.09088, 2018

[80]Zhang Ying, Lu Huchuan, Zhang Lihe, et al.Combining motion and appearance cues for anomaly detection[J].Pattern Recognition, 2016, 51: 443-452

[81]Vu H, Phung D, Nguyen T D, et al.Energy-based models for video anomaly detection[J].arXiv preprint, arXiv: 1708.05211, 2017

[82]Liu Wen, Luo Weixin, Lian Dongze, et al.Future frame prediction for anomaly detection—A new baseline[J].arXiv preprint, arXiv: 1712.09867, 2018

[83]Neuyen T N, Meunier J.Anomaly detection in video sequence with appearance-motion correspondence[J].arXiv preprint, arXiv: 1908.06351, 2019

[84]Vu H, Nguyen T D, Le T, et al.Robust anomaly detection in videos using multilevel representations[C]//Proc of the AAAI Conf on Artificial Intelligence.Menlo Park, CA:AAAI, 2019: 5216-5223

[85]Tang Yao, Zhao Lin, Zhang Shanshan, et al.Integrating prediction and resconstruction for anomaly detection[J].Pattern Recognition Letters, 2020, 129: 123-130

[86]University of Minnesota.UMN[DB/OL].2011[2020-08-18].http://mha.cs.umn.edu/Movies/Crowd-Activity-All.avi

[87]Lu Cewu, Shi Jiangping, Wang Weiming.Fast abnormal event detection[J].International Journal of Computer Vision, 2019, 127(8): 993-1011

[88]Leyva R, Sanchez V, Li C T.Video anomaly detection with compact feature sets for online performance[J].IEEE Transactions on Image Processing, 2017, 26(7): 3463-3478

[89]Gong Dong, Liu Lingqiao, Le V, et al.Memorizing normality to detect anomaly: Memory-augmented deep autoencoder for unsupervised anomaly detection[C]//Proc of the IEEE Int Conf on Computer Vision.Piscataway, NJ: IEEE, 2019: 1705-1714

[90]Carreira J, Zisserman A.Quo vadis, action recognition? A new model and the kinetics dataset[C]//Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2017: 4724-4733

Anomaly Detection and Modeling of Surveillance Video

Yang Fan1,2, Xiao Bin2, and Yu Zhiwen1

1(School of Computer Science, Northwestern Polytechnical University, Xian 710129) 2(Faculty of Engineering, The Hong Kong Polytechnic University, Hong Kong 999077)

Abstract With the development of Internet of Things technology, monitoring equipment has been widely deployed in public areas such as traffic arteries, schools and hospitals, shopping malls and supermarkets, and residential buildings.These devices provide a hidden safety and generate a lot of surveillance videos.Anomaly detection based on surveillance videos involves research efforts in image processing, machine vision, deep learning, and other related fields.In the paper, the intuitionistic description and anomaly detection of video anomalies are simply summarized, and some review articles did not cover the complete research scope about feature representation and modeling of the anomaly detection, as well as vague division.The research based on video anomaly detection is comprehensively analyzed.Firstly, the traditional classical and emerging video anomaly detection algorithms are classified and described from the aspects of anomaly detection feature representation and modeling.Then, we compare different algorithms based on distance, probability, and reconstruction, analyze the advantages and disadvantages of different models and characteristics of each model.Furthermore, we conclude the evaluation criteria of existing approaches and give the new accurate efficient evaluation index.Finally, we introduce the common datasets of surveillance videos on anomaly detection, summarize the detection effects of different algorithms on the common datasets, and discuss some challenges and future research directions in practical application.

Key words surveillance video; anomaly detection; deep learning; spatio-temporal feature; abnormal pattern; detection approach

(yang-fan@mail.nwpu.edu.cn)

中图法分类号 TP391

DOI:10.7544/issn1000-1239.2021.20200638

收稿日期2020-08-25;

修回日期:2021-01-12

基金项目国家杰出青年科学基金(61725205);国家重点研发计划项目(2019YFB2102200);国家自然科学基金项目(61960206008,61772446)

This work was supported by the National Science Fund for Distinguished Young Scholars(61725205), the National Key Research and Development Program of China(2019YFB2102200), and the National Natural Science Foundation of China(61960206008, 61772446).

通信作者於志文(zhiwenyu@nupu.edu.cn)

Yang Fan, born in 1983.PhD candidate.Member of CCF.His main research interests including image processing, human-machine systems.

杨 帆,1983年生.博士研究生,CCF会员.主要研究方向为图像处理和人机系统.

Xiao Bin, born in 1974.PhD, associate professor, PhD supervisor.Member of CCF.His main research interests include cyber security, blockchain and AI security.

肖 斌,1974年生.博士,副教授,博士生导师,CCF会员.主要研究方向为网络安全、区块链和AI安全.

Yu Zhiwen, born in 1977.PhD, professor, PhD supervisor.Distinguished member of CCF.His main research interests include mobile Internet, pervasive computing, human-machine systems, and social perception.

於志文,1977年生.博士,教授,博士生导师.CCF杰出会员.主要研究方向为移动互联网、普适计算、人机系统和社会感知.