随着包括变分自动编码器(VAE)[1],生成对抗网络(GAN)[2],长短期记忆网络(LSTMs)[3],和其他模型在内的深度生成模型的出现,无监督表征学习已经成为一个重要的领域。异常检测是机器学习和数据挖掘社区中无监督学习的众所周知的子领域。图像和视频的异常检测由于图像的高维结构以及跨帧的非局部时间变化而具有挑战性。给定一组不包含异常的训练样本,异常检测的目标是设计或学习捕获“正常”运动和空间外观模式的特征表征。异常检测是一种无监督模式识别任务,可以在不同的统计模型下定义。
Kiran, B. Ravi等人在[4]中回顾了基于深度学习视频异常检测的前沿方法,并根据模型类型和检测标准对其进行分类。此外文中还对诸如主成分分析(PCA)、卷积自动编码器(CAE)[5]、收缩自动编码器、卷积长短期记忆(ConvLSTM)[6]、3D自动编码器和预测器[7]、慢特征分析(SFA)[8]、变分自动编码器(VAE)[1,9]、生成对抗网络(GAN)[2,10]、使用跨通道预测的对抗性判别器[11]、对抗性自动编码器(AAE)[12]在内的基于深度学习的多种视频异常检测框架进行了简单的研究,并且在UCSD和CUHK-Avenue数据集数据集上对上述模型的性能进行了评估。
生成对抗网络(GAN)[2]由生成器G(通常是解码器)和鉴别器D组成,鉴别器D通常是二元分类器,其分配图像生成(假)的概率,或者从训练数据(真实)中采样。生成器G通过从潜在空间Z采样的均匀分布的输入噪声的样本z,1D向量的映射G(z)到图像空间流形X中的2D图像来学习正常数据x上的分布pg。发生器G的网络结构等同于利用一叠跨步卷积的卷积解码器。鉴别器D是将2D图像映射到单个标量值D(·)的标准CNN。鉴别器输出D(·)可以被解释为鉴别器D的给定输入是从训练数据X采样的实像x或由生成器G使用G(z)生成的图像的概率。
为了成功地将GAN用于异常检测,Schlegl, Thomas等人在 [10]中通过使用反向传播选择最近点z_gamma;来评估映射x→z,即图像域→潜在表示。给定查询图像,在潜在空间中找到对应于图像G(z)的点z,该图像G(z)在视觉上与查询图像x最相似并且位于流形X上。x和G(z)的相似度取决于查询图像遵循用于训练生成器的数据分布的程度。最终提出了AnoGAN模型,将GAN模型成功应用于医学图像中的异常检测任务。
受[10]的启发,Samet Akcay等人提出了新颖的GANomaly模型[13],在生成器网络中使用编码器-解码器-编码器子网络使得模型能够将输入图像映射到较低维度向量,然后该向量用于重建所生成的输出图像。使用附加编码器网络将该生成的图像映射到它的潜在表征。在训练期间最小化这些图像与潜在向量之间的距离学习正常样本的数据分布。结果,在推理时间中来自该学习数据分布的较大距离度量指示来自该分布的异常值-异常。文中使用了MNIST、CIFAR1、大学行李异常数据集(UBA)作为基准数据集进行了实验,显示了该模型效率和优于先前最先进的方法。
Lu, Cewu等人在[14]中实现了使用matlab进行高速的异常事件检测,其方法不但在其自建的avenue数据集拥有高检出率,而且速度达到了140-150帧每秒
袁静等人[15]则通过增加梯度差约束改进了原有的稀疏去噪自动编码器网络,强化了局部相似性提高了网络输出数据的准确性,使其在全局异常行为检测中更加有效。并在UMN数据集进行了验证。
胡芝兰,江帆等人[16]提出了一种基于运动方向的异常行为检测方法. 根据不同行为的运动方向具有不同的规律性, 该方法采用块运动方向描述不同的动作, 并利用支持向量机 (Support vector machine, SVM) 对实时监控视频进行异常行为检测. 为了减少噪声运动的影响, 同时有效保留小幅度运动的前景目标, 在行为描述之前, 其采用了背景边缘模型对每一视频帧进行前景帧 (有目标出现的视频帧) 判断.在行为描述时,先提取相应视频段的所有前景帧的块运动方向, 然后对这些运动方向进行归一化直方图统计得到该视频段的行为特征.在走廊等公共场景中的实验结果表明,该方法能够对单人以及多人的复杂行为进行有效检测, 对运动过程中目标大小的变化、光照的变化以及噪声等具有较好的鲁棒性,而且计算复杂度小,能够实现实时监控。
在[17]中,Teng Li, Huan Chang等人调查了有关异常人类行为和人群运动分析的最新技术,他们首先提供背景知识和与拥挤场景相关的可用功能。然后,提供对应于拥挤场景分析的不同方面的现有模型,流行算法,评估协议和系统性能。此外,文中还概述了可用于性能评估的数据集。
参考文献:
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。