前言
视觉显著性检测(Visual Saliency Detection)指通过智能算法模拟人的视觉特点,提取图像中的显著区域(即人类感兴趣的区域)。
视觉显着性长期以来一直是神经科学,心理学,神经系统和计算机视觉中的基本问题。它最初被定义为预测图像眼睛固定的任务。最近,它扩展到识别包含显着对象的区域,称为显着对象检测或显着区域检测。显着物体检测的应用包括物体检测和识别,图像压缩,图像裁剪,照片拼贴,主色检测等等。
对人类视觉系统的研究表明,显着性与场景的独特性,稀有性和惊奇性有关,其特征在于颜色,纹理,形状等原始特征。最近,已经做了很多努力来设计各种启发式算法来计算显着性。基于特征整合理论,几乎所有方法都从不同的显着性线索计算显着性(特征)图,然后将它们组合在一起形成最终的显着性图。然而,手工制作的整合规则很脆弱而且很难概括。例如,在最近的一项调查中,没有一种算法可以在基准数据集上始终优于其他算法。虽然提出了一些基于学习的显着对象检测算法,但没有深入研究监督学习的潜力。
主题
人类视觉系统在面对自然场景时具有快速搜索和定位感兴趣目标的能力,这种视觉注意机制是人们日常生活中处理视觉信息的重要机制。随着互联网带来的大数据量的传播,如何从海量的图像和视频数据中快速地获取重要信息,已经成为计算机视觉领域一个关键的问题。通过在计算机视觉任务中引入这种视觉注意机制,即视觉显著性,可以为视觉信息处理任务带来一系列重大的帮助和改善。引入视觉显著性的优势主要表现在两个方面,第一,它可将有限的计算资源分配给图像视频中更重要的信息,第二,引入视觉显著性的结果更符合人的视觉认知需求。视觉显著性检测在目标识别,图像视频压缩,图像检索,图像重定向等中有着重要的应用价值。视觉显著性检测模型是通过计算机视觉算法去预测图像或视频中的哪些信息更受到视觉注意的过程。
视觉显著性包括从下而上和从上往下两种机制。从下而上也可以认为是数据驱动,即图像本身对人的吸引,从上而下则是在人意识控制下对图像进行注意。计算机视觉领域主要做的是从下而上的视觉显著性,而从上而下的视觉显著性由于对人的大脑结构作用不够了解,无法深刻的揭示作用原理,在计算机视觉领域的研究也相应很少。
视觉显著性检测计算是指利用数学建模的方法模拟人的视觉注意机制,对视场中信息的重要程度进行计算。Treisman 等的特征集成理论为视觉显著性计算提供了理论基础,将视觉加工过程分为特征登记与特征整合阶段,在特征登记阶段并行地、独立地检测特征并编码,在特征整合阶段通过集中性注意对物体进行特征整合与定位。受特征集成理论的启发,Kock 和 Ullman最早提出了有关视觉注意机制的计算模型,通过滤波的方式得到特征,最后通过特征图加权得到显著图。
视觉显著性计算模型大致上可分为两个阶段:特征提取与特征融合。在特征融合阶段,可能存在自底向上的底层特征驱动的融合方式,和自顶向下的基于先验信息与任务的融合方式。所以目前关于显著区域提取思路主要从两个角度出发: 一类是快速的、基于低级视觉特征、由数据驱动的自底向上的模型。例如由 Itti 于 1998 年提出的经典的视觉注意模型, 简称Itti 模型, 基本思路是首先将图像进行高斯金字塔分层,提取图像不同层的颜色、亮度、方向3种特征,然后利用中央-周边算子计算每种特征下的子显著图,最后线性加权归一化后得到最终的显著图。Itti于1998年提出基于显著性的视觉注意模型,并在2001年度Nature上对该模型理论作了进一步的完善。Itti的显著性模型最具代表性,该模型已经成为了自下而上视觉注意模型的标准。它对于一幅输入的图像,该模型提取初级视觉特征:颜色(RGBY)、亮度和方位、在多种尺度下使用中央周边(Center-surround)操作产生体现显著性度量的特征图,将这些特征图合并得到最终的显著图(Saliency map)后,利用生物学中赢者取全(Winner-take-all)的竞争机制得到图像中最显著的空间位置, 用来向导注意位置的选取,最后采用返回抑制 (Inhibition of return) 的方法来完成注意焦点的转移。GBVS:首先从图像中提取特征,然后基于图论随机游走模型计算每个特征下的显著图,最后将这些显著图归一化并将它们结合起来形成最后的显著图。SR,在图像的频域对频谱进行分析,最后通过计算检测图像的谱残差计算检测图像的显著图。CA,主要是检测出图像的一个区域来表示当前图像的一个场景,它通过计算图像的局部、全局的显著图及注视附近的区域的信息对其进行表示。HFT,首先提取输入图像的特征,然后利用超复数矩阵将这些特征结合起来并对其进行超复数傅里叶变换转换到频域,其次再对频谱进行不同尺度的分析得到不同尺度下的显著图,最后根据信息熵选取最佳尺度下的显著图作为图像的最终显著图。
另一类是慢速的、由先验知识指导的自顶向下的模型。当人们带有任务、期望和经验等高阶特征观看一幅图像时,往往会对与这类因素相关的信息较为关注。该类 模型为了获得高阶特征,一般常采用监督学习方式,对感 兴趣的目标进行标注,从训练实例中学习获得感兴目标的特征,从而实现对感兴趣目标的检测。NAvalpakkam 等提出首先通过学习出任务目标的表征,然后在多个特征图自底向上的融合过程中,使用该表征来偏置各特征图的权重,最终获得显著图。Liu等则提出了一种视觉显著性学习机制,使用CRF对各种底层特征进行联合学习并计算出其在显著图中的权重,最终实现对视觉显著性目标的检测。随后,Yang等又提出了一种联合学习CRF和字典的显著性检测模型。该模型通过设定一个目标函数,利用随机梯度下降法不断更新CRF及字典;最终根据学习到的CRF及字典实现对视觉显著性目标的检测。A.Borji等为了探究顶层因素的重要性,结合了底层特征(如方向,强度,颜色等)及顶层特征(如人脸,人,汽车等),通过用线性回归、SVM、AdaBoost分类器等学习显著特征和人眼注视的映射关系,从而达到视觉显著性目标的检测。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。