研究背景
随着图像、视频数据在医学影像、数字图书馆、工业产权、遥感系统等许多领域应用的不断普及,大规模图像检索具有广泛的应用前景,其核心在于图像特征提取和高效相似性计算。深度学习技术在图像特征提取具有较强的特征表示能力,同时哈希技术在高维数据近似计算方面具有较好的性能。目前,基于哈希学习的技术在大规模图像检索及相似性查询方面获得了广泛的研究和应用。
然而,随着因特网技术和多媒体的飞速发展,因特网上的图像视频数据量迅速增长,图像检索需要在海量图像数据中进行,传统图像检索方法面临重大挑战。[1]因此,如何应对大规模图像数据库的检索需求成为一个有意义且急需解决的课题。
研究现状
为应对大规模图像检索需求,目前有两类解决办法[2],第一类是基于树的检索办法[3]。在训练集特征数量大且维数高时,这类办法易发生过拟合,极易产生“维数灾难”[4],直接影响了分类器训练和最终检索性能。第二类是基于哈希的图像检索办法。它是将图像的高维特征映射到二值空间,生成低维的二进制编码特征,与基于树的算法及其改进算法相比,极大降低了特征维数,避免了“维数灾难”问题,通过二进制模式匹配或汉明距离测量实现图像编码特征的快速搜索,大幅提高了检索效率,更适应大规模图像检索。
传统基于哈希的图像检索方法根据是否使用标签信息,可以分为无监督、半监督和有监督的哈希方法[5]。在这三类方法中,无监督哈希方法检索速度快,且不需要图像标注,适合实际应用,但因为缺失了标签信息,无法对图像进行准确描述。半哈希方法运用了一部分标签信息,检索性能有了一定提升,但是建图代价高,无法利用数据的天然图结构学习哈希函数。有监督的哈希方法利用图像数据的标签,获得了更好的检索性能。但是,由于传统监督哈希方法使用手工特征,并将特征提取与哈希函数学习分开进行,导致检索效果并不理想,同时由于监督哈希需要对每幅图像进行标注,耗费了巨大的人工标注资源,因此传统的监督哈希方法的研究多局限在理论层面。
传统基于哈希的图像检索主要通过改进哈希函数、相似性度量准则和损失函数等方法提高检索精度。面对大规模数据集时,此类方法在降低存储空间和加快检索速度方面具有较强的优越性。但由于算法对底层特征描述不足,难以表达图像丰富的语义信息,致使传统哈希方法的检索性能一直未有较大突破。[6]
自2012年以来,随着深度学习的发展,深度学习在多个领域取得了重大突破,随着AlexNet[7]、VGG[8]、ResNet等模型的提出,使用深度神经网络提取的特征不仅拥有纹理信息而且拥有高层的语义信息,许多国内外学者将深度学习引入到图像检索领域中。基于深度哈希的图像检索便是将CNN与传统哈希融合,结合了CNN提取特征语义丰富和传统哈希检索速度快且占用内存少的优点,并按照是否使用标签信息,分为无监督、半监督和监督深度哈希方法。
CNNH是深度哈希学习领域的开山之作[9],它的提出标志着哈希研究从传统的浅层哈希方法向深度哈希方法过渡。在这之后,相继有学者提出了DNNH[10]、端到端[11]及HashNet[12]等方法。随着生成式对抗网络逐渐成熟,GAN也慢慢被应用到深度哈希领域。GAN可以生成多种多样的数据,减少对大量标注的依赖性,2018年,Dizaji等人借鉴InfoGAN的思想,提出了HashGAN方法[13],首次将生成式对抗网络引入到无监督深度哈希方法中;随着深度学习技术的飞速发展,之后又涌现了一系列如SSDH[14]、SSGAH[15]等性能优异的GAN模型。
与无监督深度哈希方法相比,监督哈希方法应用语义标签先验信息训练网络模型,可以获得更好的检索性能。深度哈希中监督信息通常以成对或三元组 的形式给出,按监督信息的不同,基于深度哈希的图像检索方法分为基于成对监督信息的深度哈希方法和基于三元组监督信息的深度哈希方法。深度哈希方法通过损失函数保留图像间的相似性,在生成二进制哈希码时,大部分首先学习连续的图像表示,再通过分离的二进制化步骤将连续的图像表示量化为离散的二进制码,该过程会产生量化损失。设计损失函数并控制量化误差是深度哈希中的重要一环,按损失函数的不同,基于成对监督信息的深度哈希方法分为使用平方损失、使用交叉熵损失、设计新损失函数的深度哈希方法[4],基于三元组监督信息的深度哈希分为使用三元组损失函数的深度哈希方法和使用三元组交叉熵损失函数的深度哈希方法[16]。
2014至2017年间,深度监督哈希方法蓬勃发展,基于成对标签或三元组标签,通过设计网络框架,修改损失函数,提出了一系列深度监督哈希方法,取得了不错的检索性能,但也发现了新的问题,深度哈希算法不错的检索性能是在高度依赖有标签数据的基础上取得的,对于深度神经网络,需要大量的标记数据确保网络提取特征的良好结果,从而获得更高的检索效率。然而在现实世界中,随着网络和移动设备的不断发展,图像数据量每天都在爆炸式增长,如果对这些图像数据一一进行标注,需要耗费高昂的人工和时间成本。因此在实际应用中,主要研究方向是将无监督哈希方法与深度学习中的CNN模型或 GAN结合。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。