近年来,深度学习已成为计算机领域内一个普遍重视、研究十分活跃的课题,如今更是成为计算机视觉研究的标配。构建模式识别或机器学习系统,需要精心的工程设计和相当多的领域专业知识来设计一个特征提取器,从而将原始数据(例如图像的像素值)转换为合适的内部表示或特征向量。相比于前者,深度学习非常擅长发现高维数据中错综复杂的结构,能够自动地从海量数据中学习,同时他还具备很强的通用性和迁移能力,在如今的大数据时代,以卷积神经网络为代表的深度学习更能发挥其自身的优势,在精度上的获得极大提升。原来不能解决的问题用深度学习可以做到很好的结果,甚至超过人的精度。许多在大规模数据上进行的实验已经表明: 通过深度学习所得到的特征表示在自然语言处理、计算机视觉、运动规划和语音识别等领域表现出良好的性能。
一般来说,目前为止深度学习已经经历了三次发展浪潮:20世纪40年代到60 年代深度学习的雏形出现在控制论(cybernetics) 中,20世纪80年代到90年代深度学习表现为联结主义(connectionism),直到 2006 年,才真正以深度学习之名复兴。
第一次浪潮开始于20世纪40年代到20世纪60年代的控制论,随着生物学习理论的发展和第一个模型的实现(如感知机),能实现单个神经元的训练。第二次浪潮开始于1980-1995年间的联结主义方法,可以使用反向传播训练具有一两个隐藏层的神经网络。当前第三次浪潮,也就是深度学习,大约始于2006年。Geoffrey Hinton表明名为深度信念网络的神经网络可以使用一种称为贪婪逐层预训练的策略来有效地训练。其他CIFAR附属研究小组很快表明,同样的策略可以被用来训练许多其他类型的深度网络,并能系统地帮助提高在测试样例上的泛化能力。神经网络研究的这一次浪潮普及了“深度学习” 这一术语的使用,强调研究者现在有能力训练以前不可能训练的比较深的神经网络,并着力于深度的理论重要性[1]。
由于光照环境复杂,加上反光、遮挡等复杂因素,道路交通场景下的面部多属性融合分析仍是计算机视觉领域中的一个极具挑战的难题。面部属性是指人脸图像中所带有的一些属性信息,比如人的年龄、佩戴物、头部姿态等。人脸图像属性分析是指根据这些二维图像所附带的特征信息来对人脸的属性进行分析和识别,例如,根据输入的人脸图像判断出这个人的具体年龄、头部姿态的具体角度、人脸的表情中所带有的情感成分等。利用深度学习这一强力工具,针对该环境下的人脸多属性识别进行了针对优化和研究,设计并实现面部多属性融合分析系统,在对机动车驾驶员规范驾驶行为监控,远距离、非主动配合状态下的智能跟踪取证、突发违法事件追踪有着重要的意义。
近年来,Liu等[2]提出了基于boost的DBN(Boosted Deep Belief Network),在统一的循环框架中迭代地执行三个训练阶段:特征学习,特征选择和分类器构建。将其运用于人脸表情识别中,有效提高了人脸表情识别的性能.论文最后提及希望可以扩展框架来处理视频数据,从中捕获和使用动态的面部表情。Kahou等[3]提出了多模态深度网络用于视频表情识别,包括:(1)利用深度CNN(convolutional neural network)提取视频中的人脸特征信息;(2)利用DBN(deep belief net)提取视频中的声音信息;(3)利用关系自动编码器学习视频时空特征,有助于捕捉人类行为;(4)利用一个基于K-均值的“口袋”模型(a K-Means based “bag-of-mouths” model)提取嘴部周围的视觉特征。Devries等[4]提出了一个多任务卷积网络,同时预测面部标志和面部表情。他们证明,关于面部关键点的推理可以改善面部表情识别。Zhang等[5]提出了任务约束深度模型,利用潜在的辅助任务包括头部姿势估计,性别分类,年龄估计,面部表情识别或面部属性推理来改进人脸关键点检测的性能,对于具有严重遮挡和姿势变化的面部更加鲁棒,而且深层模型不需要级联以实现更好的性能。浅层的CNN允许实时性能而无需使用GPU或并行计算技术。Kumar等[6]利用多种可描述的视觉属性,有效提高了面部验证和图像搜索的精度。贺飞翔等[7]提出了基于深度学习的头部姿态估计方法。通过深度网络提取特征并对其进行分类预测,在 CAS-PEAL数据集上显著降低了姿态估计的误差,取得了较好的实验效果。但是该方法的泛化能力强弱依赖于训练数据的多样性与网络结构的复杂度。
与其他识别任务相比,年龄估计更具挑战性。因为年龄变化而导致的面部图像间的差异可能更微妙并且老化过程在不同个体之间变化很大。在过去几年中,许多努力致力于基于人类图像的年龄估计研究。这些工作可以分为两个子问题:如何提取老化特征,以及如何根据提取的特征预测年龄[8]。对于老化特征表示,一个代表性的工作使用人体测量信息,如Kwon和Lobo [9]的工作。他们基于颅面发育理论和皮肤皱纹分析, 提出了从面部图像中进行视觉年龄分类的理论和实际计算,分类出三个年龄组。在[10]中也提出了类似的想法,采用一种颅面生长模型来描述与生长相关的形状变化。但是这些方法只能用于粗略的年龄估计,不是为连续年龄分类而设计的。Min HU等人[11]采用局部方向模式(Local Directional Pattern LDP)算法提取年龄估计和性别分类的人脸特征,和SVM分类器进行年龄估计和性别识别,通过基于FG-NET人脸数据库的实验来说明年龄和性别与耳朵和头发信息密切相关,LDP特征提取算法有效地提高了年龄和性别识别率,对噪声的鲁棒性更好。Wang等[8]提出利用CNN提取多级特征进行融合并用于人脸年龄估计。在提出的方案中,他们结合了流形学习算法来改善性能,并使用深度学习老化模式DLA (the deep learned aging pattern)评估不同的分类和回归方案来估计年龄。Levi等[12]也提出了利用CNN(convolutional neural network)分别进行人脸年龄和人脸性别的识别分类,显著地提高了人脸性别和年龄的识别率。该系统所犯的许多错误都是由于某些Adience基准图像的极具挑战性的观看条件造成的。最值得注意的是由模糊或低分辨率和遮挡(尤其是浓妆)引起的错误。Routhe等[13]提出了一种Deep EXpectation (DEX)算法,使用卷积神经网络(CNN)和在ImageNet上预训练的VGG-16架构进行人脸年龄估计.从IMDB和维基百科网站抓取的524,230张脸部图像构成了他们的新数据集,即IMDB-WIKI数据集。该方法获得了ChaLearn LAP 2015关于年龄估计挑战的第1名。
[1]IAN G,YOSHUA B,ARON C.Deep learning[M].Massachusetts:MIT Press,2016.
[2] Ping L, Han S, Meng Z, et al. Facial Expression Recognition via a Boosted Deep Belief Network[C]. IEEE Conference on Computer Vision amp; Pattern Recognition. 2014.
[3]Kahou S E, Bouthillier X, Lamblin P, et al. EmoNets: Multimodal deep learning approaches for emotion recognition in video[J]. Journal on Multimodal User Interfaces, 2015, 10(2):1-13.
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。