摘要:目前,使用基于深度学习的方法在单目深度估计上已经有较好的结果了。大部分现有的方法将深度估计问题看作有监督的回归问题,因此需要大量相应的标记正确的深度数据进行训练。而在各种场景中记录质量好的的深度数据是一个有挑战性的问题。本文不打算采用现有的有监督的方法,而在训练期间用更容易获得的双目立体图像取代显式深度数据的使用。本文提出了一种新的训练目标,使得就算没有标记正确的深度数据(ground truth),也能够利用卷积神经网络学习从单张图片获取深度信息。利用极坐标几何约束,我们可以用图像重建损失训练我们的神经网络,从而生成视差图。并将最后设计好的神经网络框架在KITTI数据集上进行单目深度估计测试,并与现有方法进行比较。
- 引言
深度指场景中的点到相机中心所在平面的距离。而彩色图像中的每个像素点对应的深度信息可以用一张深度图像来描述,深度图像的每个像素记录对应位置的彩色图像中的像素点的深度。
深度估计主要目标在于对单张或者多张图像进行像素层面的深度预测,它是计算机视觉领域中三维场景理解的重要一环。目前,深度信息已经被证明能促进其他诸如识别,人机交互,三维模型重建等任务。传统的深度估计技术主要运用多张图片来进行,比如多视点重建,运动恢复结构,即时定位与地图构建。然而,目前单视点图像的深度估计任务方面的研究却远远落后于多视点图像。其主要原因在于从单视点图像去预测其表达出来的三维场景结构,这问题本身存在一种病态性和模糊性。与成像过程相反,给定一张某场景的单目彩色图像,其存在很多个三维场景结构能来描述彩色图像中表达出来的布局。虽然单目图像深度估计存在艰难挑战,但研究人员也想方设法寻求突破。
在具体场景域的相关信息可用的情况下,深度估计可以通过几何猜想来完成,如“Blocks World”模型,阴影恢复形状(Shape from Shading,简称 SFS)。然而利用这些视觉线索确实能在特定的场景结构中恢复深度,然而无法适应一般场景。近些年,基于深度学习的单目图像深度估计方法得到普及,其直接通过数据来学习进而学会预测场景几何。这类方法利用单目图像和深度之间的联系,将深度估计问题重铸成像素层级的深度预测流程。应用深度卷积神经网络解决单目图像深度估计问题己经有了相当大的进展,很多方法也获得了优秀的效果。由于目前 RGB 图像广泛分布于网络和社交媒体上,而图像深度信息能帮助更好的理解图像的场景结构,这是利用 RGB 图像来估计深度信息的一大动力。借助于深度学习在图像处理领域的成功,新的算法层出不穷,通常他们都运用深度卷积网络直接从图像中学到深度特征,进而输出深度信息。
二、基于学习的立体图像估计方法
有大量工作着重于根据图像进行深度估计,比如使用成对的图像[46]、从不同视点捕获的有重叠的图像[14]、时间序列[44]、假设使用固定摄像机、静态场景、更换光源等等 [52,2]。这些方法通常仅适用于存在多个场景的输入图像的情况。在这里,我们专注于与单眼深度估计有关的工作,其中只有一个输入图像,并且没有对场景几何形状或存在的对象类型进行任何假设。
基于学习的绝大多数立体估计算法都有一个数据项,用于计算第一幅图像中每个像素与第二幅图像中每个其他像素之间的相似度。通常,立体图像对被矫正,因此视差估计问题可被视为每个像素的一维搜索问题。最近,有研究表明,代替使用人工定义的相似性度量,将匹配作为监督学习问题并训练函数来预测对应关系会产生更好的结果[54,31]。双目对应搜索作为多类分类问题在结果质量和速度方面均显现出优势[38]。 Mayer等人不只是学习匹配函数[39]还引入了称为DispNet的全卷积[47]深度网络,该网络直接计算两个图像之间的对应字段。在训练时,他们尝试通过最小化回归训练损失来直接预测每个像素的视差。 DispNet具有与其先前的端到端深光流网络[12]类似的体系结构。上述方法在训练时需要具有大量准确的地面真实视差数据和立体图像对。对于现实世界的场景而言,此类数据可能很难获得,因此这些方法通常使用合成数据进行训练。合成数据正变得越来越现实,例如[15],但仍然需要为每个新的应用场景手动创建新内容。
三、有监督的单目图像深度估计
监督下的单图像深度估计单视图或单眼深度估计在测试时只有一幅图像可用。 Saxena等人[45]提出了一个基于patch的模型,称为Make3D,该模型首先将输入图像过度分割为patch,然后估计3D位置和局部平面的方向以解释每个patch。平面参数的预测是使用在激光扫描数据集上离线训练的线性模型进行的,然后使用MRF将这些预测组合在一起。该方法的缺点以及其他基于平面的近似方法,在[22]中可见,这是因为它们建模后的结构过于臃肿。 Liu [36]没有手动调整一元和成对项,而是使用卷积神经网络(CNN)来学习它们。在另一种局部方法中,Ladicky等人[32]将语义纳入其模型以改善其每像素深度估计。 Karsch等 [28]尝试通过从训练集中复制整个深度图像来产生更一致的图像水平预测。这种方法的缺点是它要求整个训练集在测试时可用。
Eigen等 [10,9]表明,可以使用在图像及其相应深度值上训练的两尺度深度网络来生成密集的像素深度估计。与以前在单个图像深度估计中进行的大多数其他工作不同,它们不依赖手工特征或初始过度分割,而是直接从原始像素值中学习表示形式。在这种方法的成功基础上,有几项工作使用了CRF等技术来提高准确性[35],将损失从回归改变为分类[5],使用其他更可靠的损失函数[33],并在场景中加入了强大的先验条件。表面法线估计相关问题的案例[50]。再次,像以前的立体声方法一样,这些方法依赖于训练时具有高质量,像素对齐的地面真实深度。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。