作为盘算机视觉领域的顶级学术集会,CVPR 2019 近期宣布了最终论文吸收效果,引来学界密切关注。据悉,CVPR 2019 今年一共获得 5165 篇有效提交论文,最终抉出了 1300 篇吸收论文,吸收率到达 25.2%。小编整理了一份从 2000 年——2018 年的 CVPR 最佳论文清单,借此对这批盘算机领域的重要论文举行温习。
2018年最佳论文任务学:任务迁移学习的解耦Taskonomy: Disentangling Task Transfer Learning点击添加图片形貌(最多60个字)焦点内容:论文研究了一个很是新颖的课题,那就是研究视觉任务之间的关系,凭据得出的关系可以资助在差别任务之间做迁移学习。该论文提出了「Taskonomy」——一种完全盘算化的方法,可以量化盘算大量任务之间的关系,从它们之间提出统一的结构,并把它作为迁移学习的模型。实验设置上,作者首先找来一组一共 26 个任务,当中包罗了语义、 2D、2.5D、3D 任务,接着为任务列内外的这 26 个任务划分训练了 26 个任务专用神经网络。
效果显示,这些迁移后的模型的体现已经和作为黄金尺度的任务专用网络的体现差不多好。论文提供了一套盘算和探测相关分类结构的工具,其中包罗一个求解器,用户可以用它来为其用例设计有效的监视计谋。
论文链接:http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf2017年最佳论文麋集毗连的卷积网络Densely Connected Convolutional Networks点击添加图片形貌(最多60个字)焦点内容:近期的研究已经展现这样一种趋势,如果卷积网络中离输入更近或者离输出更近的层之间的毗连更短,网络就基本上可以更深、更准确,训练时也更高效。这篇论文就对这种趋势举行了深入的研究,并提出了麋集卷积网络(DenseNet),其中的每一层都和它之后的每一层做前馈毗连。
对于以往的卷积神经网络,网络中的每一层都和其后的层毗连,L 层的网络中就具有 L 个毗连;而在 DenseNet 中,直接毗连的总数则是 L(L+1)/2 个。对每一层来说,它之前的所有的层的 feature-map 都作为了它的输入,然后它自己的 feature-map 则会作为所有它之后的层的输入。
论文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Huang_Densely_Connected_Convolutional_CVPR_2017_paper.pdf通过反抗训练从模拟的和无监视的图像中学习Learning from Simulated and Unsupervised Images through Adversarial Training点击添加图片形貌(最多60个字)焦点内容:随着图像领域的进步,用生成的图像训练机械学习模型的可行性越来越高,大有制止人工标注真实图像的潜力。可是,由于生成的图像和真实图像的漫衍有所区别,用生成的图像训练的模型可能没有用真实图像训练的体现那么好。为了缩小这种差距,论文中提出了一种模拟+无监视的学习方式,其中的任务就是学习到一个模型,它能够用无标注的真实数据提高模拟器生成的图片的真实性,同时还能够保留模拟器生成的图片的标注信息。
论文中构建了一个类似于 GANs 的反抗性网络来举行这种模拟+无监视学习,只不外论文中网络的输入是图像而不是随机向量。为了保留标注信息、制止图像瑕疵、稳定训练历程,论文中对尺度 GAN 算法举行了几个关键的修改,划分对应「自我正则化」项、局部反抗性失真损失、用过往的美化后图像更新判别器。
论文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Shrivastava_Learning_From_Simulated_CVPR_2017_paper.pdf2016年最佳论文图像识此外深度残差学习Deep Residual Learning for Image Recognition点击添加图片形貌(最多60个字)焦点内容:在现有基础下,想要进一步训练更深条理的神经网络是很是难题的。我们提出了一种减轻网络训练肩负的残差学习框架,这种网络比以前使用过的网络本质上条理更深。我们明确地将这层作为输入层相关的学习残差函数,而不是学习未知的函数。
同时,我们提供了全面实验数据,这些数据证明残差网络更容易优化,而且可以从深度增加中大大提高精度。我们在 ImageNet 数据集用 152 层--比 VGG 网络深 8 倍的深度来评估残差网络,但它仍具有较低的庞大度。
在 ImageNet 测试集中,这些残差网络整体到达了 3.57% 的误差。该效果在 2015 年大规模视觉识别挑战赛分类任务中赢得了第一。此外,我们还用了 100 到 1000 层深度分析了的 CIFAR-10。
对于大部门视觉识别任务,深度表现是很是重要的。仅由于极深的表现,在 COCO 工具检查数据时,我们就获得了近 28% 相关的革新。
深度剩余网络是我们提交给 ILSVRC 和 COCO2015 竞赛的基础,而且在 ImageNet 检测任务,ImageNet 定位,COCO 检测和 COCO 支解等领域赢我们获得了第一。论文链接:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf2015年最佳论文动态融合:实时非刚性场景的重建与跟踪DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time点击添加图片形貌(最多60个字)焦点内容:作者提出第一个联合商用传感器对 RGBD 扫描效果举行捕捉,该效果可实时重建非刚性变形场景的麋集 SLAM 系统。
被称作 DynamicFusion 的这种方法在重建场景几何的当儿,还能同时估算一个麋集体积的 6D 运动场景,并将估算效果酿成实时框架。与 KinectFusion 一样,该系统可以生成越来越多去噪、保留细节、联合多种丈量的完整重建效果,并实时显示最新的模型。由于该方法无需基于任何模板或过往的场景模型,因此适用于大部门的移动物体和场景。
论文链接:https://rse-lab.cs.washington.edu/papers/dynamic-fusion-cvpr-2015.pdf2014年最佳论文关于未知双向反射漫衍函数,摄像机运动展现了什么What Object Motion Reveals About Shape With Unknown BRDF and Lighting焦点内容:作者提出了一种理论,用于解决在未知远距离照明以及未知各向同性反射率下,运动物体的形状识别问题,无论是正交投影还是穿透投影。该理论对外貌重建硬度增加了基本限制,与涉及的方法无关。在正交投影场景下,三个微分运动在不计 BRDF 和光照的情况下,可以发生一个将形状与图像导数联系起来的稳定量。
而在透视投影场景下,四个微分运动在面临未知的 BRDF 与光照情况,可以发生基于外貌梯度的线性约束。此外,论文也先容了通过稳定量实现重建的拓扑类。最后,论文推导出一种可以将形状恢复硬度与场景庞大性联系起来的通用分层。
从定性角度来说,该稳定量划分是用于简朴照明的匀称偏微分方程,以及用于庞大照明的非匀称方程。从数量角度来说,该框架讲明需要更多的最小运动次数来处置惩罚更庞大场景的形状识别问题。关于先前假设亮度恒定的事情,无论是 Lambertian BRDF 还是已知定向光源,一律被被看成是分层的特殊情况。
作者使用合成与真实数据进一步说明晰重建方法可以如何更好地使用这些框架。论文链接:https://cseweb.ucsd.edu/~ravir/differentialtheory.pdf2013年最佳论文在单个机械上快速、准确地对100,000个物体种别举行检测Fast, Accurate Detection of 100,000 Object Classes on a Single Machine点击添加图片形貌(最多60个字)焦点内容:许多物体检测系统受到将目的图像与过滤器联合举行卷积所需时间的约束,这些过滤器从差别的角度对物件的外表(例如物体组件)举行编码。作者使用局部敏感散列这点,将卷积中的点积内核运算符替换为牢固数量的散列探测器,这些探测器可以在无视滤波器组巨细情况下,实时、有效地对所有滤波器响应举行采样。为了向大家展示技术的有效性,作者将其用于评估 100,000 组可变形零件模型,模型将凭据目的图像的多个维度需要运用凌驾一百万个滤波器,作者需在 20 秒内通过 20GB RAM 的单个多核处置惩罚器来告竣评估目的。
实验效果显示,与其他同样硬件设置下执行卷积的系统相比,该模型获得了约莫 20,000 倍的提速 - 相即是四个量级。模型在针对 100,000 个物体种别的平均准确度到达了 0.16,主要因为在训练数据与基本实施的收集上面临挑战,最终模型在三分之一种别上实现至少 0.20 的 mAP,另外在约莫 20%的种别上实现 0.30 或更高的 mAP。论文链接:https://www.cv-foundation.org/openaccess/content_cvpr_2013/papers/Dean_Fast_Accurate_Detection_2013_CVPR_paper.pdf2012年最佳论文一个针对基于运动剖析非刚性结构的简朴、无先验方法A Simple Prior-free Method for Non-Rigid Structure-from-Motion Factorization焦点内容:作者提出一种简朴的「无先验」方法来解决非刚性结构的运动因子剖析问题。除了基本的低秩条之外,该方法无需任何关于非刚性场景或相机运动的先验知识。
即便如此,它依然得以稳定运行,并发生最佳效果,且不受许多传统非刚性剖析技术的基础 - 模糊性问题(basis-ambiguity issue)困扰。该方法易于实现,可以解决包罗小型与牢固巨细的 SDP(半定计划)、线性最小二乘或范数最小化追踪等问题。大量实验效果讲明,该方法优于现有的多数非刚性因子剖析线性方法。
本论文不仅提供全新的理论看法,同时提供了一种适用于非刚性结构运动剖析的实用日常解决方案。论文链接:http://users.cecs.anu.edu.au/~hongdong/CVPR12_Nonrigid_CRC_17_postprint.pdf2011年最佳论文针对单个深度图像部件的实时人体姿态识别模型Real-Time Human Pose Recognition in Parts from Single Depth Images点击添加图片形貌(最多60个字)焦点内容:作者提出一种可以基于无时间信息从单个深度图像中快速、准确预测身体枢纽 3D 位置的方法。
通过接纳物体识别方法设计身世体部位的间接表现,进而将有难度的姿势预计问题映射为简朴的每像素分类问题。作者同通过庞大、多样化的训练数据集,让分类器可以针对身体部位的姿势、身体形状、衣服等稳定量举行预估,进而通过重新投影分类效果找到局部模式,最终生成具有置信度的身体枢纽 3D 建模。该系统能在消费类硬件上以每秒 200 帧的速度运行。评估系统在合成与实际测试集的处置惩罚效果中显示了高精度,并分析了几个训练参数对此的影响。
与相关事情相比,该模型实现了现在最先进的精度,并在全骨架最近邻匹配上有了很大进步。论文链接:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/BodyPartRecognition.pdf2010年最佳论文使用L1范数对数据缺失的鲁棒低秩近似矩阵举行有效盘算Efficient Computation of Robust Low-Rank Matrix Approximations in thePresence of Missing Data using the L1 Norm点击添加图片形貌(最多60个字)焦点内容:低秩近似矩阵盘算是许多盘算机视觉应用中的基础操作。这类问题的主力解决方案一直是奇异值剖析(Singular Value Decomposition)。
一旦存在数据缺失和异常值,该方法将不再适用,遗憾的是,我们经常在实践中遇到这种情况。论文提出了一种盘算矩阵的低秩剖析法,一旦丢失数据时会主动最小化 L1 范数。
该方法是 Wiberg 算法的代表——在 L2 规范下更具说服力的剖析方法之一。通过使用线性法式的可区分性,可以对这种方法的基本思想举行扩展,进而包罗 L1 问题。效果讲明,现有的优化软件可以有效实现论文提出的算法。
论文提供了令人信服、基于合成与现实数据的开端实验效果。论文链接:https://acvtech.files.wordpress.com/2010/06/robustl1_eriksson.pdf2009年最佳论文暗通道先验去雾法Single Image Haze Removal Using Dark Channel Prior点击添加图片形貌(最多60个字)焦点内容:本文中提出了一个简朴却有效、针对单个输入图像的暗通道去雾法。
暗通道先验去雾法是一种户外去雾图像的统计方法,它主要基于一个关键的视察——室外无雾图像中的大多数局部斑块包罗一些像素,这些像素的强度起码有一个颜色通道处于低状态。使用这种基于雾度成像模型的先验方法,我们可以直接预计图像的雾霾厚度,借此将图像恢复至高质量的无雾状态。
种种模糊图像的去雾效果证明晰论文所提出先验方法的成效。此外,我们可以通过该方法获得高质量的深度图。
论文链接:http://www.jiansun.org/papers/Dehaze_CVPR2009.pdf2008年最佳论文二阶平滑先验下的全局立体重建Global Stereo Reconstruction under Second Order Smoothness Priors点击添加图片形貌(最多60个字)焦点内容:3D 曲面平滑度中的二阶先验是比一阶先验更好的典型场景模型。然而,基于全局推理算法(如图形切割)的二阶平滑先验法未能与二阶先验很好地举行联合,因为表达所需的三重聚会会议发生难以处置惩罚的(非子模块)优化问题。本文讲明三重集的推理可以获得有效的优化。
作者提出的优化计谋是基于 α 扩展的最新研究效果,源自「QPBO」算法。该计谋通过 QPBO 算法的最新扩展对提议深度图举行重复合并。
对于提案深度图的泉源并不受局限,好比可以是α扩展的前平行平面,亦或者带有任意参数设置的实际立体算法。最终实验效果证明晰二阶先验法以及框架优化计谋的有效性。
论文链接:http://www.robots.ox.ac.uk/~ojw/2op/Woodford08.pdf逾越滑动窗口:使用高效子窗口搜索实现工具定位Beyond Sliding Windows: Object Localization by Efficient Subwindow Search焦点内容:大部门有效的物体识别系统都依赖于二进制分类,不外这种方法只能确认物体是否存在,而无法提供物体的实际位置。为了实现物体定位功效,我们可以思量接纳滑动窗口法,然而这将大大增加盘算成本,因为必须在大量的候选子窗口上举行分类器函数评估。
为此,论文提出了一种简朴而强大的分支界定方案,可以在所有可能子图像上有效最大化大类分类器函数。它在次线性时间内提供基于全局最优解的收敛方案。论文展示了该方法如何适用于差别的检测工具与场景。
该方案实现的加速效果允许使用类似具有空间金字塔内核的 SVMs 或者基于χ2-距离的最近邻分类器来举行物体定位,而在已往,这些分类器被认为在处置惩罚相关任务时的速度太慢了。该方案在 UIUC 车辆数据集、PASCAL VOC 2006 数据集以及 PASCAL VOC 2007 竞赛中均取得了最先进的效果。论文链接:https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/34843.pdf2007年最佳论文在移动工具中举行动态三维场景分析Dynamic 3D Scene Analysis from a Moving Vehicle点击添加图片形貌(最多60个字)焦点内容:论文提出一个集成了全自动场景几何预计、2D 物体检测、3D 定位、轨迹预计和跟踪功效的系统,以用于分析移动工具的动态场景。
该系统的唯一输入泉源是汽车顶部经由校准的立体装置。从这些视频流中,我们得以实时预计 Structurefrom-Motion(SfM)和场景几何。
与此同时,作者还试图执行多视图/多种别工具识别,以检测摄像里的汽车和行人。通过 SfM 自定位系统,我们可以将检测到的 2D 工具转换为 3D 成像,并在真实世界的坐标系中连续累积。
随后跟踪模块将对 3D 观察效果举行分析,进而找到跟物理空间吻合的时空轨迹。最后,全局优化尺度会将工具 - 工具交互(object-object interactions)思量在内,以获得准确的汽车和行人的 3D 定位和轨迹预估效果。
论文展示了该集成系统在挑战真实世界数据方面的体现,该数据集显示了拥堵市区内的汽车行驶情况。论文链接:https://homes.esat.kuleuven.be/~konijn/publications/2007/00483.pdf2006年最佳论文在透视场景中放置物体Putting Objects in Perspective点击添加图片形貌(最多60个字)焦点内容:图像明白不仅需要思量视觉世界中的元素,还需要思量这些元素之间的相互作用。
本文提出了一个在 3D 场景语境中举行局部工具检测的框架,该框架主要基于物体、外貌偏向以及摄像机视点的相互作用。大多数物体检测方法会思量图像的比例和位置。通过对 3D 几何举行概率预估(包罗外貌以及世界坐标),我们可以将物体放置在透视图中,进而对图像的比例和位置变化举行建模。
该方法通过对物体概率举行假设以细化几何,借此反映问题的周期性,反之亦然。该框架允许任意物体探测器举行「无痛」替换,且便于扩展至包罗图像明白在内的其他方面。最终实验效果证实该综合方法的优势。
论文链接:http://dhoiem.cs.illinois.edu/publications/hoiem_cvpr06.pdf2005年最佳论文实时非刚性外貌检测Real-Time Non-Rigid Surface Detection焦点内容:论文提出一种无需任何先验知识、可实时检测变形外貌的方法。该方法从一组宽基线点开始,在物体未变形图像及检测图像之间举行匹配。
该匹配不仅可用于检测,同时还可以用来盘算点与点之间的准确映射。该算法在面临严重变形、光照变化、运动模糊以及遮挡问题时具有鲁棒性。它在 2.8 GHz 的 PC 上以每秒 10 帧的速度运行,据作者相识,尚未有其他发生类似效果的技术。
将可变形网格与设计良好的鲁邦性预计器举行联合,是该方法得以处置惩罚涉及大量参数的可变形外貌建模,且获得高达 95% 制止错误匹配率的关键,远远凌驾了实际要求。论文链接:https://infoscience.epfl.ch/record/128408/files/PiletLF05.pdf2004年最佳论文使用电子微镜阵列实现可编程的图像建立Programmable Imaging using a Digital Micromirror Array点击添加图片形貌(最多60个字)焦点内容:论文先容了可编程成像系统的观点。
该成像系统为人类或视觉系统提供了对系统辐射度与几何特征的控制方法。该灵活性是通过可编程微镜阵列才得以实现的。我们可以通过把控空间和时间上的高精度来控制阵列偏向,使得系统可以凭据应用需要来灵活选择并调制光线。作者乐成实现了一种基于数字微镜装置(DMD)的可编程成像系统,用于处置惩罚数字光。
虽然设备的镜像只能置于两个镜头中的一个,效果却讲明该系统可以实现种种成像功效,其中包罗高动态规模成像、特征检测以及物体识别。论文在最后探讨了如何在无需动用移动部件情况下,使用微镜阵列举行视场控制。
论文链接:https://www.researchgate.net/publication/4082198_Programmable_imaging_using_a_digital_micromirror_array2003年最佳论文使用尺度无关的无监视学习实现物体类型识别Object Class Recognition by Unsupervised Scale-Invariant Learning点击添加图片形貌(最多60个字)焦点内容:论文提出一种通过尺度稳定方法(scale invariant manner)从未标志、未分段的杂乱场景中学习并识别物体类模型的方法。这些物体被建模成灵活性的系列部件。概率表现方法被用于识别物体的所有方面,包罗形状、外观、遮挡物以及相对比例。
基于熵的特征检测器则用于对图像内的区域及其比例做选择。在这历程中,尺度稳定工具模型的参数将被模型预估,这是通过最大似然设置(maximum-likelihood setting)中的期望最大化(expectation-maximization)来完成的。
该模型基于贝叶斯方式对图像举行分类。通过一系列在几何约束类(例如面部,汽车)和柔性物体(例如动物)数据集上取得的优异效果,证明晰该模型的灵活性。
论文链接:https://cs.nyu.edu/~fergus/papers/fergus03.pdf2001年最佳论文视频中的形变三维模型Morphable 3D models from video焦点内容:非刚性运动 3D 结构 和 2D 光流被认为是张量剖析领域的问题。通过嘈杂仿射变换方法,我们可以将这两者问题变为组合非刚性结构强度问题,进而使用结构化矩阵剖析方法举行解决。
然而,图像噪声及数据缺陷将导致该因式剖析法的前提条件无法建立。即便如此,我们依然可以通过品级约束、范数约束以及强度值来解决这两个问题,进而发生针对不确定性 SVD、不确定性剖析、非刚性因子剖析以及子空间光流的全新解决方案。最终获得的集成算法可以跟踪以及举行 3D 重建具有细小纹理的非刚性外貌,好比具有平滑部门的面部。
通过联合低分辨率低纹理的「视频发现」,这些方法可以发生良好的跟踪与 3D 重建效果。论文链接:http://www.merl.com/publications/docs/TR2001-37.pdf2000年最佳论文运用均值漂移实现对非刚性物体的实时追踪Real-Time Tracking of Non-Rigid Objects using Mean Shift焦点内容:论文提出一种可以从移动摄像机实时追踪非刚性物体的全新方法。
中央盘算模块将基于均值漂移以及当前帧中的目的可能位置举行运算。目的模型(颜色漫衍)与目的候选者之间的差异由 Bhattacharyya 系数举行表现。该方法的理论分析讲明,它与贝叶斯框架息息相关,同时提供了实用、快速且有效的解决方案。针对多个图像序列的演示效果,展示了该方法跟踪并处置惩罚实时部门遮挡、显着杂波以及目的比例变化的能力。
论文链接:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.28.41&rep=rep1&type=pdf。
本文来源:爱游戏app官方下载-www.topfor.com.cn