极速三分快三注册22篇入选CVPR 2020,百度 15 篇精选论文详解 | 雷锋网

  • 时间:
  • 浏览:0
  • 来源:彩神快三网站

文 | 百度

编 | 贾伟

近日,计算机视觉领域“奥斯卡”CVPR 2020官方敲定论文收录结果,伴随投稿数量激增,接收率开始英文英语 经历了极速三分快三注册一另一个多持续下降的过程。今年,在6656篇有效投稿中,共有1470篇论文被接收,接收率为22%左右,相较去年25%的入选率,同比下降3%。

本届大会中,百度共有22篇论文入选,涉及主题包含人脸检测&识别、视频理解&分析、图像超分辨、及自动驾驶中的车辆检测、场景实例级分割等领域。以下为其中 15 篇入选论文介绍。

1、人脸检测&识别

论文:HAMBox: Delving into Online High-quality Anchors for Detecting Outer Faces

近期,关于人脸检测器利用锚点构建一另一个多结合分类和坐标框回归的多任务学习问題,有效的锚点设计和锚点匹配策略使得人脸检测器也能在大姿态和尺度变化下精准定位人脸。本次论文中,百度提出了并都不 在线高质量锚点挖掘策略HAMBox, 它也能使得异常人脸(outer faces)被补偿高质量的锚点。HAMBox辦法 也能成为并都不 基于锚点的单步骤人脸检测器的通用优化方案。该方案在WIDER FACE、FDDB、AFW和PASCAL Face多个数据集上的实验表明了其优越性,同時 在2019年WIDER Face and Pedestrian Challenge上,以mAP 57.13%获得冠军,享誉国际。

论文:FaceScape: a Large-scale High Quality 3D Face Dataset and Detailed Riggable 3D Face Prediction

该论文极速三分快三注册发布大尺度高精度人脸三维模型数据库FaceScape,并首次提出从单幅图像预测高精度、可操控人脸三维模型的辦法 。FaceScape数据库包含约11000个高精度三维面部模型,每个模型包含基底模型和4K分辨率的置换图及纹理贴图,也能表征出面部极细微的三维特性和纹理。与现有公开的三维人脸数据库相比,FaceScape在模型数量和质量上均处在世界最高水准。在FaceScape数据库的基础之上,本文还探索了一项具有挑战性的新课题:以单幅人脸图像为输入,预测高精度、表情可操控的三维人脸模型。该辦法 的预测结果也能通过表情操控生成精细的面部模型序列,所生成的模型在新表情下仍然包含逼真的细节三维特性。据悉,FaceScape数据库和代码将于近期免费发布,供非商业用途的学术研究使用。

论文:Hierarchical Pyramid Diverse Attention Network for Face Recognition

目前主流的人脸识别辦法 很少考虑不同层的多尺度局部特性。为此,本文提出了一另一个多分层的金字塔复杂化注意力模型。当面部全局外观处在巨大变化时,局部区域将起重要作用。最近的某些工作应用注意力模块来自动定位局部区域。原应不考虑多样性,所学的注意力通常会在某些相似的局部块周边产生冗余的响应,而忽略了某些潜在的有判别力的局部块。此外,原应姿态或表情变化,局部块原应以不同的尺度跳出。为了缓解哪几种挑战,百度团队提出了并都不 金字塔复杂化注意模块,以自动和自适应地学习多尺度的复杂化局部表示。更具体地说,开发了金字塔注意力模块以捕获多尺度特性;同時 为了鼓励模型专注于不同的局部块,开发了多元化的学习辦法 。其次,为了融合来自低层的局部细节或小尺度面部特性图,也能使用分层双线性池化来代替串联或换成。

2、目标检测&跟踪

论文:Associate-3Ddet: Perceptual-to-Conceptual association for 3D Point Cloud Object Detection

目标检测技术是机器人和自动驾驶领域中最重要的模式识别任务之一。本文提出了并都不 领域自适应的辦法 来增强稀疏点云特性的鲁棒性。更具体地说,是将来自真实场景的特性(感知域特性)和从包含充极速三分快三注册裕细节信极速三分快三注册息的全部虚拟点云特性(概念域特性)进行了关联。你什儿 域适应特性关联的辦法 实际上是模拟在人脑进行物体感知时的联想关联功能。你什儿 三维目标检测算法在训练过程中增强了特性提取能力,在推理阶段不都要引入任何额外的组件,使得该框架易于集成到各种三维目标检测算法中。

论文:Neural Message Passing and Attentive Spatiotemporal Transformer for Point Cloud Based 3D Video Object Detection 

基于单帧点云的3D目标检测器通常无法应对目标遮挡、远距离和非均匀采样等情形,而点云视频(由多个点云帧组成)通常包含充裕的岁月信息,也能改善上述情形下的检测效果,否则本文提出一另一个多端到端的在线3D点云视频目标检测器。论文中的Pillar Message Passing Network(PMPNet),可将点云俯视图下的非空栅格编码为图节点,并在节点间进行信息传递以动态改善节点感受野,PMPNet能与否效结合图空间的非欧特性和CNN的欧式特性;在岁月特性聚合模块中,还提出空间和时间注意力机制来强化原始的Conv-GRU层,空间注意力机制对new memory进行前景增强和背景抑制,时间注意力机制用以对齐相邻帧中的动态前景目标。该3D点云视频目标检测器在nuScenes大型基准集上达到了领先效果。

论文:A Unified Object Motion and Association Model for Efficient Online Multi-object Tracking 



利用单目标跟踪器(SOT)作为运动预测模型执行在线多目标跟踪(MOT)是当前的流行辦法 ,否则相似辦法 通常都要额外设计一另一个多复杂化的相似度估计模型来正确处理相似目标干扰和密集遮挡等问題。本文利用多任务学习策略,将运动预测和相似度估计到一另一个多模型中。值得注意的是,该模型还设计了一另一个多三元组网络,可同時 进行SOT训练、目标ID分类和排序,网络输出的具有判别力的特性使得模型也能更准确地定位、识别目标和进行多目标数据关联;此外,论文中提出了一另一个多任务专属注意力模块用于强调特性的不同上下文区域,进一步强化特性以适用于SOT和相似度估计任务。该辦法 最终得到一另一个多低存储(100M)和高带宽(5FPS)的在线MOT模型,并在MOT2016和MOT2017标准测试集上取得了领先效果。

3、视频理解&分析

论文:ActBERT: Learning Global-Local Video-Text Representations

受到BERT在自我监督训练中的启发,百度团队对视频和文字进行相似的联合建模, 并基于叙述性视频进行视频和文本对应关系进行研究。其中对齐的文本是通过现成的自动语音识别功能提供的,哪几种叙述性视频是进行视频文本关系研究的充裕数据来源。ActBERT加强了视频文字特性,也能发掘到细粒度的物体以及全局动作意图。百度团队在某些视频和语言任务上验证了ActBERT的泛化能力,比如文本视频片段检索、视频字幕生成、视频问題解答、动作分段和动作片段定位等,ActBERT明显优于最新的某些视频文字正确处理算法,进一步证明了它在视频文本特性学习中的优越性。

论文:Memory Aggregation Networks for Efficient Interactive Video Object Segmentation

该论文目的是设计一另一个多快速的交互式视频分割系统,用户也能基于视频某一帧在目标物上给出简单的线,分割系统会把整个视频中该目标物分割出来。此前,针对交互式视频分割的辦法 通常使用一另一个多独立的神经网络,分别进行交互帧分割、将分割结果传导至某些帧。本文将交互与传导融合在一另一个多框架内,并使用像素embedding的辦法 ,视频中每一帧只都要提取一次像素embedding,更有带宽。另外,该辦法 使用了创新性的记忆存储机制,将就让 交互的内容作用到每一帧并存储下来,在新的一轮交互中,读取记忆中对应帧的特性图,并及时更新记忆。该辦法 大幅提升分割结果的鲁棒性,在DAVIS数据集上取得了领先的成绩。

论文:Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

尽管最近在全部监督的领域上,动作分割技术方面取得了进步,否则其性能仍有严重不足。一另一个多主要的挑战是岁月变化的问題(相似不同的人原应以各种辦法 进行相同的动作)。否则,该论文中利用未标记的视频来正确处理此问題,辦法 是将动作分割任务重新设计为跨域(domain)问題,否则该跨域问題主要针对岁月变化引起的域差异。为了减少差异,论文提出了“自我监督的时域自适应(SSTDA)”,其暗包含一另一个多自我监督的辅助任务(binary和sequential的域预测),以联合对齐嵌入不同规模时域动态的跨域特性空间,从而获得比某些域适应(DA)辦法 更好的效果。在一另一个多具有挑战性的公开数据集(GTEA、100Salads和Breakfast)上,SSTDA远远领先于当前的最新辦法 ,否则只都要65%的标签训练数据即可获得与当前最新辦法 可比的性能,这也表明该辦法 能与否效利用未标签目标视频来适应各种变化。

4、图像超分辨

论文:Channel Attention based Iterative Residual Learning for Depth Map Super-Resolution



随着层厚信息的应用范围那末大,层厚图像超分辨问題引起了广泛研究者的关注。层厚图像超分辨率是指由低分辨率层厚图像为基础,获取高质量的高分辨率层厚图像。本文提出的是并都不 层厚图像超分辨率辦法 ,同時 对低分辨率层厚图像的产生辦法 进行分析,并提出并都不 模拟低分辨率层厚图像生成的辦法 :伴随噪声的非线性插值降采样产生辦法 及间隔降采样产生辦法 。

针对不相似型的低分辨率层厚图像,本文使用迭代的残差学习框架以低分辨率层厚图像为输入,以coarse-to-fine的辦法 逐步恢复高分辨率层厚图像的高频信息;同時 ,使用通道增强的策略加强暗包含频信息较多的通道在整个学习框架中的作用;另外,还使用多阶段融合的策略有效复用在coarse-to-fine过程中获得的有效信息;最后,通过TGV约束和输入损失函数进一步优化获得的高分辨率层厚图像。此次提出的辦法 能与否效正确处理层厚图像超分辨率问題,与目前已知的辦法 相比,效果显著,优势明显。

5、车辆识别

论文:3D Part Guided Image Editing for Fine-grained Object Understanding

 

在自动驾驶场景中,准确地感知“特殊”情形的车辆对行驶安全至关重要(相似:车门打开原应有乘客下车,尾灯闪烁原应即将变道)。针对此问題,本文提出了一另一个多全新的数据合成(增强)辦法 ,即通过对齐的部件级三维模型对二维图像中的车辆进行编辑,自动生成絮状“特殊”情形(相似:开启的车门、后备箱、引擎盖,闪烁的前照灯、尾灯)的车辆图像与语义标注结果。针对生成的训练数据,本文设计了一另一个多双路骨干网络使得模型也能泛化到真实的测试数据,与传统的模型渲染辦法 相比,本辦法 平衡了域差异的问題否则更加轻量便捷。

为了验证辦法 的有效性,本文构建了CUS (Cars in  Uncommon States) 数据集,标注了约1100张真实街景下车辆处在特殊情形的图像。实验结果表明:本文提出的辦法 能与否效地对“特殊”情形的车辆进行检测、整车的实例级分割、部件的语义分割以及情形描述,对自动驾驶的安全决策有着重要的意义。

6、神经网络架构搜索

论文:GP-NAS: Gaussian Process based Neural Architecture Search

通过对层厚神经网络进行模型特性自动搜索, NAS(Neural Architecture Search)在各类计算机视觉的任务中都超越了人工设计模型特性的性能。本论文旨在正确处理NAS中的一另一个多重要问題:(1)如保衡量模型特性与其性能之间的相关性?(2)如保评估不同模型特性之间的相关性?(3)如保用絮状样本学习哪几种相关性?为此,本论文首先从贝叶斯视角来对哪几种相关性进行建模。

首先,通过引入并都不 新颖的基于高斯过程的NAS(GP-NAS)辦法 ,并通过定制化的核函数和均值函数对相关性进行建模。否则,均值函数和核函数都不 也能在线学习的,以实现针对不同搜索空间中的复杂化相关性的自适应建模。此外,通过结合基于互信息的采样辦法 ,也能通过离米 的采样次数就能估计/学习出GP-NAS的均值函数和核函数。在学习得到均值函数和核函数就让 ,GP-NAS就也能预测出不同场景,不同平台下任意模型特性的性能,否则从理论上得到哪几种性能的置信度。在CIFAR10和ImageNet上的絮状实验证明了当当我们当当我们算法的有效性,否则取得了SOTA的实验结果。

论文:BFBox: Searching Face-appropriate Backbone and Feature Pyramid Network for Robust Face Detector

本文提出的BFBox是基于神经网络架构搜索的辦法 ,同時 搜索适合人脸检测的特性提取器和特性金字塔。动机是当当我们当当我们发现了一另一个多有趣的问題:针对图像分类任务设计的流行的特性提取器原应在通用目标检测任务上验证了其重要的兼容性,然而在人脸检测任务上却那末取得预期的效果。同時 不同的特性提取器与特性金字塔的结合也都不 全部正相关的。首先,本文对于比较好的特性提取器进行分析,提出了适合人脸的搜索空间;其次,提出了特性金字塔注意力模块(FPN-attention Module)去加强特性提取器和特性金字塔之间的联系;最后, 采取SNAS的辦法 同時 搜出适和人脸的特性提取器和特性金字塔特性。多个数据集上的实验表明了BFBox辦法 的优越性。

7、特性设计

论文:Gated Channel Transformation for Visual Recognition



本文针对层厚卷积神经网络提出了并都不 常规的、易应用的变换单元,即Gated Channel Transformation (GCT) 模块。GCT结合了归一化辦法 和注意力机制,并使用轻量级的、易于分析的变量来隐式地学习网络通道间的相互关系。哪几种通道量级的变量也能直接影响神经元间的竞争原应企业相互合作行为,且能方便地与卷积网络并都不 的权重参数同時 参与训练。通过引入归一化辦法 ,GCT模块要远比SE-Nets的SE模块轻量,这使得将GCT部署在每个卷积层上而不需要网络变得过于臃肿成为了原应。本文在多个大型数据集上针对数种基础视觉任务进行了充分的实验,即ImageNet数据集上的图片分类,COCO上的目标检测与实例分割,还有Kinetics上的视频分类。在哪几种视觉任务上,引入GCT模块均能带来明显的性能提升。哪几种絮状的实验充分证明了GCT模块的有效性。

8、表征学习

论文:Label-Isolated Memory for Long-Tailed Visual Recognition

实际场景中的数据通常遵循“长尾”分布。絮状类别都不 数据较少,而有少数类别数据充裕。为了正确处理类不平衡问題,本文引入了类别隔离记忆特性(LIM)用于长尾视觉识别。首先,LIM增强了卷积神经网络快速学习尾部类别特性的能力。通过存储每个类的最显著的类别特性,独立更新存储单元,LIM进一步降低了分类器学偏的原应。其次,本文为多尺度空间特性编码引入了并都不 新颖的区域自注意力机制。为了提高尾类识别通用性,合并更多区别性强的特性是有好处的。本文提出以多个尺度对局部特性图进行编码,同時 背景信息也被融合进来。配备LIM和区域自注意力机制,该辦法 在三个数据集上都取得了最好的性能。

雷锋网(公众号:雷锋网)雷锋网雷锋网

相关文章:

CVPR 2020 | 看图说话之随心所欲:细粒度可控的图像描述自动生成

CVPR 2020 Anti-UAV Workshop征稿啦,“反无人机”挑战赛等你来战!

古有照妖镜,今有换脸识别机,微软 CVPR 2020力作,让伪造人脸无处遁形

CVPR 2020接收论文敲定:录用1470篇,接收率“二连降”,仅22% !

雷锋网原创文章,未经授权禁止转载。详情见转载须知。