网站首页资讯科技

鱼与熊掌能够兼得:何恺明等人一统语义切割与实例切割

2019-01-11 05:04:31小编:仁怀安卓网点击数:

近年来,语义切割快速开展,这项使命是为每个像素分配一个类别标签。在最近的实例切割中,机器的使命是检测和切割每个方针实例。用于语义切割全卷积网络(FCN)[39] 和实例切割的 Mask R-CNN[23] 等简略而强壮的基线办法也促成了这些发展。这些办法概念上十分简略、快速、灵敏,可以作为该范畴许多后续发展的根底。本文作者的方针是提出一品种似的简略、单网络基线办法,用于全景切割 [29] 联合使命,该使命包括语义切割和实例切割。

虽然概念上十分直观,但规划一个针对两种使命精确率都很高的单个网络十分困难,因为在两种使命上体现最好的办法都存在着许多差异。语义切割使命中占据榜单 [17, 14] 的网络是 FCN,它具有由空泛卷积增强的特别骨干 [55, 10]。在实例切割使命中,带有特征金字塔网络(FPN)[34] 骨干的依据区域的 Mask R-CNN [23] 成为处理几个扎手辨认难题 [35, 58, 41] 的根底。虽然已经有研讨者测验一致语义切割和实例切割 [44, 1, 9],但鉴于它们一起练习但基准测验各自独立的特性,目前为完成各自最佳功能所必需的专门化或许是不可防止的。

因为这些顶尖办法存在架构上的差异,有人或许以为在规划用于两个使命的单个网络时献身其间一个的精确率是有必要的。可是,本文作者提出了一种简略、灵敏的高效架构,在两种使命中都能运用单个网络取得很高的精确率,这个网络可以一起生成依据区域的输出(实例切割)和像素密布的输出(语义切割)。

该办法从实例级辨认 [23] 中盛行的 FPN[34] 骨干下手,并添加了一个分支,用于并行履行语义切割和现有的依据区域的实例切割分支(见图 1)。作者在添加密布猜测分支时没有改动 FPN 的骨干,使其可以兼容现有的实例切割办法。本文提出的办法名为全景 FPN,因为它可以经过 FPN 一起进行实例切割和语义切割,在给定 Mask R-CNN 结构的情况下十分简略完成。

图 1:全景 FPN:(a)作者从方针检测中广泛用于抽取丰厚的具有多规范特征的 FPN 骨干下手。(b)在 Mask R-CNN 中,作者在 FPN 上运用依据区域的分支进行实例切割。(c)一起,作者在相同的 FPN 特征上添加了轻量级密布猜测分支用于语义切割。运用 FPN 进行的 Mask RCNN 简略扩展使其对两个使命来说都是快速、精确的基线。

虽然全景 FPN 是 Mask RCNN 运用 FPN 进行的简略扩展,但恰当练习两个分支来一起进行依据区域和密布像素的猜测关于成果的好坏至关重要。作者在合二为一的网络中进行了详尽的研讨,以平衡两个分支的丢失、高效构建小批量、调整学习率方案及完成数据增强。作者还探究了用于语义切割分支的多种规划(其它网络组成部分都依照 Mask R-CNN 规划)。整体来看,虽然该办法关于精确的规划挑选是鲁棒的,但用恰当的办法处理这些问题才是取得杰出成果的要害。

独自为每个使命练习时,本文办法在两个数据集(COCO 和 Cityscapes)的实例切割和语义切割方面都取得了极好的成果。在实例切割中的成果果然如此,因为该办法在此事例中等效于 Mask R-CNN。而在语义切割中,附加在 FPN 上的这一简略密布猜测分支发生的精确率却足以对抗依据空泛卷积的最新办法(如精心规划的 DeepLabV3+)。

关于全景切割,作者证明了经过恰当的练习,可以运用单个 FPN 来一起处理两个使命(语义切割和实例切割),且发生的精确率相当于练习两个独自的 FPN,而所需的核算量仅为一半。核算量相同的情况下,用于两个使命的联合网络远远优于两个独自的网络。全景切割成果示例如图 2 所示。

图 2:运用单个 ResNet-101-FPN 网络在 COCO 数据集(上)和 Cityscapes 数据集(下)上的全景 FPN 成果。

全景 FPN 具有高效的存储和核算才能,在 Mask R-CNN 上所需花费甚少。经过防止运用开支很高的空泛卷积,该办法可以运用任何规范的尖端骨干(如大型 ResNeXt)。作者以为,该办法的灵敏性、快速练习才能和揣度速度将有利于未来的全景切割研讨。

在 2017 年的 COCO Stuff Segmentation 挑战赛中,作者取得第一名时运用的是其模型的初始版别(仅语义切割分支)。然后该单分支模型被选用和泛化至 2018 COCO & Mapillary 挑战赛的几个项目中,充沛展现了其灵敏性和有用性。作者期望本文提出的联合全景切割基线将相同有用。

论文:Panoptic Feature Pyramid Networks

论文地址:https://arxiv.org/abs/1901.02446v1

摘要:最近引进的全景切割使命再次激发了社区一致实例切割和语义切割使命的爱好。但是,当时针对这一联合使命的最佳办法运用的是各自独立的不同网络,这些网络进行实例切割和语义切割,但并不履行任何同享核算。在本文中,作者的方针是在架构层面一致这些办法,规划单个网络来处理两个使命。本文提出的办法经过运用同享的特征金字塔网络 (FPN) 骨干,给 Mask R-CNN(盛行的实例切割办法)添加了语义切割分支。令人惊奇的是,这个简略的基线不仅对实例切割有用,并且还发生了一种轻量级的、功能最佳的语义切割办法。在本文中,作者对这种带有 FPN 的 Mask R-CNN(称之为全景 FPN)最小扩展版别进行了具体研讨,发现对两项使命来说,它都是鲁棒又精确的基线。因为这种办法概念简略且有用,作者期望该办法可以作为强壮的基线,助力未来的全景切割。

3.1 模型架构

  • 特征金字塔网络:FPN 选用具有多种空间分辨率特征的规范网络(如 ResNet [24]),并添加了一条具有横向衔接的自上而下的轻型途径。

  • 实例切割分支:FPN 的规划,尤其是一切金字塔等级运用相同的通道尺度,使衔接依据区域的方针检测器(如 Faster R-CNN)变得愈加简略。

  • 全景 FPN:如上所述,本文的办法是用 FPN 修正 Mask R-CNN,以完成像素级语义切割猜测。

  • 语义切割分支:为了依据 FPN 特征生成语义切割输出,作者提出了一个简略的规划——将来自 FPN 金字塔一切等级的信息兼并至单个输出中。

图 3:语义切割分支。每个 FPN 等级(左)经过卷积和双线性上采样进行上采样,直到巨细变为 1/4(右),然后将这些输出相加,最终转换成像素输出。

4. 试验

表 1:运用 FPN 的语义切割

表 2:多使命练习:(a,b) 在单使命基线上添加一个语义切割分支并恰当调整λs(加粗部分),可以稍微改进实例切割的成果。留意,λs 是指分配给语义切割丢失的权重,λs=0.0 作为单使命基线。(c,d) 在单使命基线上添加一个实例切割分支并恰当调整λi(加粗部分),可以给语义切割带来更大改进。和之前相同,λi 是指分配给实例切割丢失的权重,λi = 0.0 被用作单使命基线。

表 3:全景 FPN 成果。

图 6:运用单个 ResNet-101-FPN 网络在 COCO 数据集(上)和 Cityscapes 数据集(下)上的更多全景 FPN 成果。