Facebook 最新论文:Mask R-CNN实例分割通用框架检测分割和特征点

2026-03-08 15:02:00
miadmin
原创
7

Facebook 最新论文:Mask R-CNN实例离散通用框架,检测,离散和特点点定位一次搞定(众图)

--

--

导语:Mask R-CNN是Faster R-CNN的扩展办法,或许有用地检测图像中的方针,同时还能为每个实例天生一个高质料的离散掩码。

雷锋网此前报道《FacebookAML实行室职掌人:将AI技艺落地的N种手腕》(上下篇)就提到,做好图像识别,不光能让Facebook的用户更精准探索到念要的图片,为瞎子读出图片中包蕴的音讯,还能助助用户正在平台上贩卖物品、做社交推选等等。

今天, FAIR部分的探求职员正在这一范畴又有了新的打破——他们提出一种方针实例离散(object instance segmentation)框架Mask R-CNN,该框架较古代手腕操作更纯洁、更矫健。探求职员把实行劳绩《Mask R-CNN》揭晓正在了arXiv上,并吐露之后会开源相干代码。

物体识别,图像语义离散技艺能正在短时光内疾速生长,Fast/Faster RCNN和全卷积搜集(FCN)框架等技艺功不行没。这些手腕观点直观,陶冶和揣摸速率速,而且具有优秀的矫健性和鲁棒性。

寻常来说,方针离散的难点正在于,它需求准确识别出图像中一切物体的对象,而且要将分别物体精准辨别开。于是,这内部涉及到两个义务:

大师恐怕以为,要同时已毕这两个义务,手腕必定会相当庞大;但Mask R-CNN却能够更轻松的处理这两个题目。

Mask R-CNN是Faster R-CNN的扩展办法,或许有用地检测图像中的方针,同时还能为每个实例天生一个高质料的离散掩码(segmentation mask)。

它的构修手腕是:正在每个风趣点(Region of Interest,RoI)上加一个用于预测离散掩码的分层,称为掩码层(mask branch),使该层并行于已有鸿沟层和分类层(如下图所示)。

于是,掩码层就成为了一个小型FCN。咱们将它操纵于单个RoI中,以正在pixel-to-pixel手脚中预测离散掩码。

因为目前已有很众安排优秀,可用于Faster R-CNN的构架,于是,举动Faster R-CNN的扩展,Mask R-CNN正在操纵时也没有禁止;

Mask R-CNN 还能够很容易泛化到其它义务上。比方,能够正在统一个框架中揣度人物的行为。

正在COCO测试中能够看到,Mask R-CNN 正在实例离散、鸿沟框方针检测和人物枢纽点检测这三个难点上都得到了较好的实行功效,而且比每个现有的独立模子,搜罗 COCO 2016 挑拨赛的获胜模子,出现都要好。

图2:Mask R-CNN正在 COCO 测试集上的测试结果。结果显示,Mask R-CNN能用ResNet-101,正在 5 fps 的度下实行 35.7 的 mask AP。图上分别的颜色吐露分别的掩码,其它也给出的鸿沟框、种别和置信度。

图 3:顶端架构:咱们延展了两个已有的 Faster R-CNN 头 [14,21]。左图和右图离别呈现了 ResNet C4 和 FPN 的主干的顶端部门,离别来自 [14] 和 [21],况且能够看到上面还增众了一个 mask 分支。图中的数字吐露空间诀别率和信道,箭头吐露卷积、去卷积或全相联层。整体能够依据情景揣摸(卷积会连结空间维度而去卷积会增众空间维度)。除了输出卷积是 1×1 之外,其它一切卷积都是 3×3,去卷积是 2×2,步幅为 2。咱们正在躲藏层中运用 ReLU [24]。左图中 res5 吐露 ResNet 的第 5 阶段,但为了纯洁起睹,咱们做了编削,使第 1 个卷积层运转正在一个 7×7 RoI 上,步幅为 1(而不是如 [14] 中的 14×14,步幅为 2)。右图中的 ×4 吐露 4 个衔接卷积的堆叠。

上图显示,更深层的搜集(图2a:50 vs 101)和更先辈的安排(搜罗FPN和ResNeXt)都对Mask R-CNN有助助效率。可是,也不是一切框架都能自愿从中受益。