利用Transformer来进行目标检测和语义分割

这次介绍的是Facebook AI的一篇文章“End-to-End Object Detection with Transformers”

恰好最近Transformer也比较热门，这里就介绍一下如何利用Transformer来进行目标检测以及语义分割。

关于Transformer，可以参考我的这篇文章。

这里我简要地介绍一下Transformer，这是一个用于序列到序列建模的模型架构，被广泛应用于自然语言翻译等领域。Transformer抛弃了以往对序列建模的RNN形式的网络架构，引入了注意力机制，实现了不错的序列建模以及变换能力。

DETR的架构

如上图所示，这里面主要分为两个部分：

更为细节地，给出如下的架构

架构细节

目标检测效果

如上图所示，可以看到DETR的计算次数不算多，但是FPS也不算高，只能算中规中矩。

这里给出关于语义分割的大致架构，如下图所示：

语义分割架构

注意到，图中所描述的，边界框嵌入（Box Embedding）实质上就是decoder的输出（在FFN之前）。然后使用一个多头部注意力的机制，这个机制实质上是对Q，K，V进行多次的线性变换，在这里面，K和V是Encoder的输入，Q是decoder的输出。其中M是多头部注意力的头部数量。

之后，通过一个简单的CNN，得到一个Mask矩阵，用来生成语义分割的结果。

语义分割结果

可以看到比起PanopticFPN 来说，效果的提升有限，特别是AP并不佳，表现一般。

文章将Transformer应用到了目标检测以及语义分割的领域，取得了不错的效果，但是性能上相较于FastRCNN类似架构的方法，并没有明显的提升，但显现出这种序列模型不错的扩展能力。用一个架构解决多种问题，统一化模型的目标指日可待。

0 人点赞