西电 & 上交大提出 S2Mamba, 超越传统 Transformer, 提升高光谱图像分类准确性 !

高光谱图像（HSI）的土地覆盖分析仍然是一个未解决的问题，因为它们的空间分辨率低且光谱信息复杂。近年来的研究主要集中在设计基于Transformer的架构，用于建模空间-光谱长期依赖关系，这具有二次复杂度，计算成本高昂。选择性的结构化状态空间模型（Mamba）最近显示出有希望的进展，因为它能以线性复杂度有效地建模长期依赖关系。然而，在需要处理众多光谱波段的高光谱图像处理中，其潜力尚未被探索。在本文中，作者创新性地提出了SMamba，一种用于高光谱图像分类的空间-光谱状态空间模型，以挖掘空间-光谱上下文特征，从而实现更高效和准确的土地覆盖分析。在SMamba中，通过不同维度设计了两套选择性的结构化状态空间模型进行特征提取，一套用于空间，另一套用于光谱，并伴随一个空间-光谱混合门以实现最优融合。更具体地说，SMamba首先通过Patch Cross Scanning模块使每个像素与其相邻像素交互，捕捉空间上下文关系，然后通过双向光谱扫描模块从连续的光谱波段中探索语义信息。考虑到在均匀和复杂纹理场景中这两种属性的独特专长，作者通过一组可学习矩阵实现空间-光谱混合门，允许自适应地融合跨不同维度学习的表示。在HSI分类基准上的大量实验证明了SMamba的优越性和前景。代码将可在以下网址获取：https://github.com/PURE-melo/S2Mamba。

1 Introduction

高光谱图像（HSI）由众多光谱带组成，由于其丰富的物质信息，能够进行土地覆盖分析，在精准农业、矿物勘探和环境监测等领域具有广泛的应用。因此，设计一个更有效、更高效的高光谱图像分类模型具有很强的激励性。作为广泛使用的范例，卷积神经网络（CNNs）在高光谱图像分类中已被广泛研究。然而，这一范例受到局部感受野的限制，无法全面捕捉连续的光谱属性。最近，在光谱和空间维度上提取全局上下文信息能力的Transformer架构已在高光谱图像分类中探索，表现出卓越的性能。

尽管具有强大的表征能力，但基于Transformer的模型处理HSI数据在计算上是昂贵的，这主要是由于具有二次计算复杂度[18, 19]的自注意力机制。作为一种高效的自注意力机制替代方案，选择性的结构化状态空间模型（Mamba）[20]最近作为在序列处理中建模长距离依赖的强大工具出现，具有线性复杂度。由此，一系列基于Mamba的模型已被探索用于各种计算机视觉任务，如图像分类、语义分割等。然而，这些模型大多数仅应用于自然图像处理，由于难以处理复杂的空间-光谱信息，而在高光谱图像分类中留有空白。

从状态空间模型的成功中汲取灵感，本文旨在探索它们在HSI处理中的潜力。为此，作者提出了一种空间-光谱状态空间模型（Mamba）来共同挖掘长距离空间关系和连续的光谱特征，用于高光谱图像分类。作者的Mamba包括Patch Cross Scanning和Bi-directional Spectral Scanning模块，分别捕捉空间和光谱信息，并通过Spatial-spectral Mixture Gate将它们合并。具体来说，作者构建了一个Patch Cross Scanning机制来捕捉相邻像素之间的上下文关系，其中Patch数据首先通过不同的路径生成方式展平为像素序列，然后在这些序列上应用选择性的结构化状态空间模型来捕捉上下文特征。考虑到连续光谱带中丰富的知识，作者在光谱维度上设计了一个额外的扫描模块，通过每个波段之间的双向交互来检索HSI数据中的语义属性。

剩下的难题在于如何最优地合并HSI数据的空间和光谱属性。作者观察到，在具有复杂纹理的区域，光谱信息对于均匀土地覆盖区域的作用比那些区域更为重要。这是因为在同质区域内空间线索的缺乏，需要依靠光谱信息来确定土地覆盖类别。相比之下，空间信息在处理包含复杂纹理的区域时可以提供相当大的先验，从而提高分类性能。为此，作者这里提出了一个空间-光谱混合门来动态地逐像素合并上述特征，其中每个空间位置分配一组可学习的权重来确定各种特征的比例。这种门控机制促进了两种特征的竞争，通过截断那些冗余的特征，极大地提升了属性整合的准确性。

通过实验评估，作者在三个公共高光谱图像分类数据集上验证了Mamba的有效性。图1显示，在Indian Pines、Pavia University和Houston 2013数据集上，作者的Mamba分别以0.86%、6.74%和2.56%的整体准确率改进了之前的SOTA方法。同时，它以最少的参数（约0.12M）和线性复杂度，其中，优于基于Transformer的模型。

2 Related Work

Hyperspectral Image Classification

现有方法通常通过利用精心设计的深度神经网络来解决高光谱图像分类问题，这些方法主要可以分为几类：基于卷积神经网络的方法，基于循环神经网络的方法，以及基于Transformer的方法。

传统模型。CNN被广泛应用于高光谱分类任务中，这是一种出色的特征提取架构，能够捕捉空间和局部语义信息。近期的研究已经探索了CNN单独从高光谱遥感图像中提取空间和光谱特征，或者学习空间-光谱联合表示，取得了显著进展。考虑到CNN结构无法建模不规则数据，一些研究引入了图卷积网络（GCNs）来挖掘HSI数据的潜在空间语义信息。另一组研究将HSI数据不同波段的光谱信息视为连续序列，并采用循环神经网络（RNNs）提取光谱特征进行分类。然而，这些方法通常由于在长距离依赖方面的能力有限，难以提取全局光谱信息。

基于Transformer的模型。Transformer是一种强大的架构，由多个自注意力机制组成，用于提取全局上下文信息，目前它们已被用于高光谱图像分类。这些方法中的大多数试图在空间和光谱维度上学习全局序列信息。Spectralformer是第一种将Transformer架构引入高光谱图像分类的方法，它通过将相邻波段分组来共同捕捉局部和全局信息。除了单个Transformer结构，一些方法采用混合网络来获取空间-光谱特征。SSFTT[13]利用卷积层描述低级特征并通过Transformer层整合它们。morphFormer[14]使用形态学卷积层学习空间和光谱表示，并通过应用Transformer层将它们合并。此外，其他工作[48]将RNN与Transformer结合，协同提取连续的光谱特征和空间上下文特征，显著提升了分类性能。

与之前通过计算密集型的Transformer结构捕捉长距离依赖的方法不同，作者创新地探索了一种基于选择性结构化状态空间模型的完全序列架构，以高效提取全局空间-光谱特征。

State Space Models

图2：作者提出的SMamba的示意图，包括 Patch 交叉扫描（PCS）机制、双向光谱扫描（BSS）机制以及空间-光谱混合门（SMG）。

最近，状态空间模型（SSMs），特别是结构化状态空间模型（S4）在序列分析中显示出巨大的潜力，它们能够以线性计算复杂度进行长距离序列建模。通过将选择机制引入到中，Mamba [20] 进一步优化了其上下文压缩能力，并且性能优于Transformers。考虑到其在序列数据处理中的卓越性能，许多研究探索了Mamba 在计算机视觉中的潜力，并取得了有希望的发展。特别是，视觉状态空间模型（Vmamba）和视觉Mamba（Vim）[21] 由于其在建模长距离依赖方面的效率，最近已成为各种计算机视觉任务的有力工具。基于它们，一系列视觉状态空间模型被提出，应用于医学图像分析、视频理解和其他领域。然而，这些方法大多数仅应用于RGB图像，在需要处理复杂光谱信息的高光谱图像分类方面尚属空白。因此，作者提出了一种基于Mamba的高光谱图像分类架构，充分利用状态空间模型充分挖掘空间-光谱特征。

3 Proposed Method

Preliminaries

状态空间模型。状态空间模型是基本的统计模型，用于描述系统的动态行为，广泛应用于时间序列分析和控制系统等领域。在状态空间模型（SSMs）中，系统的连续演化通过一组常微分方程（ODEs）进行计算，这些方程将输入信号映射到潜在空间并解码为输出序列。这个操作可以定义为：

其中 , , 和分别表示潜在状态、输入信号和输出信号。指的是的时间导数。和分别表示潜在空间和序列的维度。此外，是状态转移矩阵。和是投影矩阵。通常用作残差连接操作，因此在方程中被省略。为了便于将连续状态空间模型与离散序列集成，Mamba [20] 采用零阶保持技术将常微分方程离散化如下：

其中和分别通过离散化步长表示参数和的离散形式。如 [20] 所述，投影矩阵可以使用一阶泰勒级数近似：

离散化后，SSMs 的 ODEs 可以表示如下：

选择扫描机制。传统的 SSMs 是线性时不变的，即投影矩阵不随输入信号变化，导致对每个序列单元的非选择性关注。为了缓解这个问题，Mamba [20] 修改了参数矩阵以依赖于输入，即 , 和是基于计算的，通过将 SSMs 转变为线性时变系统，进一步提高了处理复杂序列的能力。

SMamba

图2展示了作者提出的SMamba框架用于高光谱图像分类的整体架构。输入数据首先被送入卷积层进行嵌入，然后送入 Patch 交叉扫描和双向扫描模块以捕捉空间和光谱特征。

最后，上述项通过一个空间-光谱混合门进行类别预测。与最近利用具有二次复杂度的基于Transformer的网络来捕捉全局空间-光谱特征的高级方法不同，作者的SMamba是一个具有线性计算复杂度的强大的空间-光谱信息提取网络。

3.2.1 Patch Cross Scanning Mechanism

为了使HSI输入的选择性扫描机制成为可能，作者首先将原始的选择性扫描机制[20; 22]扩展到 Patch Level 的HSI数据，并设计了一个 Patch 交叉扫描机制，该机制通过状态空间模型使每个像素与其相邻像素相互作用，捕捉空间上下文关系。给定HSI Patch 输入，其中和分别表示数据立方体的 Patch 大小和光谱带数量，作者在四条不同的路径上执行逐像素扫描策略。如图2所示，每条路径都是从不同的方向生成的，例如从上到下，从左到右，反之亦然。

更具体地说，作者首先将 Patch 数据按照预设的路径扁平化为一个一维序列，然后通过使用重写的方程式(4)递归地计算序列的每个项：

其中，和表示PCS中的可训练参数。扫描后，作者可以获得一组输出序列。接下来，根据图2中的操作，将来自不同扫描路径的输出序列进行融合，例如翻转或转置序列。因此，输出序列中的每个元素都可以从不同方向的相邻区域整合影响。

3.2.2 Bi-directional Spectral Scanning Mechanism

尽管上述扫描机制涉及数据立方体内的空间上下文信息，但它没有考虑到HSI数据中固有的连续光谱带信息。一种简单的解决此问题的方法是逐带扫描数据立方体，捕捉丰富光谱带中的语义线索。然而，由于状态空间模型的单向信息诱导属性，单一方向进行的谱扫描机制可能无法充分捕捉光谱带之间的上下文信息，导致光谱利用率有限。

为此，作者进一步设计了一种双向光谱扫描机制，通过逐带扫描光谱维度，从多个方向分析连续光谱的变趋势。作者首先沿着空间维度将HSI Patch 展平以获取数据矩阵，然后按照以下操作递归计算序列中的每个项：

其中表示第个顺序中的第个元素。，和表示BSS中的可训练参数。扫描后，作者可以获得一组输出序列。接下来，从不同路径融合输出序列，将相邻波段的影响整合到每个光谱带中，进一步提升了其辨别能力。

3.2.3 Spatial-spectral Mixture Gate

在通过两个扫描模块获取HSI的空间和光谱信息后，计算最优混合表示成为了一个关键挑战。如第一节所述，HSI分类中空间和光谱特征的有效性因不同场景而异，因此没有先验知识的直接合并可能导致矛盾。

具体来说，作者注意到光谱信息在均匀区域的分类中比那些具有复杂纹理的特征更为突出。这可以归因于同质区域内部空间线索的稀缺，从而强调了光谱信息在区分这些土地覆盖时的重要性。在这种情况下，PCS可能会因为冗余特征而引入误导性的方向。相反，在处理具有复杂纹理的特征时，它提供了相当大的先验，从而增强了判别表示的丰富性。

为此，作者提出了一种空间-光谱混合门，以动态地合并上述每个位置的特征，其中每个位置都分配一组可学习的权重以确定各种特征的比例如下：

其中表示SMG中的特征编码器。它由两个带有高斯误差线性单元激活函数的全连接层组成。接下来，应用softmax激活函数将它们转换为概率图，其值介于0和1之间。随后，作者按以下方式合并上述特征：

其中是剪枝那些低贡献特征的阈值。通过采用这种门控机制，可以有效地截断那些对HSI分类没有贡献的冗余特征，从而促进空间-光谱属性的整合。SMG背后的直觉是鼓励两种特征之间的竞争，以在不同场景下选择最具判别性的特征，从而实现更满意的融合。以下是表格：

类别	I-DCNN	2-D CNN	minIoCN	RNN	CSRNN	VIT	Spectralformer	mapplformer	SST-IT	GraphGST	Mamba
1	88.50	80.39	96.38	84.01	77.62	71.51	82.73	89.30	87.64	84.59	96.24
2	58.81	81.70	89.43	66.95	63.41	76.82	94.03	75.26	76.60	82.43	98.75
3	73.11	69.79	87.01	58.46	57.30	46.39	73.66	85.90	85.56	79.94	83.95
4	82.07	97.36	94.26	97.70	98.42	96.39	93.75	86.33	95.54	90.80	97.73
5	99.46	99.64	99.82	99.10	99.37	99.19	99.28	95.87	100.00	100.00	99.10
6	97.92	97.59	43.21	83.18	75.17	83.18	90.75	95.54	90.80	90.06	99.30
7	88.007	82.47	90.96	83.08	88.48	80.08	87.56	98.27	99.18	98.78	99.90

4 Experiment

Experimental Setup

数据集。 作者在三个公开可用的数据集上对作者的SMamba进行了评估，重点关注高光谱图像分类：印度松树、帕维亚大学和休斯顿2013数据集。印度松树数据集包含145145像素，地面采样距离为20米，220个光谱波段，波长范围覆盖400-2500纳米，去除20个噪声和水吸收波段后保留了200个光谱波段。该数据集使用16个土地覆盖类别进行标注，包括作物、树木和其他植被。帕维亚大学数据集包含610340像素，地面采样距离为1.3米，103个光谱波段，波长范围覆盖430至860纳米，使用9个土地覆盖类别进行标注，包括沥青、草地、碎石、树木、金属板、裸土、柏油、砖块和阴影。休斯顿2013数据集包含3491905像素，地面采样距离为2.5米，144个光谱波段，波长范围覆盖380至1050纳米。该数据集使用15个土地覆盖类别进行标注，包括健康草地、压力草地、人造草地、树木、土壤、水、住宅等。值得注意的是，所有实验都使用了与[12]相同的训练和验证样本，以便进行公平的比较，详细内容也见补充材料。

评估。 为了评估作者的SMamba的分类性能，作者使用了三种常用的评估指标：总体准确度（OA）、平均准确度（AA）和卡帕系数（）。

实施细节。 所有实验都是在PyTorch框架内进行的，使用了一块具有24GB GPU内存的NVIDIA GeForce RTX 4090。对于作者的SMamba的初始化，其参数是通过均值为零、标准差为0.01的正态分布随机初始化的。采用AdamW [59]作为SMamba的优化器，其中应用了指数学习率策略，初始值为0.0001。模型训练了400个周期，其中批量大小设置为64。输入的 Patch 大小分别设置为7、11和9，对应印度松树、帕维亚大学和休斯顿2013数据集。块数设置为1。###与最先进技术的比较

作者对SMamba进行了全面评估，并将其与几种比较方法进行了比较，包括基于CNN的（1-D CNN、2-D CNN、miniGCN [11]）、基于RNN的（RNN、Cas-RNN [30]）和基于Transformer的（ViT [19]、Spectralformer [12]、morphformer [14]、SSFTT [13]、GraphGST [31]）方法，其中1-D CNN、2-D CNN、RNN和ViT是按照[12]实现的。所有方法都使用它们论文中报告的最佳实验设置或通过官方代码重新实现进行了测试。

印第安松树数据集。在表1中，作者对印第安松树数据集的表现进行了基准测试。表1中的结果显示，作者的方法在14个类别上显著优于现有的 hyperspectral 图像分类方法，在 OA（97.92% 对 97.06%）、AA（98.88% 对 98.39%）以及（0.9761 对 0.9664）方面取得了最佳的综合性表现。特别是，作者超过了典型的基于 Transformer 的方法——即 SpectralFormer [12]的表现，后者利用 Transformer 架构从连续的光谱带中提取长距离依赖关系。相比之下，作者的 SMamba 通过更高效的基本结构和精心设计，取得了在 OA、AA 和方面的优越结果（例如，将 OA 从 81.76% 提高到 97.92%）。此外，图3展示了预测图的示例。它表明作者的 SMamba 能够生成每个类别的准确预测。

帕维亚大学数据集。作者进一步在帕维亚大学数据集上评估作者的 SMamba，该数据集的场景包括许多复杂的空间纹理。如表2所示，作者的方法在 OA、AA 和方面至少比比较技术分别高出6.74%、4.29%和9.00%，这证实了在复杂场景下作者的 SMamba 可以提供更满意的解决方案。图5显示，作者的方法在完成度更高的预测图上比其他方法表现出色，例如柏油路（以浅绿色 Mask ）和草地（以深绿色 Mask ）。

休斯顿2013数据集。此外，作者将作者提出的方法与最先进的方法在更具挑战性的休斯顿2013数据集上进行比较。表3中的实验结果表明，作者的 SMamba 在8个类别上显著优于现有的 hyperspectral 图像分类方法，在 OA、AA 和 Kappa 系数方面取得了最佳的综合性表现。特别是，与先进的基于 Transformer 的方法[31]相比，在 OA、AA 和方面分别展示了2.56%、2.16%和4.26%的增益。图6显示了分类预测，这表明作者的 SMamba 实现了最精确的结果。例如，作者的方法能够在阴影下准确识别高速公路（以蓝色 Mask ），证明了其有效性。

消融研究

SMamba中每个组件的有效性。作者在表4中进行了消融研究，以显示 SMamba 中每个组件的影响。第一行展示了使用 PCS 机制的性能，它通过基于 Mamba 的模块有效地考虑了像素的空间关系。可以看出，在印第安松树、帕维亚大学和休斯顿2013数据集上，它分别以96.45%、96.42%和90.78%的 OA 领先于大多数比较方法，这归功于其在建模空间上下文方面的有效能力。然后，通过结合双向光谱扫描机制，作者将性能提升到三个数据集上的96.72%、97.17%和92.74% OA。这表明 BSS 通过扫描连续的光谱带可以提供更具辨别性的线索。最后，结合 PCS、BSS 和 SMG，作者在三个数据集上进一步将性能提升到97.92%/98.80%/0.9746、97.81%/97.14%/0.9705 和 93.36%/94.09%/0.9279 的 OA/AA/k，证实了 SMG 模块可以通过特征竞争更好地合并每个位置的空间和光谱特征。综合结果表明，作者的 SMamba 可以有效地学习 HSI 数据的判别性表示。

图6：休斯顿2013数据集上的分类结果。

对SMamba中各组件参数的分析。 作者研究了SMamba中超参数的有效性，包括 Patch 大小、门控阈值、潜在维度和层数。如图4所示，可以观察到Indian Pines、Pavia University和Houston 2013的最优 Patch 大小分别为7、11和9，这与预期相符，即后两个数据集包含更复杂的空间边界，因此需要更大的 Patch 输入。图7展示了将门控阈值设定为0.1可以取得满意的结果，这可以过滤掉那些冗余特征。图8和图9表示潜在维度和层数的最优值分别为64和1。这证实了作者的SMamba仅用一个单块网络就能达到最先进的性能，而更深的层次或更大的隐藏维度并不能带来额外的改进。

5 Conclusion

在本文中，作者提出了SMamba，一种用于高光谱图像分类的新颖架构。SMamba包括一个Patch Cross扫描机制和一个双向光谱扫描机制，分别从空间和光谱方面学习上下文信息，其采用选择性结构化状态空间模型作为自注意力机制的替代品，以线性复杂度捕捉长距离依赖性，从而有效地提高结果。此外，为了最优地融合上述特征，提出了一个空间-光谱混合门，通过可学习矩阵调整每个位置的融合比例，进一步增强了分类性能。在三个数据集上的实验结果验证了作者的SMamba的优越性。

参考

[1].SMamba: A Spatial-spectral State Space Model for Hyperspectral Image Classification.

设计数据性能架构模型

0 人点赞