面向知识引导的时空感知应用多模式基础模型 !

2024-08-07 15:59:15 浏览数 (2)

近年来,由于大量的地球观测卫星图像,对地球科学的基础模型的兴趣日益增加。现有的遥感基础模型利用各种光谱图像源,在 Mask 重建任务上预训练大型模型。 随后,这些基础模型产生的嵌入被用于各种下游遥感应用。在本文中,作者提出了一个针对遥感地球科学应用的基础建模框架,该框架超越了传统的单模态 Mask 自动编码器家族基础模型。 这个框架利用了知识引导原则,即光谱图像捕捉了物理驱动因素对环境系统的影响,它们之间的关系由系统的特性所决定。具体来说,作者的方法,称为多模态变量步长预测(MM-VSF),使用多模态数据(光谱图像和天气)作为输入,并采用变量步长预测任务作为预训练目标。 在作者的评估中,作者展示了使用天气预测卫星图像可以作为基础模型的有效预训练任务。作者还展示了当与在传统的单模态输入和基于 Mask 重建的预训练设置中训练的模型相比,MM-VSF在像素级作物映射的下游任务上的有效性。

1. Introduction

卫星大数据的可用性和易于获取性激发了对深度学习模型的发展,这些模型利用这些数据进行土地覆盖绘图、野火绘图、作物产量预测、洪水预报等任务。在最近,已经开发出方法在自我监督的框架下使用大量数据,通过预训练任务来预训练模型权重,然后针对下游任务进行微调。这类被称为基础模型的模型已经在图像和文本领域(Kendalwal等人,2016年)的多种任务中表现出其嵌入的泛化能力。受到这些模型成功的启发,构建适用于地球科学应用的基础模型引起了极大的兴趣。

大多数地球科学基础模型可以根据其使用的数据分为两类:

(1)天气-气候,通常用于天气预报或气候建模;

(2)来自遥感卫星的光谱数据,主要用于识别土地利用和土地覆盖变化的动态。

本文关注的是通常由遥感基础模型处理的土地利用和土地覆盖应用。这类遥感基础模型通常使用来自各种卫星的海量光谱数据,通过预训练任务,例如 Mask 重建来构建。然而,这些方法并未考虑环境系统中不同组成部分之间的相互关系。

如果作者将环境视为一个系统,它可以被认为是各种物理驱动因素(如天气、湿度等)作用于一个具有物理属性(如土地覆盖类型、土壤特性等)的区域(例如农场、流域),从而产生作物生长、径流、排放等响应,这些可以通过Sentinel、Landsat等传感器和卫星观察到。这一广泛的图景在图1中得以体现,被称为正向过程。然而,如果人们关注的是土地覆盖类型等属性,可以利用逆向过程,根据物理驱动因素、传感器观测数据以及可能的

在现有知识范围内,大多数现有的遥感基础模型在预训练及其下游任务中只使用了光谱图像,从而忽略了光谱图像捕捉物理驱动因素对环境系统影响的关键信息,以及它们(以及其他可观测因素,如作物产量或河流流量)之间的关系受系统特性(例如,土地覆盖类型,作物管理)的制约。在这项工作中,作者展示了如何在预训练和下游任务中实现这一愿景。作者提出的方法与现有工作的几个维度有所不同,如下所述。

基于遥感的的基础模型通常使用一种数据模态构建,通常是光谱图像。然而,从图1中作者可以看出,各种组件相互作用导致了有趣的现象。例如,天气作用于作物田,导致作物生长,这可以通过卫星图像观察到。这类例子突显了在基础模型中捕捉物理组件与驱动因素之间相互作用的必要性,而这并未包含在现有地球科学模型的预训练任务中。在作者的方法中,作者在预训练任务中包含了光谱图像和天气数据,以确保模型嵌入中能够捕捉到这些组件之间的相互作用。特别是,作者展示了如何在预测的预训练任务中包含天气数据,以及这种包含如何有利于像素级作物映射的下游任务。

大多数基于遥感的模型方法使用 Mask 重建作为预训练任务。然而,通过利用关于环境系统不同组件之间相互关系的科学知识,作者可以超越这一预训练任务。特别是,利用前向过程,作者可以将卫星图像的预测视为一种潜在的预训练任务。如果没有使用天气数据,卫星图像的预测将不会非常有效,但包含天气数据后,模型可能能够利用这些天气数据有效地预测图像,从而相较于重建,创建更有意义的嵌入。在这项工作中,作者提出了一个包含天气数据的卫星图像预测预训练任务的方法,并展示了它如何提高嵌入质量,进而提升下游任务的性能。

遥感卫星数据的另一个主要特点是它的时空特性。大多数遥感下游任务(作物分类、土地利用覆盖变化检测、作物产量预测)需要这样的时空输入,然而它们所需的时间尺度可能有所不同。例如,作物映射所需的时间尺度要比土地利用覆盖(LULC)变化检测长得多。为地球科学构建的大多数基础模型,要么没有考虑到卫星数据的时序特性,要么仅限于处理固定长度的时序数据。对于一个统一的基础模型来说,不仅要在其方法中包含利用遥感数据时序特性的机制,而且在输入的时间长度上也要具有时序灵活性,特别是对于跨各种下游任务的泛化尤为重要。

在本文中,作者提出了一种新颖的时空多模态基础模型,该模型利用知识引导的概念来加强其嵌入。作者将作者的方法称为多模态变量步长预测(MM-VSF),该方法结合了卫星和天气数据(两种完全不同的模态)来完成预训练任务——预测(变量预测),并展示了与使用重建任务创建的嵌入相比,作者方法创建的嵌入更为丰富。作者还提出了一种时间上灵活的架构,该架构有效地利用了卫星和天气数据的时间特性,以超越简单的卫星数据时间自相关性。作者展示了与其他预训练方法相比,作者预训练方法创建的嵌入在作物映射这一下游任务中具有更好的泛化能力。

2. Method

作者的架构与大多数现有地球科学基础模型类似,也采用了重编码器与轻解码器的设计格式。保持解码器的轻量化迫使编码器生成的嵌入信息足够丰富,以解决预训练任务,进而也能为各种下游任务提供丰富的信息。与以往的方法不同,作者在预训练中融合了多种模态,包括光谱图像和天气信息。

Pretraining Task

在地球科学领域,最常见的预训练任务是光谱图像的重建。为了丰富所创建的嵌入,通常会对输入的光谱图像进行不同程度的 Mask ,这使得整个图像的重建任务变得更加困难,从而产生更好的嵌入。然而,简单的重建嵌入仅捕捉到了特定的图像,可能不适合依赖于多时态上下文的相关任务,例如作物映射或土地覆盖土地利用变化。为了解决这个问题,先前的研究在输入中包含了多个时间戳,但这些方法大多数是将这些图像堆叠在一起(Chen等人,2015年),从而去除了时间因素。然而,有些方法添加了时间戳位置嵌入,以便模型具有时间感(Chen等人,2015年)。这在对需要多时态上下文的相关任务中取得了适度的成功。

另一种常见的预训练任务是图像预测。通常,这种预训练任务被用于与天气相关的基础模型,而非基于光谱图像的基础模型。使用 Mask 预测创建的基础模型在天气相关的下游任务中已显示出巨大成功(Chen等人,2015年;Srivastava等人,2014年)。为了丰富所创建的嵌入,这些研究增加了对未来时间预测的变化,即改变模型需要预测未来的时间量。仅使用光谱图像的这种预训练任务可能没有太大意义,因为仅凭一个图像和一个未来的时间来预测图像将来的样子是非常具有挑战性的。至少作者需要更多信息,如地理位置、年份、国家等。

在作者的研究中,作者以一种独特的方式结合了这些预训练任务的多模态。从图1中,作者看到了环境的各种组成部分相互作用。此外,过去的研究表明,在下游地球科学任务中加入天气信息可以提高结果(Srivastava等人,2014年)。因此,作者 Proposal 在预训练任务中加入天气信息。一种简单的策略是在预训练任务中添加天气作为额外的模态来重建。然而,这种方法并没有将天气动态融入嵌入中。这就是为什么作者 Proposal 使用多模态预测作为预训练任务。作者的想法是使用当前的卫星图像,并提供直到预测日的天气数据,要求模型预测那个未来时刻的卫星图像。在没有天气信息的情况下要求模型预测未来的卫星图像将是次优的,但提供天气可以帮助模型缩小搜索空间,以确定土地覆盖将如何变化。例如,如果有大量降雨,湖泊将会更满;如果有大量阳光,作物/其他植被的生长将会加速。因此,在这种未来图像预测方案中的预训练将把土地生长/变化动态融入到模型创建的嵌入中。作者的假设是,这种额外的知识融入将极大地帮助依赖于土地生长和变化动态的下游任务,如作物预测、土地覆盖土地利用变化等。

总结来说,作者提出的预训练任务是使用过去的一系列光谱图像(上下文)以及作者想要预测的未来日期( Query )的天气信息来预测未来的光谱图像(响应)。作者称这种预训练任务为可变步长预测(),其中模型预计将预测未来k步。在预训练期间,k是针对不同实例随机选择的。在推理阶段,k由用户指定。作者还对光谱图像中的块进行 Mask ,以使预测更加困难,从而产生更好的嵌入。作者将在后续章节中描述作者的预训练 Mask 策略。

Dataset

作者的数据集包括用于光谱图像的哨兵卫星影像以及用于天气成分的ERA5陆地分析数据。作者选择这两个来源是因为它们的时间分辨率,更重要的是它们在全球范围内的可用性。由于这些因素,作者随机抽取了全球陆地上的大约10000个地点。每个地点的大小为128x128个哨兵像素,对于光谱图像,作者收集了该区域那一年的所有图像。由于数据缺失和一些地区覆盖不充分,每个地区的哨兵样本数量可能会有所不同。例如,像美国这样覆盖良好的地区,一个地区一年可能有高达70个图像实例,而像印度这样的地区可能覆盖不够好,只有40个图像实例。对于每个实例,作者收集了六个波段,分别为,这些波段在土地覆盖相关任务中显示出最有用,并在其他研究中也被使用。对于每个图像实例,作者还收集了它来自的一年中的日期,从而形成了一个与该地点图像实例数量相同的序列,每个元素的值介于1到365之间。作者的天气数据来自ERA5陆地每日聚合数据。这个全球可用的数据源包含了对土地覆盖相关任务有用的各种波段。为了简化数据并提高数据效率,作者从该数据集中选择了5个波段,分别是(2米最低温度、2米最高温度、总降水量、10米风速的u分量、10米风速的v分量)。该数据的频率为每日,其分辨率为11千米,与哨兵像素相比非常粗糙。鉴于这种粗糙的分辨率,对于作者分析中的大多数 Patch ,作者每个时间戳只能得到一个值带集,因此作者的天气数据长度为365,每个时间戳有5个值。

总结一下,对于每个地点,作者的数据主要由以下3个主要组成部分构成:

  • 光谱图像序列:一系列哨兵2号影像,每个影像包含6个波段,形状为128x128。这一序列的长度取决于地点的覆盖情况。
  • 天气数据序列:一系列ERA5陆地数据,包含5个波段,形状为1x1,序列长度为365(每天一个)。
  • 年中日序列:一系列对应于光谱图像序列中每个光谱图像的年中日编号。这个序列的长度与光谱图像序列相同。

Architecture

图2展示了的结构图。由于作者的任务是预测,因此作者需要一种能够捕捉到手中数据各种模态的架构。这包括卫星数据的空间和时间模态、天气数据的时间模态以及这些模态之间的相互作用。

为了从光谱图像中提取空间特征,作者使用了视觉 Transformer (ViT)。ViT在提取重要的空间特征方面已被证明非常有用(Kumar等人,2017年),即使在地球科学背景下(Kumar等人,2017年)以及在高 Mask 存在的情况下。ViT编码器接收单个光谱图像并将其转换为所选嵌入大小的图像块网格。鉴于作者的输入是一个图像序列,作者 Proposal 使用共享的ViT从每个输入时间戳的光谱图像中提取空间嵌入。这将导致一个健壮的编码器,因为它必须学习如何以适合预测的方式嵌入所有时间戳的图像。对于每个时间戳图像,作者在定义维度上的未 Mask 块上获得嵌入。在这一阶段,作者还利用了块位置嵌入。总之,从这个阶段开始,作者为每个时间戳留下了一系列未 Mask 块的光谱图像嵌入。

如前所述,由于天气数据的粗分辨率,对于每个图像位置,作者每个时间戳只有一个天气数据值。因此,作者只需要一种时间嵌入方法,不需要任何空间组件。为了编码作者的天气数据,作者使用双向LSTM。作者最初尝试使用时间 Transformer 代替LSTM,但这导致了重建效果差,进而导致嵌入效果差。即使尝试仅重建 Mask 的天气,基于LSTM的方法在重建方面也证明了比基于 Transformer 的方法具有更高的准确性。作者使用基于LSTM的方法为每个时间戳获取天气嵌入,然后从这个序列中抽取与输入图像时间戳对应的天气嵌入,类似于WSTAT(Kumar等人,2017年)。作者称这种嵌入提取和匹配为时间嵌入匹配。

从输入到模型,作者有关于输入中光谱图像的年内日期的一系列值以及最终预测图像的年内日期。在其他工作中已经证明,将年内日期信息包含在嵌入中可以通过提供关于绝对时间的上下文来改善结果。因此,为了将这一点纳入作者的架构中,作者使用了一个共享的线性层,带有tanh激活函数,它接收年内日期并给出指定维度的嵌入。因此,作者将有一系列指定维度的嵌入,每个嵌入对应于一年中的某一天。作者将在后面使用这些嵌入向某些组件提供关于年内日期的信息。正交地,使用原始年内日期嵌入,作者将使用相同的嵌入作为原始嵌入。

在本文中,作者能够创建另一个序列,该序列对应于图像之间的天数差,即时间戳的增量。类似于作者为年度日期值创建嵌入的方式,作者也可以为增量时间戳序列创建一个序列。已有研究表明,这种针对天数增量的嵌入在预测任务中是有用的(Kumar等人,2017年)。因此,在这里作者也对增量时间戳值应用了一个线性层,然后是tanh激活函数,以创建一个增量时间戳嵌入序列。这个嵌入序列将被用于作者架构中的预测部分,以提供关于预测距离的信息。

从前面的步骤中,作者现在有了两个嵌入序列的时间序列,一个序列中的每个元素对应于特定时间戳的空间嵌入,另一个序列对应于时间上匹配的天气嵌入。作者还拥有年度日期时间戳的嵌入序列。由于这些序列的长度相同,作者在时间维度上将它们全部相加,以创建一个多模态嵌入序列。然而,这个多模态嵌入序列在时间上仍然是未绑定的,即嵌入之间没有时间关系。因此,为了提取时间嵌入,作者使用了一种BERT风格的 Transformer ,只采用前向注意力。作者对来自整个图像中同一空间位置的嵌入块进行时间序列分析。由于作者采用了统一的时空 Mask ,所有位置上的嵌入块数量应该是相同的,这取决于 Mask 的使用量。例如,如果序列中有6个图像, Mask 为50%,则时间 Transformer 在其序列中将具有3个输入。现在,在空间块上,这些嵌入所来自的时间戳将会不同。这一特性使得作者的时间 Transformer 能够利用来自光谱图像嵌入信息、天气嵌入信息和年度日期嵌入信息的组合的多模态信息,学习鲁棒嵌入。另一个重要的方面是,作者确保时间 Transformer 中只存在前向注意力,即创建的时间嵌入不是双向的。这一特性确保了未来时间戳的信息不会泄露到之前的时间戳嵌入中。因此,在完成这一阶段后,作者得到了一系列嵌入。任何下游任务都将使用这个嵌入序列进行微调。根据任务的不同,可以选择使用所有嵌入,或者仅使用最后的嵌入。另一个需要注意的是,在微调过程中,通常不存在 Mask ,因此每个时间戳嵌入将具有更多的特征。

现在作者的预训练任务是预测,让作者深入到基础模型的解码器部分。最直接的预测方式是取序列的最终嵌入,并使用它来预测未来的图像。然而,作者可以更进一步,由于作者的嵌入是通过前向方法构建的,作者可以使用序列中的每个嵌入来预测其各自未来的图像(即,在输入序列中对应嵌入年份的一年后)。因此,除了为最终时间戳选择未来某年的某一天进行预测外,作者还可以为序列中其余嵌入选择中间日期进行预测。有许多选择这些中间日期的方法,但最直接且计算成本最低的是输入序列中年份的日子,但时间戳向后移动一个,即输入序列中时间戳t1对应的嵌入将用于预测输入序列中年份时间戳t2的图像,时间戳t2的嵌入将用于预测时间戳t3的图像,依此类推。这种多次预测使得解码器更加健壮,因为与编码器类似,解码器在不同的时间戳之间也共享权重。因此,作者可以为作者的预测获取一系列未来年份的日子,并计算增量天数序列。作者可以使用之前的tanh和线性层来获取预测年份嵌入序列和预测增量天数嵌入序列。作者还可以使用预测的年份日期来获取相应日期的天气嵌入,类似于编码器中的时间嵌入匹配过程。这里的逻辑是,通过当前图像嵌入和预测之日的天气信息,模型可以预测图像在未来会是什么样子。仅凭年份信息期望未来图像看起来准确是可行的,但如果有直到那一天的天气信息,就有可能估计它可能的外观。例如,如果在那段时间有很多降雨,那么水体可能已经增多;如果有很多阳光,作物生长可能会加速等等。所有这些都是通过包含天气信息实现的,这回到了作者最初的假设,即包含天气信息将导致更强大的嵌入。

按照这些步骤,作者有四个嵌入序列,作者将它们相加,形成进行预测的基础嵌入序列。现在在这些嵌入上,作者应用一系列线性层和激活函数作为预测器。这些层的目的在于利用图像嵌入和天气数据的信息,将嵌入从初始时间戳空间转换到未来的时间戳空间,在将嵌入传递到解码器之前。作者发现,包括这些层在预训练任务上的性能有了很大的提升,因为这些层帮助嵌入更有深度。

在这个阶段之后,作者将这些嵌入重新填充到时间戳中各自未被 Mask 的位置,并将 Mask 的块清零,传递给解码器,正如大多数基于Transformer的自编码方法(Kumar等人,2017;Kumar等人,2017)所做的那样。作者使用一个轻量级解码器(类似于ViT中使用的解码器)来确保模型的主要关注点是使用编码器创建好的嵌入以捕捉最佳信息,这样即使是轻量级的解码器也能执行所需的预训练任务。同样,在任何下游任务中,作者需要来自编码器的嵌入,而不会使用解码器。与编码器类似,作者在解码器中只有一个共享的视觉Transformer,它使用相同的权重在每个时间戳上执行操作。在视觉Transformer之后,作者有一个线性层来将值恢复到光谱图像空间,并 Reshape 输出以匹配时空堆叠所需的大小。

Masking

由于作者处理的是基于时空的输入,因此作者采用了时空均匀 Mask 方法。先前的方法主要采用随机 Mask 图像块,并未考虑到时间方面。由于作者提出的架构既有空间组件也有时间组件,作者需要一种在空间和时间上都公平的 Mask 方法。在作者的 Mask 策略中,每个时间戳都有相同数量的 Mask 块,并且在沿时间轴的每个空间块位置也有相同数量的 Mask 块。《图3》展示了一个4x4网格图像序列(共4个)采用50% Mask 的示例。从图中作者可以看出,在每个时间戳图像中有8个块被 Mask ,如果关注沿着时间维度特定块位置,可以注意到有2个块是可见的。这确保了从每个块位置未 Mask 的块创建的所有时间块序列长度相同,这简化了作者的时间组件实现。同时,由于每个时间戳单独具有相同数量的未 Mask 块,共享的视觉 Transformer 在每个时间戳上也具有相同数量的输出。

Implementation details

在预训练阶段,作者选择了长度为6的图像输入序列,并从最后一张图像之后随机选取一张图像作为需要预测的最终图像。同时,作者还采用了50%的空间时间 Mask 和8的 Patch 大小用于视觉 Transformer 。该模型使用Adam优化器和均方误差损失,在4块A100 Nvidia GPU上训练至收敛。

3. Experimental Evaluation

在本节中,作者将评估所提出的基础模型框架的各个方面。首先,作者对基于预测的预训练任务上的性能进行评估,并突出一些例子来展示作者的方法不仅编码图像,还能捕捉到图像之外的内容。此外,作者还评估了当作者的嵌入在细化为作物映射下游任务时的性能。作者将作者的结果与使用重建预训练任务创建的嵌入进行了比较。

Baselines

表1展示了针对架构的输入序列选择和针对模型的预训练任务选择。回想一下,作者的模型的预训练任务是未来k步的可变预测(),即表中的,而作者的输入序列是多模态的(),既包括卫星数据也包括天气数据,即表中的。然而,从表中作者可以看出,还有三种基于输入和预训练任务选择的变体,如下所示。

  • 单模态 Mask 自动编码器(),输入序列为卫星数据,预训练任务为 Mask 重建,即(,)。
  • 多模态 Mask 自动编码器(),输入序列为卫星数据和天气数据,预训练任务为 Mask 重建,即(,)。
  • 单模态可变步长预测(),输入序列为卫星数据,预训练任务为可变步长预测,即(,)。

需要注意的是,上述组合可以通过仅更改输入和损失函数来实现,无需对架构进行重大更改。因此,这些变体,作者称之为 Baseline ,也可以被视为作者模型不同组件的消融研究。还请注意,与现有的基于遥感的基础模型(例如,(Bengio等人,2017年;Wang等人,2018年;Wang等人,2018年))最为接近,因为它们也只使用卫星数据并使用MAE进行预训练。

Pretraining Task: Forecasting

在本研究中,作者评估了在基于预测的预训练任务中,同时使用天气和光谱数据(MM)相较于仅使用光谱数据(SM)的相对效用。通过几个示例,作者说明由产生的嵌入比的更加强大,因为能够捕捉到天气与由光谱数据捕获的陆地物理环境变化之间的动态关系。图4展示了这些模型(即和)在3个独立示例上的图像对比。每一行对应一个样本,前6个图像对应输入序列中模型的卫星组分,天气组分没有在图像中显示,但与卫星组分一同传递(如图2所示)。输出也将是一系列6个图像,最后一个图像对应用户输入中指定的未来某天(这在上面的真实值列中显示)。需要注意的是,图4仅展示了每种方法的最终预测图像,因为在这里使用天气会产生最大的影响。两种方案都能够很好地构建早期的图像,尽管在大多数情况下,可以在的基础上进行改进。第1行描绘了一个作物田地的示例,最终预测图像是输入序列中第6个图像后的120天。从真实值图像中作者可以看出,圆形田地已经完成收割,左上角田地有作物生长。比较和的预测图像,作者可以看出能够捕捉到作物的收割和生长。作者还可以看到未能捕捉到这些变化。这表明,加入天气使得创建的嵌入能够捕捉到由天气驱动的土地覆盖动态,而这些动态是无法捕捉到的。

由于只能访问过去的 spectral 光谱图像,因此它只能捕捉光谱图像之间的时间自相关性。第2行展示了在年末另一个作物田地的示例,最终预测图像是输入序列中最后一个图像后的90天。从90天后的真实值图像中作者可以看出,田地中有雪,这一点被捕捉到了,但没有。这说明了捕捉降水与温度之间关系的能力(即,在寒冷的冬日降水可能会以雪的形式出现)。的预测显示了一个颜色变淡的绿色田地,这表明它无法捕捉这种关系。人们还可以注意到,与田地相比,预测图像中的常绿区域积雪较少,这也显示出地形信息被捕捉到了。这一点在第3行中得到了进一步体现,其中描绘了一个山区,最终预测图像是最后一个输入图像后的255天。作者可以看出,即使经过255天,该区域并没有太多变化,这被作者的方法()正确捕捉到了。似乎增加了一些并不存在的绿色。这些示例说明,加入天气不仅有助于预测土地覆盖变化,还有助于识别土地覆盖地形,并且模型意识到某些地形无论天气如何都不会有太大变化。没有天气,模型无法学习这一点,这在的预测图像中得到了反映。作者还观察到,尽管训练周期很长,的所有预测图像都显得块状。这可以解释为模型在没有天气信息的情况下无法预测准确的图像。

Downstream Task: Crop Mapping

在这里,作者评估了作者所提出的方法()在通过针对作物映射下游任务进行微调来生成嵌入时的性能。作者将作者的结果与使用SM-SAE创建的嵌入进行了比较,SM-SAE是现有遥感基础模型中最接近的方法。

3.3.1. Dataset and Region of Analysis

作者的微调数据同样来源于Sentinel2和ERA5陆地数据。作者用于测试下游任务的分析区域是加利福尼亚中央谷地的T11SKA图块,这个地区作物覆盖丰富,已在其他多项工作中用于作物类型制图[(2)]。与这些工作类似,作者从美国农业部发布的年度土地覆盖图——作物土地数据层(CDL)获取该地区的土地覆盖标签,该图覆盖了整个连续的美国。图5展示了CDL标签和T11SKA图块的地理位置的图解表示。如图所示,存在许多作物类别,使得该区域制图具有挑战性。与WSTATT [(23)]相似,作者采用了一种

图5. T11SKA Sentinel图块的地理位置及其对应的CDL标签。CDL图像中的每种颜色对应一个土地覆盖类别。

作者采用网格化训练方法,将整个区域划分为训练、验证和测试网格。作者还遵循了他们的预处理步骤,包括合并和侵蚀。

3.3.2. Crop mapping Architecture and Implementation details

由于作物映射是逐像素输出的,作者需要一种能够提供逐像素输出的架构。特别是,作者需要一个解码器,它能够利用基础模型编码器给出的嵌入序列,以语义分割的方式构建一个逐像素的分类图。图6展示了作物映射下游任务架构的示意图。所提到的嵌入序列对应于,即编码器的输出序列。为了将这个嵌入序列映射到逐像素的作物图,作者采用了基于注意力的方法,类似于WSTAT[23]。这种策略为每个时间戳的嵌入分配权重,并进行聚合求和以形成多时相注意力基础嵌入。这个多时相嵌入随后经过一系列具有激活函数的上采样和卷积层处理,然后通过输出线性层生成逐像素图。

对于作者的输入序列,作者选择从5月至9月每隔两周的10个光谱图像,而在针对作物映射进行微调时,不对光谱图像进行 Mask 处理。请注意,下游任务中传递的时间戳数量与预训练期间传递的数量不同。这突显了作者方法的时相灵活性。作者用SM-MAE评估作者提出的方法MMSV,这是现有基于遥感的基础模型中的常见设置(例如[5, 12])。(作者的方法)和(广泛采用的设置)都返回嵌入序列,并微调包括注意力机制在内的解码器层,即从相应的预训练任务中获得嵌入序列的编码器权重是固定的。两个微调模型都使用2018年同样的数据进行了训练,并使用了各自的最佳超参数设置。

3.3.3. Performance on downstream task

表2比较了和在作者作物映射下游任务上微调后的性能。作者可以看到,在训练年份(即2018年)的测试区域上进行测试时,微调模型在几乎所有类别中适度优于微调模型。然而,当在下一年的测试区域(即2019年)进行测试时,作者可以看到作者的方法相较于有了巨大的改进。这表明作者的方法在标准方法上的影响力和泛化能力。作者的嵌入在微调后足以跨年份泛化,这表明在嵌入中已经捕获了重要信息,这些信息超越了光谱图像中包含的信息。

请注意,通过最小的努力选择输入序列的时间框架并添加特定于任务的解码器,作者调整了作者的步进预测。与使用单一模态输入并采用标准重构预训练任务的模型所获得的嵌入相比,这导致了更优越的嵌入。对预测能力的预训练任务评估表明,作者的基础模型能够学习超越时间自相关性的方面。作者展示了可以微调为跨年份泛化的作物映射模型。作者的模型在时间上具有灵活性,并且可以适应包括时空遥感数据的地球科学下游任务。作者的研究是向在预训练任务中融入知识引导原则并采用多模态方法改进嵌入的第一步。

4 Conclusion

在本文中,作者提出了一种新颖的多模态时空基础模型 —— MM-V SF,该模型利用了卫星和天气数据的多模态输入,并采用了一种以可变步长预测为引导的知识预训练任务。

与使用单一模态输入并采用标准重建预训练任务的模型所获得的嵌入相比,这导致了更优越的嵌入效果。

作者对MM-V SF的预测能力的预训练任务评估显示,该基础模型能够学习超越时间自相关性的方面。作者展示了MM-V SF可以通过微调来适应一个跨年份具有泛化能力的作物映射模型。

该模型在时间上具有灵活性,并能适应包括时空遥感数据在内的地球科学下游任务。本研究是向在预训练任务中融入知识引导原则,以及采用多模态方法提高嵌入效果的第一步。

0 人点赞