华中科技提出 PersonViT | 利用 Mask 图像建模的视觉 Transformer 提升人重识别性能！

人在重识别（ReID）旨在从非重叠的摄像头图像中检索相关信息，并在公共安全等领域拥有广泛的应用。近年来，随着视觉 Transformer （ViT）和自监督学习技术的开发，基于自监督预训练的人重识别的性能得到了极大的提高。人重识别需要提取人体高度判别性、局部细粒度的特征，而传统ViT则擅长提取与上下文相关的全局特征，难以关注局部人体特征。因此，本文将最近兴起的 Mask 图像建模（MIM）自监督学习方法引入人重识别，通过将 Mask 图像建模和判别对比学习相结合的大规模无监督预训练来有效提取高质量的全局和局部特征，然后对人称重识别任务进行有监督微调训练，提出了基于ViT的 Mask 图像建模方法（PersonViT）。 PersonViT具有无监督、可扩展和强大的泛化能力，克服了监督式人重识别的标注难题，并在公开的基准数据集上取得了最先进的结果，包括 MSMT17、Market1501、DukeMTMC-reID 和 Occluded-Duke。 PersonViT方法的代码和预训练模型已在 https://github.com/hustvl/PersonViT 发布，以促进人重识别领域的研究。

1 Introduction

人重识别（ReID）旨在从人类图像中学习视觉特征，能够区分不同的个体身份。这是一个重要且具有挑战性的计算机视觉问题，需要克服严重的遮挡、外观变化、形状变化和视点变化。人重识别技术能够在无接触和不合作的情况下实现跨摄像头检索行人，并广泛应用于公共安全、视频监控等领域，具有显著的应用价值。

关于人重识别的研究有很多，大多数涉及基于度量学习的特征提取（例如，triplet损失[1]）和backbone网络（如ResNet[2]或ViT[3]）。由于标签人重识别数据集较小，当前方法中的大部分backbone网络都是在ImageNet[4]上预训练后，再在重识别数据集上进行微调，以实现更好的性能。然而，ImageNet与人重识别数据集之间存在显著差异，因为ImageNet包含1000个类别，而人重识别只有一个人类别。因此，在ImageNet上预训练的模型可以更好地提取类别级特征，但很难有效提取细粒度个体特征，使其在人的重识别问题中不太适用[5]。

图1：人重识别在MSMT17和Market1501上的性能。提出的PersonViT方法获得了SOTA结果，并显著优于以前的方法。

为了在预训练和微调数据集之间建立更好的桥梁，收集了一个人无标签的行人数据集，名为LUPerson，并首次证明了基于CNN的自监督预训练模型在ReID任务中表现良好。随后，TransReID-SSL [7]在LUPerson数据集上使用ViT基于的自监督学习算法进行了实验，并发现用DINO[8]算法预训练的模型在行人ReID中最有效。然而，这些自监督学习算法都利用了同一图像的不同数据增强产生的局部和全局图像之间的分类一致性来执行对比自监督学习。它们可以在多类数据集（如ImageNet）上相对较好地捕获类别差异，但却在单类ReID数据集中失去了细粒度的差异。例如，不同人的局部图像可能非常相似，并属于同一类别，但DINO的自我监督对比将它们分到不同的类别中。同样，同一人在不同角度的局部图像应属于同一类别，但DINO的对比将它们分到不同类别。因此，PASS方法[5]提出了一种专门用于行人ReID任务的自监督预训练算法。基于DINO，它根据人体结构从头到脚将人图像分为几个（L）块。它在块之间以及块与整个图像之间进行对比自学习。从而增强预训练模型表达局部特征的能力，并在当时达到了新的最优性能。

然而，PASS有两个问题：

1）与之前的基于块的ReID（如PCB[9]）一样，它具有块对齐依赖问题，即块分割方法在复杂背景下太机械，非均匀对齐甚至被遮挡或部分遮挡的人图像，使其容易发生误分类；

2）即使更少数量的块也难以完全表达细粒度的局部特征，即在PASS方法中，最佳性能实验对应的分块数量只有三个，显然在粒度上是不够的。

最近，受到自然语言处理（NLP）领域中 Mask 语言模型（MLM）[10]的巨大成功的启发， Mask 图像建模（MIM）技术（如BEiT[11]、MAE[12]和SimMIM[13]）在自然图像的图像分类、检测和分割任务中通过自监督学习也取得了突破。MIM采用随机masking局部像素的重建学习，加强了对局部细粒度特征的学习和提取，而无需进行手动图像分割。这在一定程度上有效弥补了PASS算法的局限性，表明引入MIM应该提高行人ReID的准确性。

在本文中，作者引入了一个基于DINO的MIM自监督学习模块，在LUPerson 数据集上进行大规模的无标签预训练，然后将 supervised ReID 分别在四个数据集上进行微调：MSMT17 ，Market1501 ， DukeMTMC-reID ，和 Occluded-Duke [17]。作者称之为利用遮挡图像建模和DINO对比学习的基于纯ViT的大规模无监督预训练方法，并将其称为PersonViT方法。实验结果显示，PersonViT实现了最先进的结果，特别是在具有挑战性的数据集Occluded-Duke上表现尤为出色。此外，在MSMT17上的预训练模型可视化分析发现，PersonViT可以在没有标注的情况下自动发现人体的关键部分、服装图案以及局部部分之间的对应关系。

本文的创新之处包括以下几个方面：

为增强算法对人类图像对齐的鲁棒性，并更好地提取人体的局部精细特征，作者在无监督特征学习中首次使用了遮挡图像建模技术。这有效地解决了在遮挡和错位极大的人体图像中获取局部精细视觉特征的挑战。
作者提出了一种高效的大规模自监督人类特征学习方法，基于纯ViT，称之为PersonViT。
作者的方法在多个主流的人体ReID数据集上实现了最先进的结果。

这项研究的重点是，通过高效准确的自我监督特征学习，实现了最先进的ReID结果，极大程度上解决了行人ReID领域标签训练数据不足的问题。所提出的这种方法具有很高的可扩展性，并为ReID技术的大规模实际应用提供了强有力的技术支持。

实验结果显示，作者的方法实现了最先进的准确性，明显超过了之前的方法。

2 Related Work

Self-Supervised Learning

对比学习自监督学习（SSL）方法旨在从大规模的无标签数据中学习区分性特征[18]。近年来，对比学习方法在计算机视觉领域蓬勃发展，明显缩小了与监督预训练的差距。MOCO [19]首次提出了动量对比，其中将样本的一对增强视为正，其他样本及其增强视为负，从而进行无标签对比学习训练。这一方法得到了一系列改进，如MOCOV2 [20]，MOCOV3 [21]和SimCLR [22]。BYOL [23]提出了一种新的对比学习范式，使用两个网络模型预测同一样本不同增强图像的表示，从而删除了对大规模负样本的依赖。DINO [8]是BYOL的改进版本。它将中心化和锐化操作引入到目标模型参数的动量平滑更新过程中，有效地防止模型崩溃并提高算法的稳定性。此外，DINO还包含了一系列数据增强，尤其是多个局部裁剪增强，这些增强了模型通过局部和全局图像的大规模对比学习学习局部特征的能力。

DINO框架作为一种自蒸馏学习框架，首次将自蒸馏方法引入其中。在深入研究DINO之前，让作者简要介绍Transformer的基础原理。Transformer被认为是一种编码器，将图像，其中对应图像分辨率，对应图像通道数（通常为3，表示RGB），转换为目标特征向量。将图像与NLP中的标记化过程进行类比，将图像划分为连续实体。Transformer通过块投影标记化图像的开始。如果每个像素大小的块被分割成个图像 Patch ，那么每个段都可以表示为一个标记，类似于NLP中的单个单词。结合可学习的，这些标记可以表示image标记结果，如公式（1）所示。在这里，“;"符号表示堆叠标记之间的连接。通过ViT网络进行编码后，可以得到特征向量的类似表示，如公式（2）所示。与常规ViT Backbone 网络不同，DINO编码器集成了一个头模块，将ViT输出通过多层感知网络（MLP）映射到目标向量空间，如图所示（公式3）。为了计算最终损失函数，即与后续损失函数差异的，DINO使用了两种同构编码器网络 - 学生网络和教师网络，分别表示为和，如图所示（公式4）。梯度反向传播的范数更新学生网络参数，而教师网络参数与学生网络参数的指数移动平均（EMA）共同演化，计算公式为。在有趣的转变中，DINO的教师网络输入两个全局放大的数据视图，而学生网络则调用相应的全局视图以及多个局部视图。因此，包含了全局和局部-全局对比计算，从而增强了识别局部特征的能力。

图像遮挡模型从2018年开始，自然语言处理领域取得了显著的 Masked Language Modeling (MLM) 成功，例如 BERT 和 GPT 。近年来，视觉领域也出现了几种遮挡模型，代表性作品包括。MST[26] 首先采用遮挡图像遮挡模型改进了 DINO 的性能。随后是 BEiT [11]，它首次使用离散变分自编码器 (dVAE) 离散化图像块并映射到相应的视觉标记。它然后遮挡视觉标记以获得显著的学习效果；因此，BEiT 也充当了两阶段训练算法。MAE [12] 是一种端到端的 MIM 自编码器。它使用一个编码器只编码可见的图像块，并使用相对轻量级的解码器恢复被遮挡的像素。有趣的是，即使在输入图像（例如75%）的大部分被遮挡的情况下，它也能产生出色的自监督学习结果，从而显著加快预训练过程。由于 MAE 的自监督学习是恢复像素，因此它的编码器和解码器都学习特定的特征表达式。此外，MAE 恢复最基础的低级像素特征，所以编码器学习的特征抽象程度不是控制的。MAE 在 ImageNet 实验中 k-NN 和线性检测标准的较低准确性表示它的编码器并不足以提取区分特征抽象。

传统上，特征表达学习主要采用IDE模型[29]。该方法包括全局特征提取和多分类训练，其中每个个体都被视为一个独立的类别。随着趋势的发展，人们开始使用ResNet50 [2]来提取全局特征向量，然后将其应用于度量学习，例如Triplet Loss [1]。然而，全局特征表示学习中的详细局部特征仍然是一个挑战。因此，出现了两种主要的优化方法来解决这一问题。第一种是多尺度融合表示学习，如文档[30]所提出的。第二种是集成注意力机制来加强局部表示学习，如调整空间和通道注意力[31]，以及使用分割注意力机制在表示学习中衰减背景[32]。为了更好地捕捉人类图像的局部、细粒度特征并提高算法在处理对齐问题和遮挡时的鲁棒性，后续提出了基于局部特征的人脸ReID方法。早期的局部表示学习方法，如[33]、和PCB [9]等，将人类图像分割为多个水平条纹来提取局部特征。MGN [35]通过对这些条纹之间的不同粒度和重叠度的条纹进行增强，提高了模型的鲁棒性。TransReID [36]是第一个基于Transformer的TransReID算法，同样通过调整和重组Transformer的输入局部图像来实现局部表示学习。这些方法说明，通过局部表示学习提取到的细微特征对于提高人脸ReID的准确率具有显著作用。

Self-supervised person ReID

尽管与自监督预训练的ReID相关的研究相对较晚出现且较为稀缺，但正因为它避开了预训练阶段的高昂标注，展示出巨大的潜力。TransReID-SSL [7] 首次对比了当时主流的自监督学习算法在ReID问题上的性能。在该比较中，DINO [8] 相较于其他算法展现了显著的优势。研究行人还研究了预训练数据大小对最终准确率的影响，并提出了筛选预训练数据的有效方法。PASS [5]，第一个针对ReID任务的自监督预训练算法，用于分割人类图像。在基于DINO的基础上，PASS引入了局部到局部以及局部到全局对比学习。通过为不同的局部使用单独的，PASS 区分表示，并在全局对比分类特征空间[CLS]之外，引入了额外的分割分类特征空间[PART]，从而增强了分割的详细表示能力并提高了预训练模型的局部特征提取能力。该方法在当时都创造了行业的领先基准，从而验证了其有效性。

Summary of Research on person ReID

回顾过去几年 persona reID 技术的演化，作者可以总结出三个主要趋势。

首先，特征提取的基础网络已经从传统卷积神经网络进化到 Transformer （ViT），主要得益于ViT在表达全局上下文特征方面的先进能力，以及ViT基础的自监督学习方面的重大发展。

其次，最初基于ImageNet分类的任务的预训练方法已经转向使用大量人类数据的自监督模型。这个转变的主要原因在于 persona-reID 挑战涉及在各个个体之间区分较小的差异，而与具有多样化和广泛类别区别的ImageNet分类任务不同。由于测试个体通常不存在于训练子集中，所以泛化能力成为识别精度的重要推动力。然而，由于数据获取和标注的挑战，公共监督训练集的缺乏，在满足算法泛化能力方面有所欠缺。

最后，考虑到不同个体之间的细微差别，这与ImageNet类别中的差异相比要小得多。因此，有效地提取局部精细特征以提高 persona-reID 准确性至关重要。

最新的方法 PASS [5] 成功符合这三个趋势，并在推出时实现了业界领先的分数。然而，它也突显了两个关键限制。首先，对人工设计的分割部分的依赖限制了其对人类图像对齐的鲁棒性。其次，有限的分区数量使其难以充分表达局部精细特征，从而限制了预训练模型的提取能力。

3 Method

针对 PASS 算法中识别出的局限性，一个可能的解决方案是在 ViT 模型中引入一个类似于 [CLS] 特征空间的分类特征空间，用于自监督预训练。然而，应用传统的数据增强对比学习方法可能面临挑战。由于每个小patch的大小较小，生成不同数据增强的方法可能导致局部图像patch内的误放置，从而限制了可比性，并无法实现预期的自监督效果。这一点在 PASS 方法的实验结果中得到了验证，结果表明增加局部segment的数量或减小分区的尺寸并不能导致准确率的提高。

受遮挡图像表示概念的启发，一个可能的解决方案是将同一图像输入系统两次。一次输入是完整的图像，另一次输入是带有某些区域的遮挡图像。来自两个输入的对应输出特征向量，分别记为 [PATCH] 和式(6)中定义的，将构成比较的基础。这种方法可以在最细粒度的特征表示下进行特征表示，对应于patch的大小，可能提高预训练模型的提取精细局部特征的能力。

本文提出的整体算法框架，如图2所示，将MIM Loss模块，即块级对比损失模块，集成到DINO预训练算法中。预训练采用ViT-S和ViT-B作为基础网络，利用最大的公开数据集LUPerson [6]进行预训练。预训练完成后，在四个主要的公共行人重识别数据集[14]、Market1501 [15]、DukeMTMC-reID [16]和Occluded-Duke [17]上进行有监督的细粒度微调训练。预训练和细粒度微调的详细步骤如下。

Incorporation of Self-Supervised Pre-training MIM Loss Function

受到 BEiT [11] Mask 图像建模范式的启发，作者的方法包括对图像进行随机块状 Mask ，类似于引入可学习标记变量，类似于。

在此方程中，表示随机图像块 Mask ，1表示 Mask ，0表示未 Mask 。经过ViT编码器处理的被 Mask 图像会产生，如图2所示。

与DINO显著不同，此处作者也实现了MLP网络转换，将映射到维空间，以产生，然后执行重建损失计算。目标向量可以如图2所示表示。为了基准被 Mask 图像块的重建向量，仅应用双全局视图输入 Mask 到的学生网络，教师网络的输入包括完整的全全局视图以供参考。然后用特定 Mask 重建损失函数（简称为）详细解释在公式（7）。这与DINO损失函数（见公式4）以及作为最终预训练损失函数（见公式8），作为本研究的基准。这里，设想为和的加权平均数，其中默认情况下。

Supervised Fine-tuning

在这一阶段，通过先前的自监督学习生成的预训练模型经过微调，以应对特定的行人体 ReID 任务，生成最终该任务模型，然后作者进行测试来评估模型的 ReID 精度。为了确保对自监督预训练模型有效性的无偏比较，作者在此阶段继续使用 BOT [37] 框架。这种方法与 TransReID-SSL 基准中的方法一致，该基准采用标准的 ViT 网络（即 ViT-S/16 和 ViT-B/16）作为主网络，直接实现用于特征聚合，采用 Triplet Loss 进行度量学习，选择交叉熵损失进行 ID 损失，并在度量学习和 ID 损失之间插入 BNNeck 模块。

作者对主要的标准 ViT 网络进行微调，以应对物体 ReID 训练，利用自监督学习阶段教师网络的预训练模型作为起始参考点。

4 Experiments

Datasets

用于自监督预训练的主要数据集是LUPerson [6]，它包括418万张无标签的人类图像。这个数据集是ImageNet的4倍大小，因此预训练所需的计算资源更大，相同的计算资源会导致ImageNet数据集的训练时间增加四倍。为了充分验证预训练模型提取更细腻的局部特征的能力，本研究在四个主流人脸ReID数据集上进行有监督训练，两个关键指标：mAP（平均平均精度）和Rank-1均有所提升。四个数据集的详细信息如下表所示。Occluded-Duke是基于DukeMTMC-ReID生成的一个数据集，它增强了在遮挡情况下的ReID的难度。

Implementation Details

4.2.1 Self-Supervised Pre-Training Stage

由于LUPerson数据集的大小以及为了减少实验时间框架，作者实现了大数据集训练，使用8x8xA100 GPUs以加快实验。然而，为了展示小批量训练的有效性，作者还进行了基础实验，使用了4xRTX3090 GPUs。为在预训练阶段最小化计算负载，将训练循环（epochs）设置为300。类似于DINO和PASS，教师网络接受图像尺寸为256x128的输入，而学生网络设计为处理256x128的大局观，只有6个局部视角，尺寸为96x64。考虑到预训练所需的时间较长，作者的实验只训练了两个基本网络模型 - ViT-S/16和ViT-B/16。对于小批量实验，预训练学习率均匀采用。对于大数据集实验，尽管实验时间有了显著的减少，但训练过程却相当不稳定。因此，作者根据特定batch大小调整学习率，确保不超过0.002，直到训练达到稳定收敛为止。具体的参数和训练日志将在代码公开发布。

4.2.2 Supervised Training Stage

根据TransReID-SSL [7]的实验设置，仅使用传统ViT-S/16和ViT-B/16 Transformer网络作为监督训练的 Backbone 进行有监督微调，而不添加任何其他优化项。监督训练统一采用随机梯度下降作为学习算法，学习率设置为。批量大小由组成，意味着每批有16个不同的人，每个人有4张图像。参照PASS [5]的策略，前20个周期作为 Warm up 阶段，并将Triplet Loss中的参数设置为0.3。

Experimental Results

不同算法的实验结果对比显示在表2中（浅蓝色背景表示最高精度）。为了使预训练基础网络的预训练参数公平比较，TransReID-表示了TransReID中去除SIE和JPM模块的ReID精度[36]。此外，最后两行表示使用64xA100大batch size预训练的模型的准确率。用*标示的行表示在4xRTX3090上使用小batch size预训练的模型准确率。AAformer [38]和TransReID-是基于ImageNet-21K数据集进行分类预训练的模型，该数据集大于LUPerson数据集且具有分类标签。可以看出，基于LUPerson的自觉预训练模型的ReID精度远高于基于ImageNet预训练模型的模型。

与DINO CFS [7]和PASS [5]相比，本文提出的基于PersonViT的LUPerson预训练模型的变体，尤其是大batch size预训练模型，在准确性上取得了显著的提升，远远超过了基于图像分区自监督学习的PART算法预训练的模型。

4.3.1 Hyper-parameter Ablation Experiment

DINO研究[8]表明多作物技术对性能产生了显著影响。由于pedestrian图像的独特特征，研究全球和局部裁剪的各种超参数的效应变得至关重要。人ReID预训练数据集LUPerson与ImageNet的两种主要区别在于：1）人图像通常具有较低的分辨率，导致局部细节不明显；2）人体裁剪通常呈现矩形形状，因此在预训练时，图像被缩放到256x128以供网络输入。这与ImageNet实践中的224x224像素 squares作为输入不同。考虑到这些差异，本次的ablation实验主要研究全球裁剪和局部裁剪之间大小分布和长宽比差异的影响。

实验结果表明，在自蒸馏过程中，在局部和全局堆叠中，有助于产生更适合人ReID的特征。同时，在随机抖动（默认为1:1的默认参数）中保持长宽比2:1更为有益。此参数调整显著提高了平均平均精度（mAP）得分两个百分点。

4.3.2 MIM Loss Function Ablation Experiment

为了验证 Mask 图像建模在特定任务中的作用，作者进行了一次简单的消融实验。具体而言，在其他实验参数完全相同的情况下，作者在等式（8）中比较了λ2等于1和0时的设置。实验结果如下表4所示。结果表明，引入MIM损失函数与DINO算法[8]相比有显著改进。MSMT7的mAP值实现了显著增加，达到令人印象深刻的6.4，远远超过了与DINO相比PASS方法[5]增益（3.0）。图4中的局部特征聚类可视化分析更清楚地展示了作者的方法能提取出更丰富的局部细粒度人体特征，从而验证了作者的理论假设。

4.3.3 Overfitting Problem in Pre-training

在实验中，作者发现最优模型准确性不一定在时实现，即预训练过程的结束。通过在自监督预训练阶段监控指标，作者发现在[200, 300]的周期内出现了过拟合现象。为了进一步研究这种过拟合问题在自监督学习中，作者进行了有监督训练，并测试了在每个20个周期内保存的模型准确性变化。作者使用了两个条件：从图像Net自监督预训练模型初始化开始预训练，或者从头开始预训练。这些结果如图3所示，其中"w/pt"表示使用完整的LUPerson数据集在图像Net预训练模型初始化后开始训练，"w/o pt"表示从0开始预训练。结论可以从图3中得出：1)使用图像Net预训练模型初始化在早期阶段具有显著优势，但这种优势在左右被超越，而从零预训练的模型在的后期表现略好。由于图像Net预训练模型已经具有行人良好的判别能力，因此早期的优势是可以预期的。2) 对于的后期训练，mAP和 Rank-1 准确性指标都表现出初期的增长然后下降的趋势。在这个问题上，在MSMT17数据集上的效果最为明显，最优性能在时实现，而在数据集上的最优点在时出现。因此，作者将模型在预训练时的有监督训练准确性用于本文大多数实验结果。由于训练数据量较小（只有总量的3%），不存在明显的过拟合问题，因此在表3中得出的结果是在时获得的。

4.3.4 Influence of Pre-training Data Volume

为了进一步探究预训练数据规模对监督训练结果的影响，作者设计了一些从LUPerson数据集中获取不同样本的实验。结果如表5所示。在这里，"w/ PT。"表示是否利用了ImageNet预训练模型来初始化参数。 "10%"表示从LUPerson中随机选择10%的样本，"10% CFS"表示根据TransReID-SSL [7]中CFS排名选择前10%的样本。

通过分析表5，作者得出以下几点结论：

通过作者的自监督学习算法的重识别准确性随预训练数据规模增加，这意味着作者学习自监督特征的方法更适合大规模无标签数据；此外，数据规模越大，ReID准确率越高；
当数据规模较小时，使用ImageNet预训练参数初始化可以显著提高；
根据TransReID-SSL [7]中CFS排名选择顶级数据优于随机选择，表明CFS和最终准确率之间存在一定关联。然而，这种选择方法并未达到TransReID-SSL论文中陈述的结果，即CFS（50%）超过了整个数据集的准确率。

Visualization Analysis

作者为了更好地理解预训练模型学习的人类特征，进行了对预训练ViT-S/16模型在MSMT17[14]数据集上的可视化分析。在这项预训练中，作者分析了基于LUPerson的 patch 标记布局，可视化了自注意力图，并探索了特征之间的相关性。

对于基于contrastive学习的ViT-S/16 模型，作者进行了一系列的实验。例如，作者使用Petroz认为将预测模型应用到无标签的人类图像数据集上，可以有效提取出包含重要人体部位（如人脸、脚、膝）的微细特征。如图4所示，通过PersonViT 模型提取的特征可以将图像像素集群在一起，这些集群代表了图像的相同部分。

另一个实验是分析自注意力映射。如图5所示，自注意力视图确认了预训练模型可以在复杂的人体背景（如遮挡、破裂或人体错位）中有效地提取出人体的轮廓。这种能力解释了作者算法在遮挡的Duke数据集 [17]上的巨大改进。

图6所示的特征相关性分析结果表明作者的预训练模型可以在同一身份的多个图像之间有效地捕获特征之间的相关性，即使在这些图像之间存在显著的变形（如转身或骑车）。

5结论

在这篇论文中，作者提出了一种大规模的自我监督 person预训练方法PersonViT，这款方法是基于对比学习进行遮挡图像建模的。通过预训练一个大规模的无标签人类图像数据集，PersonViT 模型可以有效地提取出丰富的、高度区分性的、局部微细的人体特征，并在行人ReID任务上实现了显著的性能提升。

实验证明，即使将backbone 网络设置为较小的标准的ViT-S/16 模型，随着预训练数据集大小的增加，最终的识别准确率也可以进一步提升。考虑到在实际场景中获取大量无标签人类预训练数据的成本相对较低，这种方法在实践中有广泛的应用前景，可以大大提升不同场景下的ReID算法的效果。

然而，与其他自我监督预训练算法一样，PersonViT也面临了高预训练计算开销的问题，使预训练周期变长，在计算资源有限的情况下。尽管行人ReID算法的backbone网络采用了一个较小的标准的ViT-S/16模型，但只有在预训练数据集的大小不断增加时，最终的识别准确率才能进一步上升。

考虑到获取大量无标签的预训练数据在实际场景中的成本相对较低，这种方法在实际应用中有广泛的可能性。然而，这种大规模的自我监督预训练方法也面临一些问题，例如高预训练计算开销，以及当应用到大量的真实场景中的无标签数据时，如何提高预训练效率。这些问题需要进一步的研究和探索。

参考

[1].PersonViT: Large-scale Self-supervised Vision Transformer for Person Re-Identification.

mask 模型数据网络性能

0 人点赞

华中科技提出 PersonViT | 利用 Mask 图像建模的视觉 Transformer 提升人重识别性能 ！