Nat. Methods｜生物成像分析中的注意事项

编译 | 厉小明

深度学习算法是分析、恢复和转换生物成像数据的强大工具，但存在使用不当的可能性。本文作者讨论了研究人员在使用深度学习进行显微镜研究时需要考虑的重要概念，如何验证深度学习获得的结果以及选择合适的工具时应该考虑的内容。作者建议在出版物中报告深度学习分析的哪些方面以确保可再现性，并希望这一观点能促进相关人员的进一步讨论，以定义适当的指南来确保适当使用这种变革性技术。

引言

显微镜是生物学中的一项重要技术，今天，一个典型的显微镜检查就可能会生成成百上千的图像，通常需要计算分析来获得有意义的结果。在最近几年，由于深度学习（DL）的日益强大，DL越来越成为高性能显微图像分析中的黄金标准之一，并广泛应用于图像分析中。

对于图像分析，DL通常使用人工神经网络（ANN）的算法，与经典算法中的数学公式（fx）不同，DL算法首先需要训练模型（图1），ANN会接收一系列数据，它试图从中学习如何执行特定任务（例如图像去噪）。更具体地说，ANN建立了一个数学变换模型，该模型需要应用于数据以获得期望输出。在这里，模型参数（称为权重）可以看作是执行学习任务的指令，优化好模型权重之后就可以使用模型来进行推理或预测。因此，人工神经网络可以被视为非线性变换机器，但我们很难理解ANN使用了原始图像的哪些特征。出于这个原因，它们通常被认为是“black boxes（黑匣子）”，因为对于大多数用户来说，只有输入图像和输出预测是现成的。

提供给ANN的训练数据由大量有代表性的输入图像及其预期结果组成。例如，在去噪中，训练集包含匹配的噪声和高信噪比(SNR)图像对（图1），这种使用成对图像标签的训练称为监督训练。另一方面，自监督训练可以在预处理步骤中直接生成训练对，用户只需提供输入图像。训练的难易程度取决于训练集的大小和ANN的类型，它通常需要专业知识、专用数据集和强大的计算资源来运行和优化，相比之下，DL模型就比较简单和快速。此外，还可以利用DL工具，选择合适的工具主要取决于任务本身、分析的规模以及运行它们所需的计算水平。

图1 使用经典或DL算法分析显微图像，以去噪为例

本文作者基于他们开发和使用DL工具方面的经验建议了一套用于实施和报告DL图像分析工具的最佳实践，涵盖了传统的图像分析任务，例如细胞分割、图像去噪和图像恢复等。

使用DL进行生物成像分析的优缺点

从样本数据中学习是DL的主要优点和主要缺点

通过直接从数据中学习，人工神经网络尝试确定最合适的分析方式，从而为该特定数据集生成具有出色性能的模型（图2a,b）。但是，由于训练效应，训练后的DL模型只能在与训练使用的图像相似的图像上可靠执行，可能不适用于新情况。如果训练集不能很好地匹配任务数据，则生成的模型将产生不需要的结果，例如，不合适的分割模型将导致欠分割和过分割，不合适的图像去噪和恢复模型可能导致性能不佳、图像质量下降和幻觉（图2b）。在这种情况下，基于非深度学习的方法可能会产生更好的结果（图2c,d）。

图2 DL在生物成像中的伪影、指标和性能

使用大量不同的训练集生成具有高重用潜力的通用模型

使用集中式存储库（如bioimage.io）可以极大地促进此类数据集的管理，其中可以包含DL分析显微图像而生成的训练数据。这也将有助于生成和传播基准数据集，然后算法开发人员和生物科学家都可以访问这些数据集。

随着DL模型可以通过公共存储库或Web界面访问，直接使用模型来分析新数据变得很简单。这具有加快DL分析的优势，但是，除非研究人员可以确认他们自己的数据在最初使用的训练数据集中得到了很好的代表，否则这种便携式模型在新数据上的性能往往还不清楚。因此，尽管DL在显微镜分析中的应用具有令人难以置信的潜力，但由于缺乏透明度和存在局限性，尤其是在普遍性方面，因此引起了人们的担忧。除此之外，DL正在以惊人的速度发展，这给用户确定最适合他们需求的工具带来了沉重的负担。评估一系列通常难以比较的方法的有效性和性能仍然具有挑战性，尤其是当广泛接受的基准数据集不可用时。

评估DL模型预测

预测值与实际值进行比较

目前，评估DL模型预测质量的最明确的方法是将它们与真实图像进行比较(图2和3)。以图像分割和去噪为例，分割结果可以与手动分割进行比较，去噪结果可以与匹配使用的高SNR图像进行比较。此外，用户还可以比较各种工具的性能，以找到最适合的工具（图2和3）。

需要注意的是，单个高SNR图像或手动标注的标签严格来说并不准确。无论使用何种参数，单个图像始终会受到噪声的影响，由单个专家手动注释的标签也将包含错误和偏差。在这两种情况下，重复和平均都可以提高训练数据的质量。例如，对同一场景的多张高SNR图像进行平均将降低目标图像的噪声，同样，为了避免偏差，结合多个专家的注释是有益的。

使用评估指标

在将DL预测与真实情况进行比较时，进行定量分析也同样重要。平方根误差(RSE)，结构相似性指数度量（SSIM）是经常使用的指标（图2和3）。其他指标，例如测量两个二元掩膜之间重叠的交集（IoU），可以评估分割输出的质量。可以使用F1分数或全景质量等进一步评估分割结果，反映算法正确识别图像中每个对象的能力。还有其他指标来评估其他图像处理任务，例如图像配准或超分辨率重建。

在使用指标评估DL预测时，经常出现的一个问题是指标分数何时足够好。对于预测值和真实值可以达到良好一致性（IoU和F1分数为0.8及以上）的分割任务，这通常不是问题。然而，评估去噪和图像到图像转换预测的质量可能更具挑战性。作者发现将预测图像与真实图像进行比较对于评估去噪特别有用。然而，这不应取代对数据的仔细目视检查，因为度量的增加并不总是更高图像质量的标志（图2b）。

针对特殊情况采用特殊方法

作者建议尽可能多地生成真实数据，而且大部分情况都是这样做的。但在极少数情况下，当真实图像不可用时，仔细目视检查结果可能是评估DL模型性能的唯一选择。但是，在研究新现象时，应避免使用这种方法并对观察结果进行交叉验证，尤其是在去噪后观察到的结构在原始数据中不易看到的情况下。因此，需要开发指标或实施评估方法，以在没有可用的真实图像时评估预测的质量。因此，对于开发人员来说，在他们的工具中包含例如Monte Carlo dropout策略轻松评估DL模型不确定性的方法可能是有价值的。其他可能的方法包括使用特定的网络架构，例如变分自编码器，从单个输入中提取网络输出的分布，从而在数量和空间上估计模型的可变性和不确定性。

图3 使用质量指标来评估DL模型的性能

选择深度学习工具

选择一个文档齐全且维护良好的工具

首先，作者建议选择与用户首选界面相匹配的文档齐全且维护良好的工具。第二，开发人员提供的文档的详细程度可能会有很大差异，范围从带注释的代码到在线视频教程和详细的分步指南。第三，大量的用户群和在线论坛是一个有用的平台，它提供了大量有关用户体验的信息，以及提示和技巧。此外，示例数据很有帮助，因为它们允许用户在将工具应用于他们的数据之前测试和学习如何正确使用工具。

如上所述，必须仔细评估基于DL的工具在感兴趣的数据集上的性能。因此，作者建议使用提供评估和完整性检查的工具，例如StarDist Python包、Noise2Void Fiji插件和ZeroCostDL4Mic笔记本中的工具。

识别和防止过拟合

在使用新算法或软件训练DL网络时，要注意识别和防止过拟合。当模型对训练集过于专业化而不能很好地泛化到新数据时，就会发生过拟合。在实践中，这意味着经过训练的模型在新数据上可能表现不佳，即使它们与训练期间使用的数据相似。通过在训练集和预留验证集上监控模型的性能如何随着训练时间的推移而演变，可以检测过拟合。当更多的训练导致训练集的性能提高但验证集的性能恶化时，这表明正在发生过拟合。可以通过增加训练集的多样性来防止过拟合，例如使用数据增强策略、降低模型复杂性、添加正则化（L1、L2）或在训练期间提前停止。专用于训练的DL工具将从这些功能中受益，因为它们为用户简化了模型优化的过程。

尝试进行迁移学习

选择训练DL模型的工具时要寻找的另一个特征是执行迁移学习的可能性。迁移学习允许在训练新模型时使用现有模型作为起点。这允许用户利用这些训练模型中存在的先前学习的特征，而不是从头开始训练。换句话说，迁移学习使用户能够使用他们的数据微调现有模型。这种方法可以显著加速训练并减少训练集的大小，同时为特定任务生成具有更高性能的模型。

与开发人员联系

在测试新工具时，与开发人员联系并在发现错误时为工具改进做出贡献或报告某些特定配置中可能在开发过程中未遇到的问题通常是有益的，因为它促进了良好的工具、开放的思想和多学科研究，同时建立了双方的信任。

报告深度学习的使用细节

作者认为生物成像社区需要讨论和充实在出版物中报告DL用于生物成像的指南。这一点尤其重要，因为更传统的图像分析仍然引起关注，当前工作的重点是在提出新的DL算法时向开发人员提供评估和报告的指导，这里主要专注于在使用DL工具时报告哪些有用。

由于DL提供了丰富的超参数、架构选择和数据操作，因此很容易生成训练不正确或评估不正确的DL模型导致次优结果，这突出了清晰、适当地报告生成特定模型的步骤的重要性。下面，作者列出了一些建议：

指明所使用的算法和版本，并引用适当的论文，否则，指明获取工具的日期，因为大多数工具会随着时间的推移而产生变化。同样，当使用其他人训练的模型时，指明其模型的版本。
DL模型的性能完全取决于训练集（图2）。在训练DL模型时，应在材料和方法中清楚地描述训练集的特征。
训练集应存放在合适的半永久性数据存储库中（例如Zenodo、BioImageArchive或ImageDataResource）。这将有助于创建和传播不同的基准数据集，并使工具开发人员和用户都可以访问它们。
在训练DL模型时，指明使用的关键超参数和主要的底层库（例如，TensorFlow和PyTorch）。将具有可重用潜力的DL模型存放在合适的存储库（例如Zenodo）中，并链接到模型Zoo（例如TensorFlowhub或bioimage.io）及其相关元数据。
如果生成自定义代码来运行算法或处理数据（例如，预处理或后处理步骤），则应与论文共享并存档（例如，使用GitHub或Zenodo）。
清楚地描述验证所使用的DL模型所采取的步骤。这包括验证的类型（即使用的评估指标和获得的分数）、用于评估的图像的数量和来源，并解释为什么结果是可接受的，此外还可提供评估示例作为补充。

总结

DL工具正在改变我们分析显微图像的方式。与所有新方法一样，需要正确使用、验证和复制，然后才能信任这些方法。虽然我们相信这些方法提供了许多优势，但我们认为DL不能在没有事先验证的情况下用于任何数据集。

本文作者提出了使用包含真实目标图像或标签的有目的地构建评估数据集来验证任何模型的重要性的论点。同样，应适当报告DL模型的使用，以确保可重复性和透明度。随着网络和模型的可用性不断提高，寻找方法来确定可能是“好工具”非常重要。

参考资料

Laine R.F., Arganda-Carreras I., Henriques R. et al.Avoiding a replication crisis in deep-learning-based bioimage analysis. Nat Methods 18, 1136–1144 (2021).

https://doi.org/10.1038/s41592-021-01284-3

监督学习深度学习编程算法图像分析迁移学习

0 人点赞