在深度学习在医疗保健领域的众多应用中,细分无疑是研究最多的领域之一,因为它可能带来广泛的优势。
然而分割并不是一项没有成本的任务:首先在医疗保健领域的大多数应用中,获得高质量的图像并非易事。其次标记阶段在时间和资源方面的成本非常高,特别是与任务是分类甚至对象检测时必须完成的标记相比。
训练一个也依赖于其他信息的分割模型将是医学分割的转折点。
这正是厦门大学、德克萨斯大学和赫尔大学的一个研究小组与阿里巴巴集团的想法,他们提出了 LViT,一种利用书面医疗记录的分割架构,这些医疗记录通常与患者一起生成,因此没有额外费用。
医学文本数据和图像数据自然互补,因此文本信息可以 1)弥补医学图像数据的不足并提高分割性能;2)允许使用未标记的图像。
LViT 模型由两个 U 形分支组成:一个 CNN 和一个 Transformer。第一个读取图像并预测分割,而第二个合并文本和嵌入以添加跨模态信息并帮助 CNN 分割图像。
更准确地说,CNN分支由下采样和上采样部分组成。每个下采样层的后续输出直接传递到 ViT 分支以合并文本和图像编码。PLAM(像素级注意模块)块用作跳跃连接,将下采样分支的中间表示和 ViT 上采样部分中的重构特征作为输入。PLAM 的配置如右上图所示:将 Global Average Pooling 和 Global Max Pooling 的两个并行分支的输出相加、连接并传递给 MLP。该技术旨在保留图像的局部特征并进一步融合文本中的语义特征。
另一方面,ViT 分支从医学注释的 BERT-Embed 接收文本嵌入。连同图像嵌入。
最后但同样重要的是,作者还介绍了一种非常有效的技术,用于处理基于指数移动平均线的伪标签(分配给未标记数据的标签),称为指数伪标签迭代 (EPI)。非常简单地说,在每一步,使用先前预测的分割图作为基本事实逐渐更新伪预测分割。
该网络使用骰子损失和交叉熵对标记数据进行训练,并与未标记数据的 LV(语言视觉)损失相加。在实践中计算相似性度量以找到与正在计算的文本最相似的文本。一旦找到就获取相应的分割图,并计算它与ground truth mask之间的相似性损失。
结果
在对不同组件、模型大小和超参数进行广泛的消融研究后,该方法已应用于两个不同的数据集,MoNuSeg 和 QaTa-COV19,并与许多最先进的模型进行比较,获得了出色的结果就 dice 和 mIoU(单位上的平均交集)而言。一些图形结果如下所示:
https://arxiv.org/pdf/2206.14718.pdf
https://github.com/HUANGLIZI/LViT