Power-LLaVA:大语言模型结合视觉技术,提升检测效率 !

2024-08-08 12:10:47 浏览数 (2)

在过去的几年里,电力传输线路的检查已经取得了显著的成就,这主要得益于深度学习技术的融合。 然而,当前的检查方法在泛化和智能化方面仍然存在困难,这限制了它们进一步的应用。 在本文中,作者介绍了Power-LLaVA,这是第一个专门为通过与人类对话提供专业可靠电力传输线路检查服务的大型语言视觉辅助系统。此外,作者还构建了一个大规模、高质量的专门针对检查任务的数据集。 通过在构建的数据集上采用两阶段训练策略,Power-LLaVA在相对较低的训练成本下展示了卓越的性能。 广泛的实验进一步证明了Power-LLaVA在电力传输线路检查领域的强大能力。

1 Introduction

在过去的几年中,电力输电线路巡检领域取得了显著的进展,这主要得益于深度学习技术的应用。例如,DF-YOLO[1]通过结合可变形卷积(DCN)和SimAM注意力机制来提升原始YOLOv7-tiny的性能,有效提高了输电线路外来物检测的准确性。GA-Net[2]采用遗传算法(GA)和空间到深度(SPD)卷积方法来改进原始的YOLOv7,有效提高了准确性和收敛速度。然而,当前方法在泛化和智能方面存在局限性,在面临多样化和复杂的应用场景时,性能并不理想[18]。

大型语言模型(LLM)的显著成功最近激发了大型多模态模型(LMM)的发展,这些模型超越了LLM,如LLaVA、Owen和GPT-4V。将LLM应用于专业领域的兴趣也导致了各种创新。例如,RadFM[4]首次将LMM应用于放射学领域,并支持3D CT和MRI医学图像输入。RS-ChatGPT[5]利用结合了CoT方法的LMM处理遥感领域中的各种复杂解释任务,并取得了令人鼓舞的性能。

图1:LLaVA、GPT-4V和Power-LLaVA的比较。Power-LLaVA针对电力输电线路巡检展示了最全面和专业的响应。

在本文中,作者提出了Power-LLaVA,这是首个基于大型多模态模型(LMM)的智能视觉-语言助手,通过与人交互来进行电力输电线路巡检。为此,作者开发了一个能够接受图像和文本输入并生成文本响应的多模态模型,如图1所示。所提出的模型包括三个模块:预训练的视觉编码器(即ViT[7])、轻量级投影模块和预训练的LLM。具体来说,图像块嵌入首先由视觉编码器生成,然后通过投影模块映射到LLM的嵌入空间。LLM模块以统一的方式处理来自图像的视觉嵌入和来自文本指令的词嵌入,最终生成文本输出作为响应。

为了确保Power-LLaVA的响应能够符合电力输电线路巡检的要求,作者构建了两个训练阶段的大规模、高质量的专业数据集。最初,作者从现实世界的电力输电线路场景中收集了2万张图像。针对第一阶段特征对齐,作者收集了60.8万个简短的图像-文本对,其中包括从LLaVA发布公共数据集中的55.8万个以及由VL模型(作为字幕生成器)生成的5万个。第二阶段专注于指令微调。受LLaVA[12]的启发,作者利用现有先进的VL模型和检测模型分别为每张图像标注描述性文本和目标检测标签。为了获得细粒度的指令遵循数据集,作者利用ChatGPT生成在输电线路巡检过程中可能发生的对话,利用这些巡检图像的标题和检测信息。最终,作者这一阶段的数据集包含了总共10万个样本,为训练和评估Power-LLaVA模型提供了坚实的基础。

随后,作者在计算成本较低的情况下采用两阶段训练策略来训练Power-LLaVA。在第一阶段,仅优化投影模块以对齐视觉嵌入与LLM的词嵌入。在第二阶段,使用指令遵循数据集更新投影模块和LLM。完成两阶段训练后,作者的Power-LLaVA在PowerQA基准上取得了86.79%的准确率,该基准由1千个由GPT-4V生成的样本组成,并经过人工检查,作为评估LMM在巡检能力方面的全面衡量。Power-LLaVA的性能极具竞争力,即使与GPT-4V和Qwen等其他最先进的LMM相比也毫不逊色。

总之,作者的贡献有三方面:

  • 作者提出了Power-LLaVA,这是首个基于LMM的电力输电线路智能视觉-语言助手。
  • 作者构建了一个专门针对电力线路巡检任务的大规模、高质量数据集。
  • 作者开发了PowerQA基准,它可以全面评估模型在电力场景中的理解和感知能力。

2 Related Works

大型多模态模型 大型语言模型(LLM)的成功吸引了众多研究兴趣,催生了一条研究线路,专注于通过整合其他模态来扩展LLM的感知能力。Flamingo 就是这一点的例证,它通过结合预训练的视觉编码器和预训练的大型语言模型,展示了显著的多模态上下文学习能力。同样,MiniGPT-4 [13]通过特征对齐和指令调优的预训练,也展现了卓越的对话能力。另一方面,LLaVA [12]通过使用轻量级的线性层进行跨模态的特征对齐,以可承受的训练成本实现了卓越的性能。进一步的研究,如ShareGPT4V [16]和SVIT ,也证明了训练数据对大型多模态模型的重要性。

图2:作者的模型概述。最初,视觉编码器处理输入图像并提取其特征作为视觉嵌入。这些嵌入通过投影模块与LLM的词嵌入对齐。随后,LLM模块以统一的方式处理来自图像的视觉嵌入和来自文本的词嵌入,最终生成文本回应。

同时,将LLM应用于专业领域也引起了大量的学术兴趣。BioMedGPT-LM [21]通过编码和对齐,将分子、蛋白质和自然语言的特征空间统一起来,因此在生物医学问答任务中取得了与人类相当的性能。此外,DocPedia [22]通过直接从频域提取视觉特征,而非像素空间,实现了强大的文档理解能力。FengWu [23]在全球中程天气预报方面表现卓越,这得益于基于ERA5再分析的39年训练数据和一个跨模态融合 Transformer 。

输电线路巡检 利用先进的深度学习技术,在输电线路巡检领域取得了实质性进展。张等人 [24] 引入了多尺度融合特征对齐(MSFA)模块和多尺度一致性正则化(MSCR)模块,以增强Faster R-CNN [26]在该领域的能力。CSSdet [25]通过融合空间和跨尺度注意力机制,在外来目标检测方面表现出了卓越的性能。万等人 [30] 利用可变形卷积和挤压与激励(SE)块,从而增强了R-FCN [29]在图像中利用细粒度上下文的能力。刘等人 [27] 提出了一种算法,通过在特征图上聚合空间和通道信息,提高了YOLOX-S [28]的整体学习能力并增加了检测精度。然而,当前方法在泛化和智能方面仍面临困难,导致在复杂应用场景中性能不佳。

3 Method

在本节中,作者将系统地阐述作者电力传输线路检测框架的实现,该框架称为Power-LLaVA。首先,作者全面介绍Power-LLaVA模型的架构描述。接着,作者提出一种有效的流程,能够半自动地生成高质量数据集。最后,作者提供了Power-LLaVA的训练策略,该策略包括两个阶段的训练过程。

Model Architecture

如图2所示,作者的Power-LLaVA模型包括三个模块:一个预训练的视觉编码器,一个轻量级投影模块,以及一个预训练的大语言模型。给定一张图像,视觉编码器首先生成视觉嵌入。随后,通过投影模块将这些嵌入与LLM的词嵌入对齐,形成图像 Token ,具体如下:

同时,人类提供的文本指令通过分词器处理以生成文本 Token 。图像 Token 和文本 Token 随后被拼接在一起,作为输入传递给LLM,以生成文本响应:

Dataset Construction

图3:作者提出的数据集构建流程。对于从现实世界电力传输线路场景中获取的每张图像,作者利用最先进的视觉-语言(VL)模型和检测模型分别为每张图像标注四个标题和目标检测标签。基于人工标注者提供的标题、目标检测标签和模板,作者使用ChatGPT生成用于指令调整的专业高质量数据集。

特征对齐数据集 首先,作者构建了一个用于模型预训练的图像-文本对数据集。这通过收集20,000张描绘现实世界电力传输线路场景的图像,并使用先进的视觉-语言(VL)模型和检测模型对这些原始图像进行简短描述和目标检测标签的标注来实现。具体来说,作者使用VisualGLM [12]、InternLM-XComposer-VL [8]、Qwen-VL-Chat [9]和ShareGPT4V [16]生成标题,而Co-DETR [31]作为检测器。因此,作者生成了50K个电力传输线路场景的图像-文本对。指令调整数据集 受LLaVA [12]的启发,作者开发了一种高效的数据生成方法,以创建如图3所示的专业高质量数据集。鉴于指令调整所需的数据需要更细粒度的信息和多样性,作者采用ChatGPT来增强通过上述过程产生的数据。为了增加多样性,作者生成了三种对话数据类型:_详细描述_、_长对话_和_复杂推理_。详细描述类型的数据样本包含一轮对话,主要是关于图像的问题和相应的详细描述。长对话样本包括人类关于图像的多轮互动,助手提供答案,仿佛在观察图像。复杂推理数据关注于需要关于视觉内容推理的样本。

此外,作者为每种数据类型构建了100个对话模板作为种子样本。利用ChatGPT强大的上下文学习能力,通过引导ChatGPT使用随机选择的种子样本和适当的提示,可以生成这三种数据类型的大规模数据集。因此,作者获得了一个包含总共100K个样本的专业数据集,其中包括22K个详细描述、45K个对话和33K个复杂推理样本。

Training Objective

Power-LLaVA 是通过对在第3.2节中生成的对话数据集上进行标准的类似GPT的训练来进行优化的。具体来说,所有数据都被重新格式化为遵循指令的方式,将所有问题和答案分别视为来自人类指令和助手回应。在包含T轮对话中的第个指令定义为

其中是当前对话中给定的图像,是第轮的问题。

Training Strategy

作者采用两阶段训练策略优化作者的Power-LLaVA,包括初始的预训练阶段和随后的指令调整阶段。

第一阶段:特征对齐的预训练 这一阶段旨在将视觉嵌入与LLM的词嵌入对齐。在这个阶段,仅训练投影模块,而视觉编码器和LLM模块保持冻结状态。这种配置使得投影模块能够在显著降低训练成本的同时,达到最优的对齐性能。在此阶段,仅使用图像-文本配对数据进行训练,这些数据被重新构建为单轮对话。为了保持作者助手的泛化能力,作者还混合了由LLaVA发布的558K样本与作者生成的数据。

第二阶段:指令调整 在第二阶段,作者保持视觉编码器的参数冻结,并继续以端到端方法优化投影模块和LLM模块的预训练权重。在第二阶段,作者使用了上述构建的遵循指令的数据集。

4 Experiments

Evaluation Benchmark

表1:不同模型在PowerQA数据集上的准确度。Power-LLaVA在相对较低的训练成本下表现出色。

为了全面评估Power-LLaVA在输电线路巡检任务中的能力,作者提出了一个由GPT-4V辅助的PowerQA评估基准。该基准通过在PowerQA数据集上采用零样本测试方法,为将作者的模型与其他高级LMMs进行比较提供了度量标准。

最初,作者指导GPT-4V根据实际的输电线路巡检场景图像,从不同角度生成相关的问题和答案。这些角度包括电气设备的功能性、电缆附近的潜在危险、设备周围环境等方面。作者将这些问题和答案对构建为多项选择题,每个问题提供两个到四个选项。作者的PowerQA数据集总共包含1000个样本。此外,为了减少GPT-4V生成的问题样本中可能出现的脏数据,如选项模糊、图像误解和问题重复,所有样本都经过手动精炼。这种人工干预对于评估基准的完整性和质量至关重要。

被评估的模型被指示直接从提供的候选选项中为每个问题选择一个答案。模型生成的答案与参考选项相匹配的被视为正确。作者使用准确度作为评价的标准度量。

Setup

为了初始化模型,作者采用了预训练的ViT-L/14[10]作为视觉编码器,并使用vicuna-7B[11]作为大型语言模型(LLM)模块。此外,为了在复杂性与有效性之间达到最佳平衡,作者使用一个随机初始化的线性层作为投影模块。

在预训练过程中,作者将学习率设置为2e-4,并为每个GPU分配一个4的批处理大小。在指令微调阶段,作者将每个GPU的学习率和批处理大小调整为2e-5和2。在两个训练阶段中,作者都采用了Adamw优化器、余弦学习率调度器和float16混合精度策略。所有实验均在16个V100 GPU上进行。

Main Results

Power-LLaVA及其他竞争模型在PowerQA基准测试上的表现进行了评估,这些模型的比较分析结果如表1所示。结果显示,Power-LLaVA在PowerQA基准测试上取得了最佳性能,超过了其他先进的LMM模型,如GPT-4V、InternLM-XComposer-VL和Qwen-VL-Chat在回应准确性方面的表现。这表明作者的Power-LLaVA在电力传输线路巡检领域具有卓越的性能。

为了提供更全面的评估,作者在图4中包含了需要深刻理解和推理能力的挑战性示例。如图4所示,Power-LLaVA不仅能够专业地解读图像和指令,还能展现出深入的推理能力,这对于实际应用至关重要。

值得注意的是,与其他LMM模型相比,Power-LLaVA显著减少了训练数据和计算资源的需求。尽管LLM候选模型的数据规模至少达到500万,但Power-LLaVA仅需要708K。尽管Qwen-VL-Chat的性能仅略低于作者的Power-LLaVA,但其数据规模却是Power-LLaVA的五个数量级。总的来说,Power-LLaVA在相对较低的训练成本下展现了卓越的性能。

Ablation Studies

在这一部分,作者进行了一系列的消融研究,以剖析作者方法中关键组件的贡献,包括用于训练的数据集规模、数据集的组成以及两阶段训练策略。

数据规模对模型性能的影响 如图5所示,当数据集规模小于40K时,准确度分数迅速上升,然后在60K时逐渐趋于平稳。因此,为了平衡性能和训练成本,作者将最终数据集规模设定为100K。

利用专业数据进行预训练的重要性 作者在两阶段训练过程中使用作者的专业数据集进行预训练。为了评估其重要性,作者将此方法与使用开源数据集的LLaVA预训练进行了比较。如图5所示,与作者的专业预训练方法相比,LLaVA的预训练在电力领域的性能较差,平均准确度提高了大约10%。作者假设这种性能差距可能是由于LLaVA使用的数据集与作者的目标场景之间存在不可忽视的领域差距。

表2:不同训练数据在PowerQA上的准确度。

不同类型的数据 作者通过在训练过程中一次排除一种数据类型来检查作者调整数据集中各种数据类型的影响。如表2所示,排除任何三种数据类型中的任何一种都会导致模型性能明显下降,这表明这三种数据类型都非常重要。此外,属于复杂推理的数据似乎重要性最小,而对话数据最为关键。

5 结论

作者提出了Power-LLaVA,这是第一个专为输电线路巡检设计的大型语言和视觉助手。该框架将预训练的视觉编码器与大型语言模型相结合,通过有效的两阶段训练策略,提高了巡检能力。

此外,作者构建了该领域的第一个专业数据集和综合性基准。至于局限性,作者尚未通过扩大模型容量或数据规模来证实作者方法的有效性。

参考

[1].Power-LLaVA: Large Language and Vision Assistant.

0 人点赞