Transformers 4.37 中文文档（八十九）

原文：huggingface.co/docs/transformers

LayoutLMv3

原文链接：huggingface.co/docs/transformers/v4.37.2/en/model_doc/layoutlmv3

概述

LayoutLMv3 模型由 Yupan Huang、Tengchao Lv、Lei Cui、Yutong Lu、Furu Wei 在LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking中提出。LayoutLMv3 通过使用补丁嵌入（如 ViT 中的方式）简化了 LayoutLMv2，并在 3 个目标上对模型进行了预训练：掩码语言建模（MLM）、掩码图像建模（MIM）和单词-补丁对齐（WPA）。

论文摘要如下：

自监督预训练技术在文档 AI 领域取得了显著进展。大多数多模态预训练模型使用掩码语言建模目标来学习文本模态上的双向表示，但它们在图像模态的预训练目标上有所不同。这种差异增加了多模态表示学习的难度。在本文中，我们提出了 LayoutLMv3，用于为文档 AI 预训练多模态 Transformers，统一文本和图像掩码。此外，LayoutLMv3 还使用了单词-补丁对齐目标进行预训练，通过预测文本单词的相应图像补丁是否被掩码来学习跨模态对齐。简单的统一架构和训练目标使 LayoutLMv3 成为文本中心和图像中心文档 AI 任务的通用预训练模型。实验结果表明，LayoutLMv3 不仅在文本中心任务（如表单理解、收据理解和文档视觉问答）中取得了最先进的性能，而且在图像中心任务（如文档图像分类和文档布局分析）中也取得了最先进的性能。

LayoutLMv3 架构。摘自原始论文。

该模型由nielsr贡献。该模型的 TensorFlow 版本由chriskoo、tokec和lre添加。原始代码可以在这里找到。

使用提示

在数据处理方面，LayoutLMv3 与其前身 LayoutLMv2 相同，只是：
- 图像需要调整大小并使用常规 RGB 格式的通道进行归一化。另一方面，LayoutLMv2 在内部对图像进行归一化，并期望通道以 BGR 格式提供。
- 文本使用字节对编码（BPE）进行标记化，而不是 WordPiece。由于数据预处理中的这些差异，可以使用 LayoutLMv3Processor，它内部结合了 LayoutLMv3ImageProcessor（用于图像模态）和 LayoutLMv3Tokenizer/LayoutLMv3TokenizerFast（用于文本模态）来为模型准备所有数据。
关于 LayoutLMv3Processor 的使用，我们参考其前身的使用指南。

资源

Hugging Face 官方和社区（

模型配置索引字符串 token

0 人点赞