【微软】【ICLR 2022】TAPEX：通过学习神经 SQL 执行器进行表预训练

重磅推荐专栏： 《Transformers自然语言处理系列教程》 手把手带你深入实践Transformers，轻松构建属于自己的NLP智能应用！

论文：https://arxiv.org/abs/2107.07653 代码：https://github.com/microsoft/Table-Pretraining

通过利用大规模非结构化文本数据，语言模型的研究取得了巨大的成功。然而，由于缺乏大规模、高质量的表格数据，对结构化表格数据进行预训练仍然是一个挑战。在本文中，作者提出TAPEX来证明表预训练可以通过在合成语料库上学习神经SQL执行器来实现，这是通过自动合成可执行的SQL查询及其执行输出来获得的。TAPEX通过指导语言模型在多样化、大规模和高质量的合成语料库上模拟SQL执行器，从而解决了数据稀缺性的挑战。作者在四个基准数据集上评估了TAPEX。实验结果表明，TAPEX比以前的表前训练方法有很大的优势，并且都取得了新的最先进的结果。

1. 概述

在本文中，作者提出了一种新的以执行查询为核心的表格预训练方法——TAPEX（TAble Pretraining via EXecution）。通过逼近表上的正式语言的结构推理过程，实现了高效的表预训练。结构性推理过程与表的可执行性相关联，即表本身就能够支持各种推理操作（例如，对表中的一列进行求和）。特别是，TAPEX通过对语言模型（LM）进行预训练来模拟表上的SQL执行引擎的行为，来近似SQL查询的结构性推理过程。

如图1-1所示，通过对表进行采样可执行的SQL查询，TAPEX首先合成了一个大规模的训练前语料库。然后，它继续预训练一个语言模型，以输出这些SQL查询的执行结果，这些查询从SQL执行引擎获得。由于SQL查询的多样性，可以很容易地合成一个多样化、大规模、高质量的训练前语料库。

2. 对下游任务的微调

模型整体是一个BART结构。如图2-1所示，输入包含一个NL句子及其相应的表。

编码NL句子相对简单，而编码表并不简单，因为它展示了底层结构。在实践中，作者将表压平成一个序列，以便将它可以直接输入到模型中。通过插入几个特殊的标记来表示表的边界，可以将一个扁平的表格表示为：

T^∗ = [HEAD], c_1, · · ·, c_N , [ROW], 1, r_1, [ROW], 2, r_2, · · ·, r_M

这里[HEAD]和[ROW]是特殊标记，分别表示表头和行的区域，[ROW]之后的数字用于表示行索引。注意：作者还使用“竖条|”在不同的列中分离标题或单元格。最后，作者在扁平表

T^∗

拼接上NL句子x作为前缀，并将它们输入模型编码器。

3. 通过执行器进行表格预训练

为了设计表的预训练的有效任务，作者认为关键在于表的可执行性。也就是说，结构化表使我们能够通过诸如SQL查询等编程语言对它们执行离散操作，而非结构化文本则不能。考虑到这一点，TAPEX采用SQL执行作为唯一的训练前任务。如图3-1所示，TAPEX的预训练与上述生成式微调的过程相似。

给定一个可执行的SQL查询和一个表T，TAPEX首先将SQL query 和打平的表

T^∗

连接起来，以馈入模型编码器。然后，它通过一个现成的SQL执行器（例如，MySQL）获得查询的执行结果，作为模型解码器的监督。直观地说，预训练过程是为了让一个语言模型成为一个神经SQL执行器。作者认为，如果一个语言模型可以预先训练，可靠地“执行”SQL查询并产生正确的结果，它应该对表有深入的理解。因此，执行预训练任务可以更有效地理解表和推理表。

4. 实践

你可以在

sql NLP服务

0 人点赞