文档解析测评工具中表格指标的意义
TextIn发布了文档解析测评工具,https://github.com/intsig/markdown_tester ,定量测评文档解析还原的效果。
本文来解析其中的表格指标部分。
表格解析的重点
为何表格是解析任务中的重点?
在语料源头,含表格的文档相当普遍。论文、年报、财报、行业报告、法律文件及企业文档等文件类型中,表格往往包含重要且精密的数据或信息。表格解析在知识库搭建及RAG(Retrieval-Augmented Generation)系统建设等应用场景中至关重要。
表格解析对RAG系统性能提升的贡献:
- 信息召回的精度与准确性:表格数据包含丰富的结构化信息(如日期、金额),通过高效的表格解析技术,可以将这些信息以易于处理的格式呈现,提升信息召回率和准确性。
- 处理复杂文档的能力:专业文档中往往包含复杂表格及视觉元素,表格解析能力有助于RAG系统处理这些复杂结构,提供深入内容分析。
- 增强上下文理解,改善答案生成质量:如在财务报告中,表格数据与文本描述相结合,可提供全面的业务洞察,并生成准确、相关及全面的回答。
算法开发对表格解析的关注
表格多样性和复杂性的问题:表格样式的复杂多变,包含无线表、合并单元格、跨页表格、超密集表格、不规则表单及单元格内多行文字的还原等,增加了解析难度。扫描模糊或倾斜、手写内容等因素进一步提高了解析的复杂性。
优秀表格解析效果的标准
直接观感:
- 单元格内容识别准确。
- 表格整体无错行、漏行、错误合并或拆分。
定量计算标准:
- 表格文本全对率:定义为文本全对的表格个数除以总表格个数。其含义为解析出的表格中每个单元格文本是否与原始表格完全一致。该指标严苛,表格中有一个单元格有误即判为出错。因此结果可能偏低。但高标准的文本全对率是解析质量保障,尤其在金融、经济报告或论文数据中,任何数字误差都会对结论产生重大干扰。
- 表格结构树状编辑距离:定义为所有表格树编辑距离分数之和除以总表格数量。测评中,表格结构以树状形式表现,编辑距离概念源自机器翻译,指给定两个字符串,需经过最少次插入、删除、替换操作使其完全一致。树状编辑距离将对比对象从字符串转为逻辑树,操作对象由字符变为树的节点,包括节点增删改操作。计算树的编辑距离即求从一棵树转换为另一棵树所需的最少编辑操作次数。
在表格解析评估中,如果解析引擎提供的表格结构与实际结构完全一致,则表格结构树状编辑距离为0,即得满分100。该指标得分越高,意味着表格结构还原度越好,错误如错行、漏行或合并单元格问题越少。
- 表格树状编辑距离的定义:
- 表格文本全对率:表示解析出的表格中每个单元格文本是否与原始表格完全一致。
- 表格结构树状编辑距离:评估表格结构还原的准确性。
- 表格树状编辑距离:综合以上两个指标,整体评估文本全对率与结构准确度,考虑了单元格的内容和表格的层次结构与布局。
表格树状编辑距离的定义如下:所有表格树编辑距离分数之和(包含文字)除以总表格数量。该指标结合了文本全对率与结构准确度,整合了测评表格解析结果的准确程度。
案例分析
通过几个案例,直观感受表格解析效果。 下图中,表格数据未能解析为各列一一对应的格式。如果大模型获得这样的解析结果,必然无法在此基础上提取准确的参数信息,无法建立正确的分析或回答。
对比来看,正确解析的表格在无框线、合并单元格的情况下,准确还原文本内容及各单元格结构关系,为RAG系统提供高质量的信息基础。