日常办公场合中,除了常规的Excel、Word、PPT等文档外,还有一个不可忽略的文件格式是pdf格式,而对于想从pdf文件中获取信息时,常规方法将变得非常痛苦和麻烦。此篇给大家送一pdf文件提取信息大集合,几乎可涵盖日常pdf文件提取信息的所有场景。
业务场景
在日常工作中,为了保护数据免于被二次利用和为了在文件分发过程中,可以不受其他电脑因为软件版本不同等原因导致文件不能打开或打开格式版面大变形,将要分发的文件,无论是Excel、Word或PPT,转为pdf格式,是一个不错的主意。
在pdf文件中,可以按原样保留所有的信息和排版,用户无论什么版本的OFFICE甚至都不需要安装OFFICE软件,只需安装一个小小的PDF浏览器,即可完成文件的浏览。
但也正因为其简单和不可编辑性,导致需要提取里面的内容时,变得异常复杂。好一点的情形是在转换后,文件仍然保持文本格式,可以复制其中的文本出来。
但大量的pdf文件,仅靠手工去复制也是变得很不现实和效率低下。就算有专门的转换软件,不是需要付费就是只能转换一小部分内容或只能一次性转换一个文件,并且转换后的格式可能也会大变形。
在Excel催化剂的世界中,所有数据都是有利用的价值,包括纯图片的格式。如何能够快速、批量化地从非结构化的数据中提取到想要的信息,是十分考验技术水平的。
而Excel催化剂的初心就是为了将这个技术门槛不断地降低,最好能够降至所有普通Excel用户都能掌握。使用Excel催化剂的辅助,犹如化学反应中添加了催化剂一般,反应速度、性能提升百倍、千倍。
今天很高兴告诉大家,在处理pdf文件中,Excel催化剂能帮到大家很多很多。
实现功能
本想着一个个功能制作,并接连地发布出来,但后来想想,还是要有节制,让相同、相近的功能聚集一起,阅读时更有连贯性,同样也为了纪念第88波这样一个很有寓意的数字。
功能比较多,实现也比较简单,不作详尽展开,后期会做视频录制给大家更为直观和更易学习掌握。
功能入口
功能一:批量PDF转jpg
只需选定pdf文件的路径,即可将其批量转换为jpg格式,此处的转换是pdf文件中一页纸转换一张图片,多页转换多张,最后的图片有后缀递增序号来区分。
此场景可以更进一步保护pdf里的信息,或者用于图片OCR文本识别时的提取,例如上一波用到的百度AI接口可以识别图片文本信息,对于格式规范的如增值税发票、身份证等,提取出来的文本是结构化的文本,即可识别出对应的内容属于什么字段下的内容。
一般的人工智能OCR识别都需要先转换为图像才能调用接口来识别,没有现成的直接对pdf文件的识别。
pdf文件转换后为图片
功能二:批量提取文本
若pdf文件只是Excel、Word、PPT等文件简单另存为pdf格式时,pdf文件会保留着可复制文本的特性,若使用人工智能OCR接口识别不理想,可使用此功能进行直接文本的提取。
人工智能OCR接口一般来说是付费的,需联网的,准确性也没有那么传说和期待地那么高,如果pdf文件为文本型的,建议首先直接使用此提取文本功能,可离线操作,无次数限制,提取效率和性能也高。
例如这样一个WORD直接转换pdf的文件,适合直接提取文本
提取结果,细分到页码和页内行号等信息保留
功能三:批量提取内部图片
有时可能需要从pdf文件中提取其内部的图片文件,而非将整个pdf文件的一页转换为图片,此功能在此特别适用,可将pdf内保存的图片提取出来。
在pdf文档内有图片,只想提取图片
在一个pdf文件中,有多张图片在内时,使用页码数和图片序号区分。
图片提取出来后效果
功能四:批量提取内部表格数据
若pdf文档内含规范的表格数据,而最终仅仅想提取这个表格数据在Excel上进行再处理加工,可尝试使用提取表格功能。
pdf文件内部没有表格的概念,它不过是在一张大画布上按坐标位置画上内容而已,所以有可能提取的准确性有限。
下面以一个测试文件简单讲解下原理。见下图:
提取的pdf源文件
在一个pdf文件上有多个表格,需要手动选择哪个表格内容是要提取的。
在一个pdf文件上有多个表格,点上方列表后可浏览表格结构
此功能分单个文件的提取和多个文件提取两组,当使用多个文件提取时,请务必保证pdf文件的结构是一致的,如提取的表格都是从开头起的第几个表格。并且表格的字段名和字段位置和数量都是一致的,才能提取成功。
测试过程中,直接复制多个文件,肯定一致的文件表格结构
结语
在Excel催化剂的88波功能中,相信也可以一窥在Excel环境下的数据处理的灵活性和效率性之高。也可以看到,从数据到见解之间,是一条多么深的鸿沟,需要许多的技术才能填平这个鸿沟,顺利从原始数据走到我们需要的数据报表、数据洞察的位置。
很高兴,Excel催化剂一直在努力,不断地为大家输送高性能、强大威力的数据处理及分析的能力,让大家走得更轻松,更快地到达数据的终点。