前面的文章《3分钟读取、汇总300个pdf文件内容!多简单!多快!| PA实战应用》讲了如何提取PDF文件里的内容,但是,提取的方法很是简单粗暴,不管内容多少,全部提取。
但是,在日常工作中,对于很多pdf文件,我们实际上只需要提取其中部分页面的内容即可,这要怎么办呢?
以下,分2种常见情况进行说明,其中隐藏一些技巧,值得注意。
- 1 -
明确单页或范围
首先,如果是要提取的页面是明确的,比如明确的某一页(如第3页)或某一段页码范围(如第8-10页)等,非常简单,在提取PDF文件内容的步骤里进行简单设置即可:
1、取某一页(如第3页)
在“要提取的页面”中选择“单个”,“单个页码”中输入具体页码即可:
2、取某一段页码范围(如第8-10页
在“要提取的页面”中选择“范围”,并在“起始页码”和“结束页码”中分别输入相应的数值即可:
- 2 -
非连续多页
理论上来说,如果要提取的页码支持类似用逗号分隔的形式输入,那就能轻松解决这个问题,比如输入“2,4”代表要提取第2和4页。
但是,遗憾的是,Power Automate的“从PDF提取文本”功能并不支持这样的设置:
这种情况下,一种方法是预先设置一个列表,然后通过循环控制来提取多个页面的内容,但是,个人认为这种方法并非最佳方式,而是还有更加简便的方法:
先“将 PDF 页面提取到新的 PDF”,然后再从新的pdf文件中提取所有页面——因为“将 PDF 页面提取到新的 PDF”功能直接支持非连续页面的提取:
- 3 -
更加复杂的情况
以上是两种在提取PDF文件多页内容时常见的情况,此外,还有朋友提出了一种比较特别的情况:如对于多个PDF文件,统一不要最后的某几页。
比如,很多企业的pdf报告,前面包含数据的页面不固定,最后几页都是一些例行的备注说明,这样,我们要动态地去取前面的数据页面,最关键的是能获取到整个pdf报告的页数。
但是,目前Power Automate里却没有支持获取pdf文件页数的操作或方法,结果导致这个问题需要通过Power Automate自动调用第三方的工具来实现,比较复杂,我将在后面专文讲解,并有重要资源推荐给大家!