【技能分享】一行代码从PDF中提取表格

2021-11-30 13:28:19 浏览数 (5)

需求

我在技术交流群里发了这样一个PDF，并说了明天公布答案。

PDF里有很多有用的信息，这些信息都不怎么好直接拿来用。今天我就来分享一下怎么提取出这个PDF中的表格。

开搞

提取这个信息其实很简单，只需按照下图所示的代码就可以提取出里面的信息并存盘。

附上图中代码

代码语言：javascript复制

import tabula
#读取pdf数据，并取pdf中的第一个表格
df = tabula.read_pdf(r'C:UsersuYaoQiDesktoptst.pdf',pages='all')[0]
#不带索引写出表格到磁盘
df.to_excel(r'C:UsersuYaoQiDesktoptst.xlsx',index=None)

几行代码，简简单单！

写出的数据：

总结

提取过程没什么好说的，非常的简单！

只能说tabula这个库太强大了，这个需求如果用FME来做的话，也不是不行，只是不会有这么方便。

也许还有其他的方式来做类似的事情，但大概也不能比这个库更简单了。

pdf 表格

0 人点赞