使用Python提取PDF文件里的内容

2019-05-24 16:41:01 浏览数 (1)

PDF文件,是我们工作和学习中经常见到的文件。阅读体验非常好。 常用的Python操作PDF文件的第三方库,包含pyPdf、pyPdf2、pyPdf3、pyPdf4、pdfrw。

这次主要用pyPdf2来提取PDF文件属性信息,如:文件名、标题、作者、PDF创建者、页数。

一、安装

下面是如何用pip安装PyPDF2:

代码语言:javascript复制
$ pip install pypdf2

安装非常快,因为PyPDF2没有任何依赖关系。现在让我们继续学习如何从PDF中提取一些信息。

二、提取内容

你可以使用PyPDF2从PDF中提取元数据和一些文本。当你对现有PDF文件执行某些类型的自动化时,这将非常有用。

让我们用PDF编写一些代码,学习如何访问这些属性:

代码语言:javascript复制
from PyPDF2 import PdfFileReader

def extract_info(pdf_path):

    with open(pdf_path,'rb') as f:

        pdf = PdfFileReader(f)
        information = pdf.getDocumentInfo()
        number_of_pages = pdf.getNumPages()

    txt = f"""
    Information about {pdf_path}: 

    Author: {information.author}
    Creator: {information.creator}
    Producer: {information.producer}
    Subject: {information.subject}
    Title: {information.title}
    Number of pages: {number_of_pages}
    """

    print(txt)
    return information

如果觉得内容还不错,分享给更多朋友,一起提升编程技能。

0 人点赞