PDF文件,是我们工作和学习中经常见到的文件。阅读体验非常好。 常用的Python操作PDF文件的第三方库,包含pyPdf、pyPdf2、pyPdf3、pyPdf4、pdfrw。
这次主要用pyPdf2来提取PDF文件属性信息,如:文件名、标题、作者、PDF创建者、页数。
一、安装
下面是如何用pip安装PyPDF2:
代码语言:javascript复制$ pip install pypdf2
安装非常快,因为PyPDF2没有任何依赖关系。现在让我们继续学习如何从PDF中提取一些信息。
二、提取内容
你可以使用PyPDF2从PDF中提取元数据和一些文本。当你对现有PDF文件执行某些类型的自动化时,这将非常有用。
让我们用PDF编写一些代码,学习如何访问这些属性:
代码语言:javascript复制from PyPDF2 import PdfFileReader
def extract_info(pdf_path):
with open(pdf_path,'rb') as f:
pdf = PdfFileReader(f)
information = pdf.getDocumentInfo()
number_of_pages = pdf.getNumPages()
txt = f"""
Information about {pdf_path}:
Author: {information.author}
Creator: {information.creator}
Producer: {information.producer}
Subject: {information.subject}
Title: {information.title}
Number of pages: {number_of_pages}
"""
print(txt)
return information
如果觉得内容还不错,分享给更多朋友,一起提升编程技能。