软件测试|教你用Python处理PDF文件（一）

前言

我们在工作中，难免会遇到需要处理PDF文件的情况，PDF文件与Word文件不同，内容提取不是很容易，表格和图片都需要特别处理。不过PDF有一个优势，PDF可以跨平台使用，Windows系统，Mac系统都可以打开PDF文件，不像doc文件，需要在word或者类似的软件中才能打开。

但是PDF文件的内容复制并不方便，要是能够使用Python将内容取出来的话，就会很舒服了！本文就来给大家介绍一下Python处理PDF文件的方法。

环境与资源准备

Python有一个非常优秀的处理PDF的第三方库——PyPDF2，这是一个开源免费的库，用于处理PDF文件，能够实现对PDF文件的分离、合并、裁剪、转换、加密、解密等操作。

安装如下：

代码语言：text复制

pip install PyPDF2

资源准备

我们创建了一个PDF文件，文件名为test.pdf，文件第一页内容为拜仁慕尼黑，第二页主要内容为两张图片，第三页主要内容为一个表格。

提取PDF文本内容

在我们获取PDF文件内容前，我们需要先获取一下PDF文件的基本信息，比如页数和页面文本等。代码如下：

代码语言：python代码运行次数：0复制

from PyPDF2 import PdfReader

reader = PdfReader("test.pdf")

# 总页数
number_of_pages = len(reader.pages)

# 第一页
page = reader.pages[0]
text = page.extract_text()
print(text)

--------------------------
输出内容如下：
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑  
 
拜仁慕尼黑

PDF文件合并

同样地，我们也可以实现两个PDF文件的合并，代码如下：

代码语言：python代码运行次数：0复制

import os
from PyPDF2 import PdfMerger

# pdf文件存放路径
src_path = 'files'

# 将待拼接的pdf文件以绝对路径的形式放在一个列表里
pdf_list = [f for f in os.listdir(src_path) if f.endswith('.pdf')]
pdf_list = [os.path.join(src_path, filename) for filename in pdf_list]

pdf_merger = PdfMerger()
for pdf in pdf_list:
    pdf_merger.append(pdf, import_outline=False)

pdf_merger.write("merged.pdf")

运行代码之后，我们就可以看到文件夹中多了一个merged.pdf文件，文件包含了合并的PDF文件的内容。

添加水印

如果我们想要为PDF文件添加水印，可以用于防伪等方面，那也是可以使用Python来实现的，代码如下：

代码语言：python代码运行次数：0复制

from PyPDF2 import PdfWriter, PdfReader

# 读取作为水印的pdf
watermark = PdfReader("files/mark.pdf")

# 待加水印的pdf
reader = PdfReader("files/test.pdf")
page = reader.pages[0]

# watermark.pdf的第一页作为水印
page.merge_page(watermark.pages[0])

writer = PdfWriter()
writer.add_page(page)

# 保存成新的pdf
with open("output.pdf", "wb") as fp:
    writer.write(fp)

生成的PDF文件内容如下：

总结

本文主要介绍了使用Python读取PDF文件以及合并多个PDF文件，为PDF文件添加水印功能的实现，后续我们将为大家介绍为PDF加密与解密的操作。

自动化测试 python

0 人点赞