背景
最近时间,收到一个小需求,一个PDF文件需要转成WORD表格文档,通过最简单的Ctrl C和Ctrl V操作将这个表格复制到新的WORD文档里,结果粘贴下来的只有文本内容,如下图所示。
但既然咱们是做技术的,当然不可能手工复制粘贴了,于是有了这样一个想法使用个程序可以一劳永逸解决类似的一系列转换问题。
方案对比
将PDF转换为DOCX可以通过许多在线工具和软件来实现,例如:
- Adobe Acrobat:Adobe Acrobat是一款功能强大的PDF编辑软件,可用于将PDF转换为DOCX格式。
- SmallPDF:SmallPDF是一个在线工具,可以轻松地将PDF文件转换为DOCX文件。
- Zamzar:Zamzar是一个在线文件转换工具,可以将PDF文件转换为DOCX格式。
- Nitro PDF to Word Converter:Nitro PDF to Word Converter是一种软件,可将PDF文件转换为DOCX格式。
- Free Online OCR:Free Online OCR是一个在线OCR工具,可以将扫描的PDF文件转换为DOCX格式。
- pdf2docx:第三方Python库,使用方便及灵活。
使用这些工具之前,您需要先确保您的PDF文档没有加密或受到其他限制,以便进行转换。
本文介绍Python中如何把PDF转Word,推荐使用Python库pdf2docx。目前还在断断续续的开发和改进中,欢迎使用和提issue。
介绍
pdf2docx是一种将PDF文档转换为Microsoft Word文档格式(.docx)的软件或工具。这种转换可以使用户更方便地编辑和修改PDF文档的内容,同时保留原始文档的格式和布局。
安装
pdf2docx支持Windows和Linux平台,要求Python版本>=3.6。
使用pip3命令安装。
代码语言:javascript复制pip3 install pdf2docx
1、代码实例
用法也很简单,核心方法是Converter方法
代码语言:javascript复制from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf' # pdf路径
docx_file = 'path/to/sample.docx' # docx路径
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # 默认参数start=0, end=None
cv.close()
2、命令使用
如果大家对Python代码不熟悉,也可以使用命令行的方式转换,需要在电脑中提前打开终端程序。
代码语言:javascript复制python pdf2word.py --pdf_file pdf文件路径example.pdf --docx_file 输出word文件的路径example.docx
心得
重复机械的事情可以让程序替代完成,掌握一门编程语言,可以让日常工作提升效率很大。
另外,pdf2docx转一些不太复杂的PDF文件问题不大,但是一些超级复杂的表格PDF转出来布局上会有一些展示问题。