之前我们发布了如何将pdf转为word,期间陆续收到了小伙伴的推荐。
如何将pdf转化为word
今天我们整理一下,是为2.0版本。
再次以《新冠肺炎诊疗方案(试行第七版)》为例,该文件为图片性pdf,文字不可复制。
1.smallpdf网站
网址为:https://smallpdf.com/cn
该网站提供了一应俱全的玩转pdf工具
该网站是收费的,每月5欧
优点有:
没有限制
桌面版应用
移除广告
让PDF文件协助您更高效地工作
PDF转Word 20种工具
批量处理
由于收费,我没有体验...
不过据小伙伴说,这是他已知转换质量最高的。感兴趣的可以试一下。
2.超级pdf网站
网址为:https://xpdf.net/pdf-to-word
需要先微信扫码关注公众号登录
它的优点是可以识别图片型pdf,且功能丰富
我们发现转换效果也很棒
3.pdf编辑器 Adobe Acrobat Pro
像所有的Adobe软件一样,强大的它拥有短暂免费试用时间。
打开文件后,依次选择“另存为其他—Word—Word文档”,等待转换。
效果还可以,就是中间空格比较多。
4.ABBYY
被称之为最强大的OCR软件
官网:https://www.abbyy.cn/finereader/
通过邮箱下载试用版
该试用版有30天是试用期,100页的试用页数
直接点击转换为word,并选择文件
保留了大部分原始格式
默认识别中文和英语
保留图片
保留页眉、页脚和页码
虽然也有空格,但这算是相对比较理想的一款了。
5.R
需要结合pdftools和tesseract两个R包,进行OCR提取
代码语言:javascript复制 pdf_ocr_text(
pdf, #file path or raw vector with pdf data
pages = NULL, #which pages of the pdf file to extract
opw = "", #string with owner password to open pdf
upw = "", #string with user password to open pdf
language = "eng", #passed to tesseract to specify the languge of the engine.
dpi = 600 #resolution to render image that is passed to tesseract::ocr
)
欢迎继续分享