本文发布于150天前,最后更新于139天前,其中的信息可能有所发展或是发生改变。
1. 简介
有的时候我们需要编辑PDF,但不得不说能处理PDF文件的软件真的很少。因为夜梦最近在弄一些文章,需要处理一些PDF文件,所以就找到了这么一个开源项目Stirling-PDF。试用了一下,真的十分方便!合并、拆分、加水印、加密码、加权限都可以轻松完成!
GitHub:Stirling-Tools/Stirling-PDF
部分功能如下图:
2. 准备
在开始部署之前,你需要安装 docker 和 docker-compose。具体安装见:【docker】在服务器上安装 docker/docker-compose
3. 部署
3.1 基础配置
创建文件夹:
代码语言:javascript复制mkdir -p /root/data/docker_data/pdf
cd /root/data/docker_data/pdf
创建配置文件:
代码语言:javascript复制vim docker-compose.yml
英文输入法下按 i 进入编辑模式后,在这个配置文件的最后加入:
代码语言:javascript复制version: '3.3'
services:
stirling-pdf:
image: frooodle/s-pdf:latest
restart: always
container_name: stirling-pdf
ports:
- '18996:8080'
volumes:
- ./data/trainingData:/usr/share/tessdata
- ./data/extraConfigs:/configs
- ./data/customFiles:/customFiles/
- ./data/logs:/logs/
environment:
- DOCKER_ENABLE_SECURITY=false
- INSTALL_BOOK_AND_ADVANCED_HTML_OPS=false
按 esc
后,输入:wq
保存退出。
运行:
代码语言:javascript复制docker-compose up -d
3.2 配置OCR
官方在这篇文章里面介绍了如何添加其他语言的OCR功能(包括docker内和docker外)。
OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched.
OCRmyPDF可以轻松地将图像处理和OCR应用于现有PDF。通过向PDF文件添加OCR文本层,你可以搜索或复制粘贴它们。
相关项目:
- OCRmyPDF:Stirling-PDF使用OCRmyPDF进行文字识别,而OCRmyPDF又使用tesseract进行文本识别。
- Tesseract OCR:支持不同语言的识别。此为高准确度识别包地址。
下载简体中文的训练识别包:
代码语言:javascript复制cd /root/data/docker_data/pdf/data/trainingData && wget https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata
修改权限:
代码语言:javascript复制sudo chown :1000 chi_sim.traineddata # 修改用户组为1000
sudo chmod 755 chi_sim.traineddata # 修改权限为-rwxr-xr-x
然后就可以在OCR识别里面看到中文简体的识别方式了:
4. 反向代理
你需要完成反向代理并开启 SSL,具体为你的域名
-> 服务器IP:18996
,反代可以参考下面两篇文章:
【docker】反向代理神器 ——Nginx Proxy Manager 的安装
【docker】Nginx Proxy Manager 的使用
5. 使用
访问你的域名或者是IP:18996
就可以进入编辑器(工具箱)了:
可以修改默认语言,这里直接就可以选简体中文
选择完毕,拥有中文界面~(不用管右下角那个蓝色的东西,那是夜梦上传图片用的小软件)
啥都能干,超级好用!