【docker】PDF编辑、使用神器 | Stirling-PDF的部署与使用

本文发布于150天前，最后更新于139天前，其中的信息可能有所发展或是发生改变。

1. 简介

有的时候我们需要编辑PDF，但不得不说能处理PDF文件的软件真的很少。因为夜梦最近在弄一些文章，需要处理一些PDF文件，所以就找到了这么一个开源项目Stirling-PDF。试用了一下，真的十分方便！合并、拆分、加水印、加密码、加权限都可以轻松完成！

GitHub：Stirling-Tools/Stirling-PDF

部分功能如下图：

2. 准备

在开始部署之前，你需要安装 docker 和 docker-compose。具体安装见：【docker】在服务器上安装 docker/docker-compose

3. 部署

3.1 基础配置

创建文件夹：

代码语言：javascript复制

mkdir -p /root/data/docker_data/pdf
cd /root/data/docker_data/pdf

创建配置文件：

代码语言：javascript复制

vim docker-compose.yml

英文输入法下按 i 进入编辑模式后，在这个配置文件的最后加入：

代码语言：javascript复制

version: '3.3'

services:
  stirling-pdf:
    image: frooodle/s-pdf:latest
    restart: always
    container_name: stirling-pdf
    ports:
      - '18996:8080'
    volumes:
      - ./data/trainingData:/usr/share/tessdata
      - ./data/extraConfigs:/configs
      - ./data/customFiles:/customFiles/
      - ./data/logs:/logs/
    environment:
      - DOCKER_ENABLE_SECURITY=false
      - INSTALL_BOOK_AND_ADVANCED_HTML_OPS=false

按 esc 后，输入:wq 保存退出。

运行：

代码语言：javascript复制

docker-compose up -d

3.2 配置OCR

官方在这篇文章里面介绍了如何添加其他语言的OCR功能（包括docker内和docker外）。

OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched.

OCRmyPDF可以轻松地将图像处理和OCR应用于现有PDF。通过向PDF文件添加OCR文本层，你可以搜索或复制粘贴它们。

相关项目：

OCRmyPDF：Stirling-PDF使用OCRmyPDF进行文字识别，而OCRmyPDF又使用tesseract进行文本识别。
Tesseract OCR：支持不同语言的识别。此为高准确度识别包地址。

下载简体中文的训练识别包：

代码语言：javascript复制

cd /root/data/docker_data/pdf/data/trainingData && wget https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata

修改权限：

代码语言：javascript复制

sudo chown :1000 chi_sim.traineddata # 修改用户组为1000
sudo chmod 755 chi_sim.traineddata # 修改权限为-rwxr-xr-x

然后就可以在OCR识别里面看到中文简体的识别方式了：

4. 反向代理

你需要完成反向代理并开启 SSL，具体为你的域名 -> 服务器IP：18996，反代可以参考下面两篇文章：

【docker】反向代理神器 ——Nginx Proxy Manager 的安装

【docker】Nginx Proxy Manager 的使用

5. 使用

访问你的域名或者是IP：18996就可以进入编辑器（工具箱）了：

可以修改默认语言，这里直接就可以选简体中文

选择完毕，拥有中文界面~（不用管右下角那个蓝色的东西，那是夜梦上传图片用的小软件）

啥都能干，超级好用！

pdf 部署反向代理配置权限

0 人点赞