【docker】PDF编辑、使用神器 | Stirling-PDF的部署与使用

2024-08-20 19:17:50 浏览数 (1)

本文发布于150天前,最后更新于139天前,其中的信息可能有所发展或是发生改变。

1. 简介

有的时候我们需要编辑PDF,但不得不说能处理PDF文件的软件真的很少。因为夜梦最近在弄一些文章,需要处理一些PDF文件,所以就找到了这么一个开源项目Stirling-PDF。试用了一下,真的十分方便!合并、拆分、加水印、加密码、加权限都可以轻松完成!

GitHub:Stirling-Tools/Stirling-PDF

部分功能如下图:

2. 准备

在开始部署之前,你需要安装 docker 和 docker-compose。具体安装见:【docker】在服务器上安装 docker/docker-compose

3. 部署

3.1 基础配置

创建文件夹:

代码语言:javascript复制
mkdir -p /root/data/docker_data/pdf
cd /root/data/docker_data/pdf

创建配置文件:

代码语言:javascript复制
vim docker-compose.yml

英文输入法下按 i 进入编辑模式后,在这个配置文件的最后加入:

代码语言:javascript复制
version: '3.3'

services:
  stirling-pdf:
    image: frooodle/s-pdf:latest
    restart: always
    container_name: stirling-pdf
    ports:
      - '18996:8080'
    volumes:
      - ./data/trainingData:/usr/share/tessdata
      - ./data/extraConfigs:/configs
      - ./data/customFiles:/customFiles/
      - ./data/logs:/logs/
    environment:
      - DOCKER_ENABLE_SECURITY=false
      - INSTALL_BOOK_AND_ADVANCED_HTML_OPS=false

esc 后,输入:wq 保存退出。

运行:

代码语言:javascript复制
docker-compose up -d

3.2 配置OCR

官方在这篇文章里面介绍了如何添加其他语言的OCR功能(包括docker内和docker外)。

OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched.

OCRmyPDF可以轻松地将图像处理和OCR应用于现有PDF。通过向PDF文件添加OCR文本层,你可以搜索或复制粘贴它们。

相关项目:

  • OCRmyPDF:Stirling-PDF使用OCRmyPDF进行文字识别,而OCRmyPDF又使用tesseract进行文本识别。
  • Tesseract OCR:支持不同语言的识别。此为高准确度识别包地址。

下载简体中文的训练识别包:

代码语言:javascript复制
cd /root/data/docker_data/pdf/data/trainingData && wget https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata

修改权限:

代码语言:javascript复制
sudo chown :1000 chi_sim.traineddata # 修改用户组为1000
sudo chmod 755 chi_sim.traineddata # 修改权限为-rwxr-xr-x

然后就可以在OCR识别里面看到中文简体的识别方式了:

4. 反向代理

你需要完成反向代理并开启 SSL,具体为你的域名 -> 服务器IP:18996,反代可以参考下面两篇文章:

【docker】反向代理神器 ——Nginx Proxy Manager 的安装

【docker】Nginx Proxy Manager 的使用

5. 使用

访问你的域名或者是IP:18996就可以进入编辑器(工具箱)了:

可以修改默认语言,这里直接就可以选简体中文

选择完毕,拥有中文界面~(不用管右下角那个蓝色的东西,那是夜梦上传图片用的小软件)

啥都能干,超级好用!

0 人点赞