POI系列之根据样式识别word内容和标题

2020-11-03 10:45:30 浏览数 (1)

业务场景:最近接到需求,想实现将一份word文档,其中特定的文本内容获取出来,首先想到两种方法,一种是通过OCR技术,一种是通过模板占位符。 虽然想起来好像是可以实现的,不过ocr技术自己要在短时间实现是不太现实的,要用第三方的会加重项目成本。然后思路是想通过先固定特定的模板,通过一些占位符技术去实现,想法可以,也有在一些付费的第三方应用里看到过,不过实现起来也没那么容易,特别是想要在一两天内实现,时间太紧促了,所以只能通过一种小技巧绕过,方法虽然可行,不过不是好的方法

这种方法是先约定模板,要筛选出来的文本固定一种特定的样式,然后通过通过程序识别出这种文本,还有一种方法是通过书签,不过网上搜到有第三方jar是要收费的,就不描述了

poi-ooxml是word文档需要的

代码语言:javascript复制
<properties>
   <poi.version>3.9</poi.version>
</properties>

<dependencies>
   <dependency>
       <groupId>org.apache.poi</groupId>
       <artifactId>poi</artifactId>
       <version>${poi.version}</version>
   </dependency>
   <dependency>
       <groupId>org.apache.poi</groupId>
       <artifactId>poi-ooxml</artifactId>
       <version>${poi.version}</version>
   </dependency>
</dependencies>
代码语言:javascript复制
import org.apache.poi.POIXMLDocument;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.model.StyleDescription;
import org.apache.poi.hwpf.model.StyleSheet;
import org.apache.poi.hwpf.usermodel.Paragraph;
import org.apache.poi.hwpf.usermodel.Range;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFParagraph;
import org.apache.poi.xwpf.usermodel.XWPFRun;

import java.io.*;
import java.util.List;

public class WordUtils {

    public static void main(String[] args) throws Exception {
        String filePath = "D://test.docx";
        printWord(filePath);
    }

    public static void printWord(String filePath) throws IOException {

        XWPFDocument document = new XWPFDocument(POIXMLDocument.openPackage(filePath));
        List<XWPFParagraph> paragraphs = document.getParagraphs();

        for (XWPFParagraph p : paragraphs) {
        	//获取段落中的句列表
            List<XWPFRun> runsLists = p.getRuns();
            for (XWPFRun runs : runsLists) {
            	//获取句的字体颜色
                String c = runs.getColor();
                //获取句中字的大小
                int f = runs.getFontSize();
                //获取文本内容
                String s = runs.getText(0);
                // 字体为16的黑色字体都筛选出来
                if (f == 16 && "000000".equals(c)) { 
                    System.out.println(s);
                }
            }
        }
    }
}

ps:本博客内容比较简单,只是自己做下记录,有时间再探讨一下实现,网上实现的很多都是付费的,不建议用本博客的方法,本博客只是自己做下笔记

0 人点赞