Python批量识别发票

01.场景描述

这里有以四张发票为例（辰哥网上搜的），将发票图片放到pic文件夹下。

image

随便打开一张发票

image

提取目标：金额、名称、 纳税人识别号 、 开票人 。

image

最后将每一张发票的这四个内容保存到excel中：

image

02.准备环境

需要用到的库如下：

代码语言：txt复制

from PIL import Image as PI

代码语言：txt复制

import pyocr

代码语言：txt复制

import pyocr.builders

代码语言：txt复制

from cnocr import CnOcr

安装的命令如下：

代码语言：txt复制

pip install pyocr

代码语言：txt复制

pip install cnocr

发票中含有中文内容，我们需要对图片中的中文进行识别，那么 cnocr 是一个不错的选择。

提示：安装好上面的库之外，还需要安装额外的exe文件，不然会出现下面这种错误

image

需要安装的exe文件：

1. ImageMagick

2. tesseract-OCR

这两个软件的安装过程就不再赘述了，大家可以自行搜索教程进行安装。

03.提取内容

下面以其中一张图片为例，讲解如何提取目标内容：金额、名称、 纳税人识别号 、 开票人 。

image

读取图片： pic/pic1.jpg

代码语言：txt复制

tool = pyocr.get_available_tools()[0]

代码语言：txt复制

img_url = "pic/pic1.jpg"

代码语言：txt复制

with open(img_url, 'rb') as f:

代码语言：txt复制

    a = f.read()

代码语言：txt复制

new_img = PI.open(io.BytesIO(a))

1.提取金额

需要截取到发票中金额的位置

代码语言：txt复制

## 金额

代码语言：txt复制

left = 741

代码语言：txt复制

top = 420

代码语言：txt复制

right = 850

代码语言：txt复制

bottom = 445

代码语言：txt复制

image_text1 = new_img.crop((left, top, right, bottom))

代码语言：txt复制

#展示图片

代码语言：txt复制

image_text1.show()

这里的left、top、right、bottom的数值是通过 多次修改定位而来 。大家根据自己的发票内容去定位即可。

image

接着将 图片中的数字提取出来

image

同样的，下面继续提取：名称

2.提取名称

代码语言：txt复制

left = 155

代码语言：txt复制

top = 450

代码语言：txt复制

right = 450

代码语言：txt复制

bottom = 470

代码语言：txt复制

image_obj2 = new_img.crop((left, top, right, bottom))

代码语言：txt复制

image_obj2.show()

image

这里的名称是中文的，咱们不能再像提取金额（数字）操作。需要使用到cnocr去将图片中的中文取出。

代码语言：txt复制

image_obj2.save("tmp.jpg")

代码语言：txt复制

ocr = CnOcr()

代码语言：txt复制

res = ocr.ocr("tmp.jpg")

代码语言：txt复制

print("".join(res[0]))

image

3.提取纳税人识别号

代码语言：txt复制

#纳税人识别号

代码语言：txt复制

left = 155

代码语言：txt复制

top = 470

代码语言：txt复制

right = 450

代码语言：txt复制

bottom = 490

代码语言：txt复制

image_text3 = new_img.crop((left, top, right, bottom))

代码语言：txt复制

#展示图片

代码语言：txt复制

image_text3.show()

image

代码语言：txt复制

txt3 = tool.image_to_string(image_text3)

代码语言：txt复制

print(txt3)

将图片中的纳税人识别号提取出来，结果如下：

image

4.提取开票人

代码语言：txt复制

left = 528

代码语言：txt复制

top = 550

代码语言：txt复制

right = 670

代码语言：txt复制

bottom = 600

代码语言：txt复制

image_obj4 = new_img.crop((left, top, right, bottom))

代码语言：txt复制

image_obj4.show()

image

代码语言：txt复制

image_obj4.save("tmp.jpg")

代码语言：txt复制

ocr = CnOcr()

代码语言：txt复制

res = ocr.ocr("tmp.jpg")

代码语言：txt复制

print("".join(res[0]))

由于有中文，咱们这里同样和提取名称一样，使用cnocr将图片中的中文取出。

image

ok这样我们就将发票中的四个目标内容提取出来，接着将 文件夹pic 下的所有发票，进行识别将内容保存到excel。

04.批量识别发票并保存到excel

在读取图片之前，先将上面的四个操作封装成函数，方便每一种发票对象进行调用。

image

读取文件夹下的所有图片。

代码语言：txt复制

filePath = 'pic'

代码语言：txt复制

pic_name = []

代码语言：txt复制

for i,j,name in os.walk(filePath):

代码语言：txt复制

    pic_name = name

代码语言：txt复制

for i in pic_name:

代码语言：txt复制

    print(i)

image

开始进行识别，并将结果写入到excel中。

代码语言：txt复制

for i in pic_name:

代码语言：txt复制

    img_url = filePath "/" i

代码语言：txt复制

    with open(img_url, 'rb') as f:

代码语言：txt复制

        a = f.read()

代码语言：txt复制

    new_img = PI.open(io.BytesIO(a))

代码语言：txt复制

    ## 写入csv

代码语言：txt复制

    outws.cell(row=count, column=1, value=text2(new_img))

代码语言：txt复制

    outws.cell(row=count, column=2, value=text3(new_img))

代码语言：txt复制

    outws.cell(row=count, column=3, value=text1(new_img))

代码语言：txt复制

    outws.cell(row=count, column=4, value=text4(new_img))

代码语言：txt复制

    count = count   1

代码语言：txt复制

outwb.save("发票汇总-李运辰.xls")  # 保存结果

最后保存为：发票汇总-李运辰.xls，其结果如下：

image

05.发票验证真伪

在辰哥的交流群里，和小伙伴聊到这个内容时，小伙伴建议可以加一个功能： 发票验证真伪 。

image

所有在上面的开始识别之前（自己公司的发票可能不需要查验这步），先调用一下第三方的接口，对发票进行识别，识别通过之后再将其提取发票中目标内容。

1.申请百度AI应用

image

2.获取token

代码语言：txt复制

# client_id 为官网获取的AK， client_secret 为官网获取的SK

代码语言：txt复制

host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【官网获取的AK】&client_secret=【官网获取的SK】'

代码语言：txt复制

response = requests.get(host)

代码语言：txt复制

if response:

代码语言：txt复制

    print(response.json()['access_token']

这里的client_id 为官网获取的AK， client_secret 为官网获取的SK，是上面申请好应用即可获取

3.查验

image

咱以这张图片为例，进行查验

image

其中的发票类型对应如下：

image

结果如下：

image

感觉这个结果查询不是很好（不详细）。下面还可以去 税务局 查询

4.税务局查询发票

image

同样以这张图片为例，进行查验

image

填写好信息点击查验，结果如下：

image

再税务局查验更加清晰。读者可以根据自己的情况去选择自己的方式去查验。

费用中心

0 人点赞