【教程】PaddleOCR高精度文字识别

2024-05-28 21:01:30 浏览数 (2)

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~

PaddleOCR/doc/doc_ch/quickstart.md at main · PaddlePaddle/PaddleOCR · GitHub

PP-OCR是PaddleOCR自研的实用的超轻量OCR系统。在实现前沿算法的基础上,考虑精度与速度的平衡,进行模型瘦身和深度优化,使其尽可能满足产业落地需求。该系统包含文本检测和文本识别两个阶段,其中文本检测算法选用DB,文本识别算法选用CRNN,并在检测和识别模块之间添加文本方向分类器,以应对不同方向的文本识别。当前模块为PP-OCRv3,在PP-OCRv2的基础上,针对检测模型和识别模型,进行了共计9个方面的升级,进一步提升了模型效果。

光学字符识别 (OCR) 是指将文本图像转换为机器可读文本格式的流程。例如,如果您扫描一个表单或收据,则计算机会将扫描保存为图像文件。您无法使用文本编辑器对图像文件中的文字进行编辑、搜索或计数。但是,您可以使用 OCR 将图像转换为文本文档并将内容存储为文本数据。

安装

代码语言:javascript复制
pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
pip install "paddleocr>=2.0.1"

使用

代码语言:javascript复制
from paddleocr import PaddleOCR, draw_ocr

ocr = PaddleOCR()
img_path = 'PaddleOCR/doc/imgs/11.jpg'
result = ocr.ocr(img_path, cls=False)
print(result )

效果

0 人点赞