文字识别界的“拍立得”?抛开低效办公,彻底提高你的工作效率

2021-10-09 17:51:30 浏览数 (1)

朋友小君是一家创业公司老板,最近这段时间总是抱怨自己公司每天要处理的文件又多又杂,员工工作效率因此被拖慢了不少。

想要将大量的纸质文件录入电脑,一般通过扫描仪可以完成,不过并不是所有的扫描仪都支持OCR功能,再者扫描仪的扫描时间相当漫长,需要扫描的文件页数少还能接受,一旦页数多,浪费的时间就很可怕了。

其实各行各业面临的此类问题也不在少数,销售行业收集了一堆名片却要一个一个录入信息;快递公司每天要花费很多时间登记录入运单,降低效率;各大APP的实名认证需要审核……这些都需要OCR文字识别技术。

文字是人们传递信息和知识的重要方式,进入人工智能时代,文字识别应用的重要性更加凸显出来,不论是学术界还是工业界,文字识别就像是一片深邃又迷人的海洋,它具有广阔探索空间,有无数未知的宝藏等待挖掘。

读懂OCR文字识别技术

OCR,光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

文字识别OCR概念的产生应该是在1929年,德国的科学家Tausheck首先提出了OCR的概念,并且申请了专利。几年后,美国科学家Handel也提出了利用技术对文字进行识别的想法,但这种梦想直到计算机的诞生才变成了现实。

一个OCR文字技术处理过程一般分为五个步骤:输入、图像预处理、文字检测、文本识别、输出。

图像预处理主要是对图像中的成像问题进行修正,包括几何变换、畸变校正、图像增强、灰度化等等,以方便图像中的文字更好的识别。

文字检测、文本识别顾名思义就是对图片中的文字内容进行辨别的过程,通过文本所处的位置、范围、布局、数量等,对选定的文本内容进行识别,并将图像中的字符转化为可供人类和计算机识别的文本信息。

近期iPhone 13系列发售,出厂自带iOS 15系统,iOS 15 中实用性最强、体验最惊艳的功能莫过于「实况文本」,也就是文字识别技术,轻轻松松就能实现照片中文本的提取和和快速应用。

无论是相机正在拍摄的画面、已经拍好的照片,还是屏幕截图、网页图片,整个系统中的照片都能够通点击后时显示文字,支持复制、粘贴、查找及翻译。

目前「实况文本」支持英语、中文(繁体简体均可)、法语、意大利语、德语、西班牙语、葡萄牙语 7 种语言,可跨 iPhone、iPad、Mac 操作。

OCR文字识别面临诸多难点

我国在OCR技术方面的研究工作起步较晚,在70年代才开始对汉字、数字、英文字母及符号的识别进行研究,到1986年汉字识别的研究进入一个实质性的阶段。

OCR文字识别技术改变着我们的生活,但在应用过程中也发现越来越多的问题。

1、手写体识别效率低

OCR文字识别技术分为印刷体识别和手写体识别,目前印刷体OCR的识别技术已经达到可以实用的程度,即使对印刷质量较差的文字的识别率也达到95%以上。

由于手写体OCR技术的限制,专业型OCR系统的产品多是面向特定的行业,识别的字符集相对小,又经常与专用的输入设备结合使用,所以普及范围很窄,即便很多产品有类似技术,但效率也低。

2、汽车证件反光

汽车证件的识别工作主要针对的是驾驶证、行驶证以及车牌,比如在停车场、收费站的时候不需要进行人工登记,进行OCR识别就可以了。

这类证件外表会包有一层镀膜,拍照时会有反光现象,这就需要OCR识别具有高动态、标准的归一化过程,需要将识别部分归一成比较一致的图像。

3、卡证、票据磨损严重

发票以及身份证、银行卡、护照等卡证是OCR文字识别最常见的应用场景,问题在于在使用过程中这些证件都会有不同程度的磨损,发票种类多、发票的字体有时也会非常不清楚,同时识别的时候还会产生透视畸变。

OCR文字识别用传统方法在应对复杂图文场景的文字识别时显得力不从心,越来越多人开始把精力放在研究如何把文字在复杂场景识别出来,也就是场景文本识别。

腾讯云文字识别OCR

腾讯文字识别基于腾讯优图实验室世界领先的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。

腾讯OCR文字识别支持身份证、名片等卡证类和票据类、汽车相关、行业文档、营业执照核验等印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。

1、准确性高

腾讯云文字识别OCR可自动从图片中定位并识别字段,印刷体的平均准确率可达90%以上,手写体的识别平均准确率高达85%以上,鲁棒性强。

2、稳定性强

腾讯云的身份证识别、名片识别、营业执照识别服务已成功应用于微众银行、QQ、广点通等腾讯内部核心业务,接受过海量用户和复杂场景的考验,各项反馈良好。

3、适用性高

依托腾讯优图自研的OCR技术,涵盖了整个证件检测识别框架的所有核心算法,支持横向、竖向拍摄,适应透视畸变、光照不均、部分遮挡的情况,具备非常高的复杂环境可用性。

4、简单易用

腾讯云文字识别OCR除了可直接调用的全面的 API 接口,还提供了丰富多样的 SDK 供开发者使用,服务使用简单便捷,兼容性强。

5、应用广泛

腾讯云文字识别OCR 提供手写体和印刷体的识别,除各类标准化的卡证识别外,也提供定制化的OCR识别,如各类票据或运单等的个性化识别,满足多样化的场景应用需要。

0 人点赞