6月21日,腾讯云在2017「云 未来」峰会上推出了战略新品——智能云,宣布将腾讯积累近20年的AI能力向政府、企业和开发者开放,其中首批开放计算机视觉、智能语音识别、自然语言处理的三大核心能力。腾讯云技术社区将陆续推出系列文章,介绍普通开发者如何快速接入并使用这三大 AI 能力。
在峰会上,腾讯云总裁邱跃鹏提到:顺丰使用腾讯云开发的计算视觉能力,能在3小时识别2000万张快递手写运单。这背后的技术究竟是怎么实现的呢?
本文将以一张快递运单为例,为开发者介绍腾讯云开放的计算视觉能力——万象优图,是如何快速识别快递运单的。
1. 背景
随着电子商务的不断发展,线上线下商业模式已经密不可分,其中物流起着至关重要的作用。从商家到买家、从厂家到商家,都需要通过物流来完成。通过了解发现:一件商品从揽收到送达中间要经过多个环节,其中打包中转这一环节最为繁忙,也最为重要。为了提高该环节效率,需要更加快速的识别运单上的物流信息。万象优图的运单内容自动识别,将极大的促进了这一环节的稳定高效运作。
2. 万象优图运单识别
下面是一张常见的某快递单,其中收件人地址和收件人电话是非常关键的信息,物流中转完全依赖这两个信息的完整性。
传统的运单扫描都是靠人工肉眼识别的,成本高且效率低。因此探索人工智能是否可以自动扫描运单,具有非常大的意义。
下面将为您详细介绍万象优图运单识别的流程。
- 运单版式识别每个快递公司的运单都有不同的版式。通过大数据分析和深度学习训练,使用模式匹配方法,找出不同版式运单的特征。如下图所示,在已知版式的情况下,可以根据版式解析出图片中固定区域的内容。
- 字段定位
字段定位是针对收件人或寄件人的具体字段的区域检测,如电话号码、地址信息等。通过大量样本的训练,不断学习和适应各种运单中的版面变化、字体多样性变化、容忍各种噪声干扰等,最终训练得到准确性和稳定性非常强的字段定位的算法。字段定位效果示例如下图所示:
- 电话号码识别运单上的电话号码通常是指11位的手机号或者8位的固定电话,基本上都是以整行的方式出现。通过长期的积累和对该场景的深入分析研究,万象优图提供了一套业内先进的整行识别技术,无需切分单字,直接识别整行手写字符。
- 地址信息识别
针对地址场景,结合运单的具体需求,我们提供独创的地址信息识别方案。借鉴数字整行识别的方法,并针对省市区地址特征和手写文本特征,改进了识别网络,使其能够适应整行手写汉字的图像特点,并直接给出对应的省市区分类结果。整个地址识别流程简化成可以直接。