经过不断的技术优化和沉淀,百度大脑 AI 开放平台已经成为企业智能化升级道路上重要的技术支撑,通过百度智能云赋能各行各业实现产业智能化。本月EasyDL OCR 自训练平台全面开放,内置百度领先的 OCR 预训练模型,可快捷完成数据标注并批量生成虚拟数据,大幅扩充训练集,低成本零门槛定制专属的高精度 OCR 模型。
EasyDL 视频目标追踪全新发布,可通过定制目标追踪模型来识别视频流中的特定运动目标及其轨迹;在线语音合成臻品音库上线,高度拟人、流畅自然,已广泛应用于阅读听书等场景。
除此之外,本月还有16项重要产品能力升级和上新,下面跟随小编一起来快速了解百度大脑本月最新的 AI 技术产品动态。
重点抢先看
• EasyDL OCR 全面开放,零门槛定制高精度 OCR 模型
• EasyDL 视频目标追踪全新发布,零算法实现定制视频分析
• 在线语音合成臻品音库上线,让你的产品开口说话!
EasyDL OCR全面开放
零门槛定制高精度OCR模型
近年来,OCR 的识别能力不断突破,逐渐在更加复杂的数字化场景发挥作用,有效降低信息提取和录入的人力成本,帮助企业专注于上层业务应用。同时,业务中需要识别多种场景下不同样式的单据,OCR 模型的定制需求越来越广泛。
▲ 数字化需求广泛,各类细分场景 OCR 识别需求众多
EasyDL OCR 自训练平台应运而生,帮助企业/开发者快速低成本定制专属的 OCR 识别模型,平台内置百度领先的 OCR 预训练模型,无需算法基础,即可快捷完成数据标注并批量生成虚拟数据,大幅降低标注成本,训练产出的模型平均准确率可达90%以上。
- 智能预标注、虚拟数据生成,大幅降低数据成本
数据管理/查看/标注一体化,交互体验流畅、快捷;同时,结合智能检测识别技术,平台可对上传的图片进行智能预标注,开发者仅需核对修改即可完成标注,大幅度提升数据标注效率。
针对某些特定场景下数据积累较少,担心模型训练数据不足的问题,EasyDL OCR 提供了2大贴心又实用的神器—虚拟数据生成和数据扰动功能。
先感受下虚拟数据生成功能的“神奇”之处:
可基于一张标注图片批量生成成百上千张相同版式的虚拟图片,0成本快速扩充数据集规模,结合真实数据一同用作模型训练集。
另外,平台内置自动数据扰动功能,可基于原图进行缩放、模糊、旋转等处理,进一步扩充训练数据集的数量和场景多样性,提升产出模型的抗干扰能力。
- 高精度模型效果
EasyDL OCR 基于领先的预识别模型及百度自研实体检测算法,结合丰富的商业模型实践经验,沉淀出标准化训练流程,可简单高效地产出高精度 OCR 模型。
EasyDL OCR 广泛适用于各种固定版式、非固定版式的单据/票据/证照,例如:政府、企业审批流程中涉及到的各种证照文件(如食品/药品经营许可证、特种设备审批证),不同金融或税务机构发型的各类财务发票、银行单据,不同地区、不同医疗系统开具的医疗票据,各运输公司、货运平台出具的发货单/过磅单等等。
EasyDL OCR 现已全面开放,快来定制您的专属 OCR 模型吧:
https://ai.baidu.com/easydlocr
EasyDL
视频目标追踪全新发布
零算法实现定制视频分析
EasyDL 视频技术方向全新发布目标追踪模型,可通过定制目标追踪模型来识别视频流中的特定运动目标及其轨迹,该类模型可广泛应用于目标计数、人/动物轨迹分析和预测、智能交通监测等场景。
推荐应用场景:
- 目标计数:流水线上特定产品的数量统计;商场、旅游景点的人流统计等
- 智能化交通:人流、车流分析;行人运动轨迹预测;交通违规抓拍等
- 人/动物的轨迹分析:监控摄像下的行人可疑移动轨迹分析;养殖场动物移动轨迹监测等
应用示例:飞机轨迹跟踪
应用示例:牲畜行为分析
立即体验:
https://ai.baidu.com/easydl/app/12/1200/models
在线语音合成
臻品音库上线邀测
高度拟人、流畅自然
智能时代全面到来,如何让你的产品具备更流畅好听的声音?百度语音新增8个臻品音库,采用百度自主研发的并行 WaveRNN 合成技术,情感和韵律表现力大幅提升,合成语音情感饱满、高度拟人,为用户带来真人播报般的语音合成体验。支持 SDK、API 调用,手机 APP、智能硬件设备均可方便快捷地进行集成。
- 领先的技术优势
自主研发的并行 WaveRNN 合成技术,业内率先实现基于 RNN 神经声码器的大规模工业部署,优质的声音体验已应用于百度 APP、掌阅、七猫小说等产品。
- 支持多语言多音色
支持中文、中英文混读合成,提供磁性男声、甜美女声、可爱童声等风格多样的8种音库供您选择,让您的应用拥有个性化的声音。
- 方便快捷的集成方式
提供 REST API 接口,任何可发起网络请求的设备均可方便地进行合成;提供 Android、iOS SDK,轻巧简便,便于手机 APP、智能硬件快速集成。
适用场景:
百度大脑语音合成技术已经广泛应用于阅读听书、新闻播报、订单播报、语音导航等场景
立即体验:
https://ai.baidu.com/tech/speech/tts_online
更多产品升级和上新
- 增值税发票验真 【全新发布】
支持9类增值税发票的信息核验,包括专票、电子专票、普票等。对接国税平台查验,结果权威准确,支持返回票面的全部字段信息。
查看详情:
https://ai.baidu.com/tech/ocr/vat_invoice_verification
- 办公文档识别 【正式商用】
对各类办公文档的版面进行分析,输出图、表、标题、文本的位置和分版块内容的 OCR 识别结果,支持中、英两种语言,适配手写、印刷体混排场景。多规格“次数包”火热开售,单次调用低至0.06元。
查看详情:
https://ai.baidu.com/tech/ocr/doc_analysis_office
- 车牌识别 【模型升级】
针对旋转车牌、监控高拍、夜间等复杂场景进行专项模型优化,进一步提升车牌号码与颜色的综合识别精度,充分适应不同拍摄条件、不同外界环境。
立即体验 :
https://ai.baidu.com/tech/ocr_cars/plate
- 表格文字识别(同步接口) 【能力升级】
优化模型,提升合并单元格、单元格内多行文字等复杂表格的识别效果,结构化输出表头、表尾及每个单元格的文字内容。
了解详情 :
https://ai.baidu.com/tech/ocr_others/table
- 船票识别 【开放邀测】
结构化识别全国范围内不同版式的客运船票、货运船票,可识别发票代码、发票号码、发票日期、发票类型、总金额、出发地点、到达地点7个关键字段。
查看详情:
https://ai.baidu.com/tech/ocr/ferry_ticket
- 绘本图片搜索 【正式商用】
针对拍照搜童书场景专项优化算法,可精准检索各类儿童绘本、教材图片。适用于学习机、学习平板等设备“拍照搜书”场景,在书本图库中自动检索出对应的封面或书页,实现绘本跟读、教材讲解等功能。多档规格“次数包”火热开售,价格低至4元/千次。
查看详情:
https://ai.baidu.com/tech/imagesearch/picturebook
- 图像多主体检测【正式商用】
识别出图片中多个主体的位置和标签,方便裁剪出对应主体的区域,用于后续图像处理、图片分类打标签等场景。多档规格“次数包”火热开售,价格低至1.3元/千次。
立即体验 :
https://ai.baidu.com/tech/imagerecognition/object_detect
- 图像审核-暴恐识别【模型升级】
优化“警察部队、血腥、动物尸体、特殊服饰”等场景的识别效果,暴恐模型整体识别准召率提升5%以上,精准过滤各类暴恐违禁内容。
立即体验 :
https://ai.baidu.com/tech/imagecensoring
1. 飞桨企业版 - 零门槛 AI 开发平台 EasyDL
- EasyDL 零售行业版【能力升级】
新增商品陈列层数识别能力:定制商品检测服务 API 接口返回值中增加了 SKU 排位数和每层空位数的字段,可用于审核商品陈列顺序和货柜饱和度分析。
查看详情:
https://ai.baidu.com/easydl/app/1001/10010/models
2.飞桨 PaddlePaddle 开源深度学习平台
- 飞桨框架2.0正式版重磅发布,端到端的“基础设施”革新
飞桨发布2.0正式版,实现了一次跨时代的升级。
- 动态图模式成熟完备,已升级为飞桨默认开发模式;飞桨的系列开发套件全面支持动态图。官方动态图算法数量达到了270 ;API 体系全新升级,提供更适合低代码编程的高层 API;
- 新增支持了混合并行模式,实现对超大规模模型进行训练推出业内首个通用异构参数服务器架构,支持不同类型硬件混合异构训练,更高效利用硬件资源;
- 飞桨硬件生态持续繁荣,已经适配和正在适配的芯片或 IP 达到29款,处于业界领先地位。
查看详情:
https://mp.weixin.qq.com/s/UbMaJji3Mc_ienQ0OY36Ig
- 快来尝鲜!移动开发者实现 AI 业务的必选神器——飞桨移动端部署工具 LiteKit
百度飞桨发布移动端部署工具 LiteKit,LiteKit 以 SDK 的形式提供视频超分、人像分割、手势识别等一系列 AI 能力,同时能够让 AI 能力在任何 APP 中、任何场景下快速的工程化落地,让移动开发者轻松实现自己的 AI 特效。
其中,LiteKit 提供的视频超分是业内首次开放的能够达到 25FPS 的视频超分解决方案。在手机移动应用项目中最常见的是 360p 视频。LiteKit 支持从 360p 到 480p 场景下进行 25FPS 的超分。
除此以外,LiteKit 的视频超分能够对播放器解码后的 YUV420 视频帧数据直接进行处理,并获得相同格式的输出数据,消除了将视频帧数据进行数据格式转换的过程,大大方便了用户的使用,并降低使用耗时。
查看详情:
https://mp.weixin.qq.com/s/ftW2fOuSN4eYq8Y-JCOHvg
- 飞桨重磅推出可解释性算法库 InterpretDL,让你的模型不再是个“黑盒子”
飞桨推出了可解释性算法库 InterpretDL,用户可以调用其中的算法来让自己的模型“说人话”。
InterpretDL 是首个基于飞桨的可解释性算法库,当前0.2.0版本已经上线,对飞桨框架2.0动态图编程范式做到了全面支持。InterpretDL 共包含三类算法,分别是基于输入特征的算法、基于模型中间特征的算法和对训练数据解释的算法,并且可以支持对计算机视觉(CV)、自然语言处理(NLP)和结构化数据(Table)的模型进行解释。
查看详情:
https://mp.weixin.qq.com/s/Z1kX31r_REx67lJB3Y6iLw
- 图学习 分子表示学习,飞桨刷新药物分子性质预测榜单
百度飞桨凭借图学习框架 (PGL) 和生物计算平台螺旋桨(PaddleHelix),设计自监督学习任务学习化合物分子表示,登顶权威榜单 OGB 多项分子性质预测任务,在 AI 药物发现领域取得新的技术突破。
查看详情:
https://mp.weixin.qq.com/s/Dow69HDF0DZ8Rqf-jCUlUg
丰富的 AI 上下游产品聚集地,无缝对接买卖双方,撮合交流,快速应用。
- 优质服务商及商品持续入驻
陕西小青龙智能科技有限公司等多家优质服务商,在AI市场上线并售卖视觉软硬件产品,发布智慧商业、智慧社区等解决方案 ,性价比高,品质有保障。
查看详情:
https://aim.baidu.com/
部分新品展示:
- 陕西小青龙智能科技有限公司 - 一脸通食堂消费系统
立即购买:
https://aim.baidu.com/product/617f0df0-74db-47a7-abbc-9eb6adfc6be9
- 百度大脑 EdgeBoard 硬件自营店 - EdgeBoard-人体关键点软硬一体方案
立即咨询:
https://aim.baidu.com/product/f50a4089-b04a-4827-a1c0-87021c5ca2a8
- 防控手持终端 HJ-AI60-SC
飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个开源开放、技术领先、功能完备的产业级深度学习平台,包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件,持续开源核心能力,为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台,针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。
END