搜狗AI,正在抢滩智能手机

2019-04-24 15:08:22 浏览数 (1)

乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI

搜狗AI最近打出一组攻击波。

近期,先是在MegaFace百万级人脸识别竞赛中夺冠,接着又亮相了世界首个AI合成主播,在国内外引发大量关注。搜狗有AI,AI能力挺厉害,这些成果都是明证。

但也不乏好事者抬杠:有没有人人可用、大家看得见摸得着的AI?有,还不少。

除了AI加持搜索、输入法等自身主营业务,搜狗AI,还正在抢滩智能手机。这算是惠及人人的AI落地了。

抢滩智能手机

按照目前行业流行的说法,可以说这是AI 智能手机,也可以看作是AI深入产业,而且是蓬勃发展的手机产业。

搜狗在该领域的布局早已开始,他们在去年10月正式推出深智引擎平台,目前分三个板块:机器翻译图像识别与OCR智能问答与对话

不完全统计,使用vivo、锤子、小米、华为等品牌智能手机或智能音箱等硬件产品的用户,都多多多少少直接或者间接享受着搜狗提供的AI服务。

其中,vivo与搜狗的合作主要在机器翻译与OCR方面,锤子、小米主要在图像识别方面,华为则是聚焦在智能问答与对话领域。

机器翻译

比如,vivo最新旗舰机NEX的用户,在进行AR实景翻译和日韩小语种离线语音翻译等个性化翻译时,已感受到AI魅力。

这背后,便是搜狗的身影。

今年6月份,搜狗与vivo达成合作,为其提供AI支持的个性化翻译服务。

此次合作是国内首次实现在安卓平台上的视频流实时翻译。

经过深度优化,搜狗的AR实景翻译技术不仅能够自动适配各种性能的安卓手机硬件,视频流处理区域屏占比也达到了60%以上。

为了保证移动端上有更好的体验,搜狗还开发了一个移动端多目标跟踪及运动轨迹预测算法。据搜狗介绍,在这个算法的加持下,加速多目标跟踪的整体跟踪速度达到了100fps,这有力地保证了AR实景翻译的实时性。

搜狗在OCR组段分析、AR渲染、AR翻译融合动态跟踪等技术领域的进一步突破,也让AR翻译体验更加流畅便捷。

在此次合作中,还有一个容易被忽视的方面——离线翻译

通常,机器翻译都是在线的,能够使用的资源、数据库都是海量。但在离线情况下,因为资源和数据存储在本地,相对受限,翻译效果会大打折扣。

用一个比喻来说,在线与离线,就是“开卷考试”与“闭卷考试”。但是,搜狗翻译的在线和离线翻译结果的精度相差无几,它是怎么做到的?一共有三点:

第一,基于神经网络压缩技术,解决了在离线情况下常见的模型存储与识别精度下降的问题。

第二,搜狗机器翻译模型能力为离线的模型训练提供了知识提纯的基础,避免了学习杂乱无效的信息,增加额外负担。

第三,搜狗设计了小型的神经网络,针对不同的翻译场景进行训练,以确保离线翻译的更快速度与更精准结果。

机器翻译,一直都是搜狗的强项。借助自主研发的深度学习并行训练平台,搜狗能够高效利用海量的语料进行模型训练,推动翻译精准度达到国际领先水平。

最佳的例证,就是在去年的国际顶级机器翻译赛事WMT,搜狗一举斩获中英和英中机器翻译双向第一。

而且,围绕机器翻译,搜狗已经有了不少直接提供给用户使用的软件与硬件产品。比如搜狗翻译APP、搜狗旅行翻译宝等,都在市场上得到了认可。

现在,凝练于这些产品中的搜狗AI技术,伴随着搜狗深智引擎的不断完善,正在注入到每一个智能手机等移动设备之中。

图像识别与OCR

该项技术的合作如锤子和小米。

2017年,搜狗就在图像识别方面与锤子合作,一同为用户提供OneStep1.5“以图搜图”功能,只需要一步拖拽,就能够使用搜狗图片搜索快速查询相关信息。

前不久,搜狗又与小米合作,将其AI图像识别功能注入到了小米MIX 2S、6X、小米8三款手机中。

在小米的这些手机上,用户打开相机功能,切换至“智能识物”模式,对准需识别的物体拍摄,就可以快速识别出图片中的物体。点击“搜图”,就会跳转到搜狗图片的识图搜索页面,进行全网搜图。

图像识别,是搜狗搜索业务的自然延伸。据悉,搜狗图片搜索截至目前已积累了海量的图像训练数据,为图像搜索效果的提升奠定了坚实的基础。

而且,随着技术的不断完善,搜狗已经成功地将深度学习技术应用于图像识别整个系统中,并在特征学习、特征压缩、海量高维数据索引、近邻计算、细粒度分类环节进行了深度优化。

在进行整个图像搜索的过程中,搜狗也把技术覆盖到了用户搜索需求理解环节,智能化识别需求,以更好地提供用户想要的答案。

今年3月底,搜狗AI刷新了图像识别国际顶级赛事Pascal VOC挑战赛的最佳成绩,创造了最新记录,就是这些努力的一个佐证。

在OCR方面,据搜狗介绍,OCR深度学习检测与识别模型的训练,是基于大规模数据集训练出来的。不仅避免了传统算法步骤繁琐、错误叠加的问题,还能够将这项技术适用于多角度、多尺寸、多语种、多种风格的文字识别场景。

此外,针对移动端计算设备特点,搜狗不仅优化设计了适用于移动端的结构模型,还基于CPU&GPU底层计算单元进行了统筹开发,使其能力在移动端设备上更好地展现了出来,在检测与识别模型上,实现了3倍加速。

智能问答与对话

在华为Mate 20 系列产品国内的发布会上,华为AI音箱首次登场,搜狗为其提供了智能问答服务。

和图像识别一样,搜狗研发问答技术,有天然的优势。

搜狗搜索,作为国内第二大搜索引擎,也是当前人们获取信息的重要手段。自2004年诞生以来,已经积累了百亿级中文网页索引量,有大规模高质量的问答数据可作技术研发支持。

但,数据只是基础,重要的是怎么充分利用这些数据。

如上图所示,智能问答的整个过程,至少包含三个步骤:用户意图分析,结构化知识和精准呈现答案。

在用户意图分析上,用户在使用搜狗搜索引擎时反复输入的信息与反馈,被充分利用了起来。而且,近年来搜狗在翻译APP及硬件上的探索,也丰富了人机交互技术的研究场景。

在结构化知识方面,挑战在于把庞杂的内容建立起关联网络,这对于搜狗来说并不是难事。据悉,搜狗知识图谱在国内最早提供大规模知识图谱搜索服务。

在手机这类移动设备上,用户对答案精确度的需求要远远高于在电脑设备上的需求。换句话说,用户要的是一个答案,而不是一堆答案。

搜狗方面表示,基于搜狗的知识图谱,搜狗的问答系统,已经能够在分析类问题、观点类问题、数字类问题等开放领域提供精确的答案了。

在搜狗搜索上,搜狗也推出了基于智能问答的服务“搜狗立知”。据悉,这个应用已经能够满足80%以上的用户问答需求,已达到业内最高水平。

同时,搜狗在智能问答技术方面并不只是“闭门造车”,还联合了业界及学术界主办技术大赛,提供大规模真实用户问答数据集,集“众智”来推动AI在问答方面的发展。

需要注意的是,这三个方面的技术能力并非各自独立,而是交叉融合。比如,在使用AI翻译服务的时候,也会用到图像识别与OCR方面的技术、也会应用到智能问答与对话方面的服务。

“智能”手机新标准

搜狗AI抢滩智能手机,可能只是一个新时代的缩影。

因为,现在俨然已经到了一个发布新手机必谈AI的时代。经历了十年爆发式增长,智能手机市场已经饱和,增长乏力,亟待新技术新革命。

AI作为近年来的当红炸子鸡,成了各大手机厂商提高用户体验、实现差异化,以及提高竞争力的新法宝。在手机厂商的新品发布会上,AI所占的“权重”越来越大,甚至成了主角。

有一些激进的观点更是认为,没有AI加持的手机,已不能称得上是智能手机。

检验智能手机是否智能的核心标准,在于AI。

但是,手机厂商需致力于“专攻”硬件产品的工业设计等方面。这种情况下,再抽出精力,同时发展AI技术难免会心有余而力有不足。再加上,人工智能技术的研发需要庞大的数据做基础支撑,这也成为手机厂商发展AI的一个不小阻力。于是,在赋予手机AI能力的时候,“合作”可谓水到渠成。

而如此一来,智能手机的供应链上,搜狗一样的AI技术方案提供商,开始越来越重要。

随着搜狗AI技术的开放,智能手机厂商无需“重新发明轮子”,可以直接快速获取相关的优势,将精力聚焦在硬件设计与用户体验提升上,从而推动智能手机行业更好的向前发展。

同样,对AI的应用与落地来说,智能手机是一个非常好的终端,不仅使用频繁,承载着大量的使用场景,而且还有针对性。从智能手机场景中反馈过来的数据,将会反哺搜狗,推动搜狗在AI技术上实现进一步的提升。

堪称双赢。

此外,更有意思的是,之前凭借智能手机发展壮大的搜狗,如今一朝“反哺”,又成为了智能手机的AI赋能者。

这样的趋势可能才刚刚开始,这样的故事会越来越多。

你发现了吗?

0 人点赞