当前信息技术已经进入人机物融合、万物智能互联的阶段,人工智能作为引领新一轮科技革命和产业变革的重要战略性技术,成为各行业数字化重构的神兵利器。与我们生活息息相关的诸如智能家居、智能汽车、智慧手机等等终端设备的“智”化发展都离不开 AI 技术的支撑。
在移动终端设备中,人们日益攀升的通信、娱乐、办公、出行等体验优化需求,驱动着智能手机的不断迭代。如今“一部手机走天下”的愿景已经逐渐照进现实,而 AI 凭借着巨大的发展潜力,以及对行业多边应用的推动力,将成为用户体验提升的关键技术,一个新的创新感知时代已经来临。
聚焦 AI 创想的无限可能,国内手机大厂 vivo 基于用户体验需求以及对智能终端行业敏锐的感知,向大众展示了软硬兼具的实力与美好蓝图。
深耕 AI,蓄力前行
自 2017 年起,vivo 便开始组建 AI 全球研究院,凭借着“希望帮助所有消费者享受科技带来的美好生活”的初心,不断攻克技术壁垒、扩充团队规模,下沉技术深度的同时,也在探索并布局应用的多维度发展。
vivo 高级副总裁施玉坚在 2022 vivo 开发者大会上表示,“我们坚持用户导向,从用户的视角出发,穿着用户的鞋子在企业里奔跑,坚持设计驱动,通过设计驱动完成用户导向的落地,并通过不设上限的持续研发投入,拓展消费电子行业人文与科技的边界。”
当 AI 重新定义世界,vivo 也在开拓边界。经过 5 年多的努力,今天的 vivo AI 全球研究院已经有超过 1000 名 AI 工程师,在算法、数据、算力方面建立了全面的技术能力,全方位赋能了 vivo 的核心业务,覆盖手机、互联网、营销等领域。
AI 打造 1001 个便利
基于“AI 打造优质体验”的技术驱动,vivo 希望依托 OriginOS 能力,以用户使用手机的多元化场景为载体,致力于为用户打造“1001 个便利”,让科技照亮美好未来。
截至目前,OriginOS AI 已经实现了 500 多个功能,涉及诸如娱乐时听歌识曲、AI 字幕翻译、屏幕朗读,生活中提醒充电、取快递,拍照时 AI 感知引擎让颜色识别更准确、清晰出片,工作时拍摄电脑屏幕消除摩尔纹,出行时自动弹出乘车码通知等等使用场景,为用户提供无处不在的惊喜。
vivo 不仅为普通用户提供便利,为特殊人群也打造了诸多便捷功能。例如,针对听障人士的日常沟通需求,vivo 整合了核心 AI 技术,联合中国听力医学发展基金会发布了“声声有息”公益计划,推出“无障碍通话”“vivo 听说”及“声音识别”等功能,为听障人士搭建沟通的桥梁,营造更友好的信息无障碍社会环境。
vivo 坚持以用户为导向,持续发力技术创新,用有温度的科技,让每个人都能享受科技进步带来的快乐,用科技去照亮美好未来。
- AI 感知引擎:通过 AI 计算摄影技术让手机能够像专业摄影师一样理解世界,通过智能的白加黑减和白平衡算法,使得纯色场景能够做到精准还原。
- 琥珀扫描:运用文档图像处理和 OCR 文字识别技术,让手机化身为便携扫描仪,办公学习更加高效。
- 朗读屏幕:基于 vivo 自研的个性化语音合成系统,研发出的丰富多元的合成声音,解放双手双眼,为用户打造流畅舒适的阅读新体验。
- 翻译机:支持二十多个主流语种的互译,跨语言沟通不再有障碍,让用户生活学习随心自由。
- Jovi 输入法 Pro:自研拼音、语音、手写三大输入法 AI 内核,和 OS 深度结合,为用户提供安全、高效的输入体验
- Jovi 语音助手:智能生活助理,用户通过可以通过与手机的语音指令交互,解放双手,一句话搞定各种复杂操作。
- vivo 手语识别虚拟人:既能流利地通过手语进行表达,还能快速识别手语,帮助听障人士与他人顺畅沟通。
- ……
强大技术原力,创造用户惊喜
便捷的服务、高效的体验往往需要强大的技术原力作为支撑。
图像是日常生活中 AI 最常用的场景之一,我们拍照首先要拍得清,vivo AI 通过自主研发的文档图像处理引擎与 OCR 文字识别技术的核心算法,实现了囊括文档扫描、实况文本、表格识别、试卷去手写&算式批改等在内的多重功能。
- 文档图像处理引擎:可以对文档进行自动裁剪矫正以及超清修复,帮助用户更便捷、更清晰的记录好文档。一方面通过优化检测、分割以及边缘线精修三个模块来共同提升检测框的精度,同时,通过叠加光流跟踪模块,进一步提升了检测框的稳定性。优化后的检测框做到了既准又稳,用户在拍摄时可以享受一拍即得。此外,通过叠加全局超清模块,不仅有效提升了文档的色彩表现力,还能让文字更加清晰和锐利,用户一键即可自动完成之前需要多次操作才能完成的任务。通过超清修复,近距离拍屏幕可以去除摩尔纹,开会拍 PPT 能去除人头遮挡。
- OCR 文字识别引擎:能够帮助用户智能识别图片中的文字,即便是褶皱弯曲的手写字也能做到准确快速的识别。在视觉模型的基础上叠加了语言模型进行融合识别,进一步提升了模糊、手写等低质量图像场景下的识别准确率。同时,由于算法都是运行在手机本地不需要传输网络,不仅使得体验不受网络稳定性影响,还更好的保障了用户的数据隐私安全。当想要将书稿文字快速录入笔记时,只需调起相机扫描就可以将文字实时上屏,不管是书稿还是手写稿都可以做到又快又准,高效提取。
把图像拍清之后,下一步就是要把图像拍好,因此 vivo 团队自 2018 年起便持续在 AI 计算摄影方面专注投入。今年,vivo 携手蔡司基于 AI 计算摄影能力,从“智能白加黑减技术”和“智能白平衡技术”入手,还原极致色彩,让拍摄充满惊喜。
- 智能白加黑减技术:vivo 在行业内首次解决了“白加黑减”场景下曝光不准确的问题。抛弃传统十八度中性灰曝光方法中的测光假设,通过对画面内所有区域进行观察取值,基于深度神经网络模型估计最优曝光参数。曝光准确率超过行业竞品 20%。
- 智能白平衡技术:抛弃了传统白平衡算法中的“灰世界”假设,考虑到亚洲人色彩恒常性的视觉特点,以及拍摄场景,从地域、光源、场景等多个维度构建丰富的色彩数据集。再基于人工智能模型去实际学习人眼看到的色彩,从而获得更准确的白平衡参数。相对于行业竞品,色彩精准度提升 13%。
除了图像处理之外,语音处理也是 AI 的另一个重要使用场景。vivo 的 AI 语音技术包括语音合成技术以及语音识别技术, 基于自研的语音合成系统,vivo 持续地研发出了丰富多元的合成声音,实现了多音色、多风格以及多情感的合成技术。通过端到端建模、AI 降噪以及场景化语言模型等方式,克服了口音、噪音和专业领域等导致的识别错误,极大提升了语音识别的准确性。
面对日益丰富的国际交流和文化碰撞,vivo 通过机器翻译技术助力用户突破语言障碍。针对翻译的重点人群、高频场景、便捷入口均设计了产品方案,助力高效解决翻译需求。
此外,Jovi 语音助手自推出以来,一直围绕着便利的技能、丰富的知识、贴心的闲聊三个方向不断提升。目前 Jovi 语音助手已经支持超过 100 个场景垂类,超过 600 种用户请求意图,很好地满足用户在快捷操作、信息获取、情感陪伴方面的需求。目前手机端日活已经超过 1000 万,每个月小 v 都会和用户产生 18 亿次对话,回答 2 亿个问题。
当然,AI 带来的便利远不止这些,vivo 多年来深耕于手机使用典型场景的普适性和通用性,在智能终端行业内牵头实现应用升级与迭代,反哺着行业创新发展,共同打造极致的用户体验。
坚持用户导向,科技照亮美好未来 http://mpvideo.qpic.cn/0bc3aeaaaaaaneaew2llmvrvaaodaaaqaaaa.f10002.mp4?dis_k=78b7dae7e09a9b322b8bcb2cf19979c8&dis_t=1670639146&vid=wxv_2657238708139638785&format_id=10002&support_redirect=0&mmversion=false
在人文关怀方面,经过不懈的研发创新,vivo 实现了手语到文本再到语音的流畅互译,推出了手机行业首个具备手语识别能力的虚拟人。目前的算法已经可以识别 1200 个手语词汇,准确率在 80% 以上,已经达到汉语四级的理解水平,同时在手语表达方面,目前覆盖了国家手语通用词典超过 8000 个词汇。AI 手语虚拟人既能流利的通过手语进行表达,还能快速识别手语看懂手语,帮助听障人士更便捷地获取信息,更高效地与人沟通。
理念牵引,实干专注。发展多年,vivo 始终深耕于科技行业,并向大众展示了一系列布局与探索:vivo 影像战略发布,打赢了手机摄影之战;开启自研芯片之路,向世界展示了 vivo 敢于向技术深水区迈进的决心;坚持长期主义,重视核心科技研发,更是 vivo 长久、健康发展的“形象标签”。
畅想未来,vivo 将 AI 技术作为又一个研发重点:一方面 vivo 将在计算摄影、文档扫描、语音技术、语义技术、机器翻译、计算加速平台、vivo 开发者平台 AI 专区七大方向持续发力;另一方面 vivo 计划逐步开放这些领先的 AI 能力,携手行业伙伴合作共创,比肩为消费者打造极致的体验,更是展现了手机行业巨头的格局担当。在这条鲜有前人的道路上与开发者们同行,为 5 亿多全球 vivo 用户以及更多消费者提供方方面面、无处不在的惊喜与激动人心的体验,打造“1001 个便利”。
走出方寸天地,拥抱行业变幻。如何满足用户体验,技术可以下沉到何种程度,手机产品如何在激烈的市场竞争中抢得关键先机?我们看到,vivo 一一给出了最优解。正如施玉坚所说,“我们坚持从用户的真实需求出发,不断创新和优化产品、以人文理念思考解决方案,努力成为更强大、更值得信赖的平台。”
科技带来美好生活,未来的 vivo 将成就怎样的自身以及行业,让我们拭目以待。