DNSPod十问贾宇航:告别“人工智障”?训练数据厂商为AI正名

2021-11-15 10:11:38 浏览数 (1)

云测数据总经理,拥有多年To B企业服务市场研究经验。2015年成立Testin云测北美事业部,统筹海外市场及前沿技术研发。2017年创立AI数据采集标注事业部,为人工智能提供高质量、场景化的数据采集标注服务,专注解决人工智能落地训练数据需求。

人称奶罩,腾讯云中小企业中心总经理,DNSPod创始人,洋葱令牌创始人,网络安全专家,域名及DNS技术专家,知名个人站长,中欧国际工商学院EMBA。

1

吴洪声:你从什么时候开始接触AI?为什么后来会选择在AI数据这个细分领域钻研下去?

贾宇航:从最早的语音交互例如Siri,到后面引发整个市场探讨的AlphaGo,以及各种对未来人工智能的猜想,我一直都有在密切关注。

真正让我触动非常大的是一个美国的健康类人工智能产品ActiveProtective。它是一款能够随身佩戴的安全气囊,当3D动作传感器检测到佩戴者要跌倒,就会弹出一个气囊保护人的腰椎和胯骨。

ActiveProtective可穿戴智能气囊腰带(现更名为Tango)

以前我们看到的更多是人工智能去帮助人类减少重复性劳动,或代替人类完成一些危险的操作,ActiveProtective则增加了一种对人的关怀,通过技术能力提升人类的幸福感。从那时候开始,我坚信人工智能是一项非常了不起的技术,我愿意投身到这个行业去加快人工智能产品的落地。

选择AI训练数据这个细分赛道,一方面是因为与Testin云测最早的测试业务相匹配,测试运用到的项目管理思维和工具链管理,能够很好地适应现在数据采集和标注的业务形态;另一方面,我们已经做了十年的企业服务,积累了大量移动互联网和传统行业的企业用户,他们现在正好也要运用人工智能完成数字化转型。

2

吴洪声:2015年,你在Testin云测北美事业部,负责海外市场及前沿技术研发,对中美AI技术发展情况都有所了解。在你看来,中美AI技术之间的差距有多大?海外先进经验有哪些可以学习的内容?

贾宇航:从媒体报道的角度来说,中美人工智能在发展侧重点上有一些不同。以自动驾驶为例,欧美企业尤其是美国企业,会更偏向于端侧智能,基于端侧上的算力和感知结果进行独立判断;中国则更偏向于车联网,讲求万物互联的生态,强调车路协同的联合感知。在研究领域上,中国的应用场景更加广泛,并且伴随一系列政策支持,加速相关AI应用落地。

对于一个企业服务公司来说,我们更应该从生态的角度去学习海外经验。以Testin云测为例,我们的使命是助力产业智能化,在全球产业化升级浪潮中,通过为企业客户提供核心技术、产品工具和专业人才三位一体的综合服务,加速企业移动化、数字化、智能化转型升级,帮助产业提高运营效率、降低成本,提升产品质量,保障信息安全,为各行各业注入一剂新的增长动力。

云测北京房山办公区

3

吴洪声:数据、算力、算法可以说是驱动AI底层技术发展的“三驾马车”。云测数据是国内顶级的AI训练数据服务商,数据标注的最高准确率可达到99.99%。这么高的准确率是如何炼成的?这背后有怎样的支撑?

贾宇航:AI数据集是基于原始数据,将有价值的数据进行筛选、标注,才能够成为用于人工智能训练的数据集,打造出高质量的人工智能。

当前中国人工智能产业迈入商业化应用阶段,对场景化、精细化数据呈现出旺盛的需求。数据标注的高准确率是整个行业向前发展的要求,也是我们作为头部AI数据服务厂商需要以身作则的方向。我们的高准确率主要基于以下三个方面:

第一点,实力。首先,云测数据具备自主知识产品的全品类的高效标注平台,将每一个数据处理的需求做到了“流水线化”,达到了高效便捷的流转方式;其次,云测数据对产业赋能,提供了从平台自研、数据场景实验室建立、数据交付中心的建立、自身专业工作人员积累、高效的组织协同方式等的一体化服务,保证高质量的AI数据处理内容。

云测数据标注平台--多团队协作流程

第二点是能力,也就是多维度数据处理的能力。作为头部AI数据服务商,云测数据做到了视觉、语音、文本的全品类支撑,面对这三个维度的AI算法,数据的需求层次和维度也在发生变化,需要做到更高精度的支持。同时云测数据在工具中设置对应的辅助质检工具,在人工校验流程前根据所标注项目要求,引入相关查错规则,为数据精度提升设置保障。例如要标注一个行人,如果标注的物体高达3米,肯定不可能是行人。

云测数据标注(视觉)--OCR智能转录

云测数据标注(语音)--TTS智能转写

云测数据标注(文本)--NLP实体抽取

第三点是方案。云测数据在技术硬实力的深耕,以及对行业的理解和领域知识的积累,都是为了产业赋能。云测数据输出了智慧城市、智能家居、智能驾驶、智慧金融、AIoT等行业领域的训练数据服务解决方案,可加速更多AI相关应用场景更高质量地完成产业落地。

这些都离不开云测数据多年的努力和不断的技术投入。云测数据立足扎根市场的实践积累,进行前瞻业务布局与前沿技术能力探索,已经率先形成了“采、标、管、存”全链条的AI数据服务。与此同时,我们把服务客户、理解客户、引导客户作为出发点,基于自身业务能力,助力客户搭建对应的底座和基石。

所以最终云测数据在技术能力、服务水平、质量保证、效率优势、客户满意度等方面的综合实力构成了行业对我们的领先认可。

4

吴洪声:云测数据自主研发了一个名为「云测数据标注平台4.0」的数据处理平台,能够完成从数据采集到交付各角色任务的自动流转。你们为什么会研发这样一个平台?它能对人工智能发展起到什么作用?

贾宇航:我们做数据这块业务,本来就是奔着行业第一去的,因此我们的技术经验、交付能力、客户满意度、精度、规模等都必须做到最好,正所谓“工欲善其事必先利其器”,如果没有一个能够大规模高效协作的工作台,这些都是无法实现的。

云测数据数据标注平台(4.0版本) 为企业提供了处理大规模感知数据的能力,通过结构创新、智能化、工程化、标准化的标注平台产品赋能AI训练数据行业,可以从质量、效率等方面激发数据要素价值,加速AI技术的创新发展,进而推进AI产业的场景化落地。

在技术层面,云测数据标注平台具有多端数据支持、AI辅助质检、丰富标注工具支持、流程化高效化运转、企业流程深度融合、标注流程质量把控等优势,并支持快捷数据检索、数据版本管理、标注结果可视化等功能,可解决AI落地场景多样性、丰富性的数据需求,AI数据训练过程综合效率提升200%。

在工具层面,云测数据标注平台支持图像、文本、语音、视频以及点云等数据类型的一站式加工处理,拥有3D立体框、点云语义分割、特征点、线段、矩形框、曲线、平面立体框、多边形等业内所需类型的专业工具组件,可灵活满足不同的标注需求,配合算法模型进行数据处理落地,快速响应AI训练多样化需求。

云测数据标注工具--图像智能分割

云测数据算法辅助标注工具--点云智能贴合

通过云测数据标注平台的工具赋能,在为AI提供了企业处理大规模感知数据能力的同时,可以减少数据采集周期,提升数据标注效率,大幅降低AI模型训练成本;帮助企业在数据识别准确率提升上达到传统方式无法达到的高度,极大地加速了人工智能的落地迭代周期,节省大量研发时间和成本。

5

吴洪声:高质量的数据背后离不开一批优秀的数据标注师,但数据标注师的流动率非常高,并且在这个行业扎根多年、经验丰富的人才比较稀缺,你们如何解决这方面的问题?

贾宇航:我们主要从两个方面去解决流失的问题。

第一是降低一个人上手某个行业的门槛,通过岗前培训和工具链让数据标注变得简单,因此我们可以扩大开口,让更多的人快速适应岗位。

第二是自建一套绩效激励的管理体系,让我们的标注师具有一定梯度,不用每天重复劳动,而是基于自己的劳动成果,获得相应的激励,或者获得不同层面的提升。

6

吴洪声:现在各家大厂纷纷入局数据采集标注服务,腾讯云、阿里云、百度智能云等都推出了相关的解决方案。你们会对此感到有压力吗?

贾宇航:我们不会感到有压力,反而非常兴奋。

这些云厂商的入局说明了大家对AI数据行业的认可,越多人参与进来,这个市场就能越滚越大,对我们的影响肯定是积极的。

我们也在积极与大家进行生态合作的尝试。在上周的腾讯数字生态大会上,腾讯发布了自动驾驶云平台并公布了生态合作伙伴阵容,我们是其中唯一一家AI训练数据服务厂商。这次腾讯自动驾驶云和云测数据的合作,正是基于云测数据标注平台的领先技术能力。

就好比现在大火的“元宇宙”概念,背后依托于云计算技术,各大云厂商能够提供一片土壤,AI数据服务是这片土壤上的基建,我们期待有更多人能参与到底座建设中,让整个数字生态在上面生根发芽。

7

吴洪声:你们似乎把AI数据赛道里该有的服务都包揽了,包括数据采集、标注,还建了标注平台,这个赛道里还有哪些有待挖掘的机会?

贾宇航:大家一提到AI数据会先想到数据采集、清洗、标注,这些都是AI数据的生产环节。我们发现,很多企业已经可以生产数据,但却不知道如何高效地利用自己的数据。这时,数据管理的价值开始显现,往下延伸做整个数据的存储和管理成为大势所趋,我们也基于对此的前瞻,打造了一个AI数据集管理系统。

云测数据的AI数据集管理系统,可以通过算法的一次次迭代,去验证迭代的方向是否正确。举个例子,如果一家做自动驾驶视觉感知的企业发现,机器对于雪天的识别效果不好,那要如何针对性地对相关算法进行数据训练呢?这时候就可以通过数据管理系统中的标签功能,调动已有数据库中对应的雪天数据,快速完成数据抽取和验证,实现数据管理事半功倍的效果。

事实上,看了很多实际案例以后,我们发现,运用AI数据集管理系统的企业,其运转的节奏、迭代的周期都在加快,研发方式也从瀑布式开发向敏捷开发转变,实现了更高效的数据管理。这也是这套AI数据集管理系统存在的意义。

8

吴洪声:我了解到,你们推出了自动驾驶训练数据解决方案,可以一站式解决智能驾驶从研发初期到落地的训练数据需求。云测数据是腾讯自动驾驶云的生态合作伙伴,也服务多家头部智能汽车客户。基于你们的经验,训练自动驾驶AI的数据有哪些要求?

贾宇航:我们的智能驾驶解决方案分为三个部分,对应研发的三个不同阶段:

第一个阶段是算法预研期,验证算法能否成立,我们会提供云测数据版权的基础数据集,帮助企业完成预研。

第二个阶段是数据冷启动,基于整个算法对应的传感器和场景,通过数据的采集、清洗和标注,确保有一套数据能够用于算法的迭代和研发。云测数据场景实验室和标注基地有实力满足相应数据的精度和规模,提供定制化的采集标注服务

第三个阶段是产品上线,产品自身已经积累了一些在线生产的数据,我们会通过工具链 驻场服务的形式帮助企业进行数据采集、标注、管理一系列流程,帮助企业完成自身迭代。

提供服务于车企以及汽车行业解决方案的数据服务公司,我认为至少需要具备以下的三大能力:

第一,量要大。毕竟汽车真正去跑任何一个环境,面临的场景都是非常复杂的,因此数据量一定要足够大。

第二,垂直细分领域要多,要尽量覆盖各种不同的细分场景。

第三,要具备多维传感器融合的数据处理能力。什么是多维传感?例如当你开在一条公路上,眼前是一望无际的山脉和蓝天,这时前方出现了一辆天蓝色的汽车,仅靠视觉传感器是判断不出来的,需要加入毫米雷达波和激光雷达波,才能在3D坐标系建立一个感知体系,判断出前方的障碍物。

有的企业例如特斯拉以视觉传感器为主,有的厂商以激光雷达为主。云测数据可以通过多传感器融合的方式进行联合判断,帮助相关企业更好地感知环境,提高测距精准度,合理规划路线,并且基于企业不同的传感器定制对应的数据采集、清洗、标注方案

9

吴洪声:这个月初,国家监管继续收紧,《中华人民共和国个人信息保护法》正式实施。AI数据领域涉及大量的数据采集,需要时刻关注政策动向和法律法规。《个保法》对你们有什么影响吗?你们在数据安全这块是如何执行的?

贾宇航:《个保法》其实主要面向个人信息安全相关的行业,而对于AI数据服务的厂商来说,行业以及作业流程的规范更加明确,对我们肯定会起到正向促进的作用。

在数据安全方面,首先,我们拥有ISO9001、ISO27001、ISO27701、CMMI3等认证,遵守相关的数据隐私和安全合规规范。其次,云测数据有安全测试和渗透测试等相关的专家为平台架构保驾护航。最后,在整个数据服务之中,除了技术上的隐私安全保证,云测数据也非常重视数据采集和标注领域对应的员工责任、规范,我们会通过培训、辅导等方式帮助企业清晰数据使用过程的数据安全、隐私等要求。

10

吴洪声:云测数据未来的发展规划是什么?会有哪些值得期待的技术创新?

贾宇航:针对AI数据行业的发展趋势,云测数据制定了“一横一纵”的规划

“一横”就是在云测目前专注的五大领域——驾驶、金融、家居、智慧城市以及AIoT里继续深耕,为客户提供专业的AI数据解决方案。当然,我们也在积极探索如建筑、零售等,希望把自身对于AI数据服务的经验应用到更多具有增长潜力的行业

“一纵”就是从客户需求的角度出发,对所有数据相关的环节进行提效。上述的这些领域都在深化发展,云测数据也会往这些方向持续布局,增强自己的方案和服务能力,以确保在这些行业有新的突破的时候,云测数据也能够有对应的积累,满足客户相关的需求。

* 图片来源:云测数据、tangobelt.com

 END  

栏目统筹 | 赵九州

责任编辑 | 黄绮婷 张洁

排版 | 庄雅捷

你对数据标注的了解有多少?你看好AI数据行业的发展吗?欢迎在评论区分享你的看法~点亮“在看” 评论区留言,阿D将在11月15日(周一)下午14:00随机抽取1位粉丝,送出DNSPod可爱D妹娃娃~

《DNSPod十问》是由腾讯云企业中心推出的一档深度谈话栏目,通过每期向嘉宾提出十个问题,带着广大读者站在这些行业精英的肩膀上,俯瞰各大行业发展趋势和前沿技术革新。

栏目嘉宾的领域在逐渐扩大,从最初的域名圈、站长圈到程序员圈、创业者圈、投资圈。腾讯副总裁丁珂、CSDN董事长蒋涛、Discuz!创始人戴志康、知识星球吴鲁加、腾讯安全学院副院长杨卿等技术大咖和行业领军人物都在这个栏目留下了他们的真知灼见。

《DNSPod十问》在腾讯云生态圈也极具影响力和活跃度。我们在腾讯内部平台——DNSPod公众号、Discuz! Q公众号、腾讯中小企业服务公众号、腾讯云公众号、腾讯云主机公众号、腾讯云服务器公众号、腾讯云助手、腾讯乐问、腾讯码客圈、腾讯KM平台、腾讯云 社区、腾讯云 大学等平台累计关注度高达数十万,同时我们积极开拓与外部媒体的合作,如腾讯科技、腾讯新闻、新浪微博机构号、CSDN社区技术专栏、知乎机构号、企鹅号、搜狐号、头条号、开源中国技术社区、IT之家、InfoQ社区资讯站点、Twitter机构号、Facebook机构号等媒体阅读总量逾百万。

未来,我们希望这个栏目的影响力会覆盖更加多元的受众,把更多正确的理念对外传递出去。欢迎各位读者在评论区留下你想看到的嘉宾和想问的问题,我们邀请你共同成为《DNSPod十问》栏目的提问者与发声者。

合作联系:

qitinghuang@tencent.com

▼点击直达DNSPod官方社区

▼扫码加入DNSPod官方用户群

球分享

球点赞

球在看

0 人点赞