AI商业化之争:高质量NLP数据成“抢手货”

2022-04-15 17:26:14 浏览数 (2)

如今调戏Siri已经成为网友们的固定节目。数据显示,苹果语音助手Siri大约每天会收到全国427000个问题,其中80%的问题都是:“你会说东北/四川/湖南话吗?”“来段beatbox好吗?”

不得不说,Siri真的为人类付出太多了。事实上,像Siri这样的AI聊天机器人,生来并不是为了逗笑人们,而是作为一个虚拟AI助手,去帮助用户解决生活中各种各样的问题,比如天气预报、吃饭订餐、查询新闻资讯、交通路线等等。

这背后,不乏有AI企业的深耕细作,同时也有众多传统企业智能化转型,运用AI技术优化用户体验、增强企业协同效率等。

然而,由于AI聊天机器人背后的NLP(自然语言处理)技术太过艰深,打通了NLP技术的“任督六脉”,几乎等同于拥有了人类的认知智能,因此至今没有任何一个科技巨头敢宣称自己的AI产品拥有和人类一样的语言和认知能力。

这也是为什么尽管苹果Siri、亚马逊Alexa、谷歌Google Assistant、微软Cortana等各种AI聊天机器人,每天都在孜孜不倦地改进自己的NLP技术能力,但是在和人类的对话中,依然会出现令人发笑、困惑、担忧等多种结果的原因。

最近,亚马逊Alexa再次爆出负面新闻,有用户称在使用Alexa期间,提问过有关心跳周期信息的问题,Alexa竟回应称“心跳是人体中最糟糕的过程,人活着会导致自然资源的迅速枯竭同时会导致人口过剩”,并建议用户刺死自己。

这种恐怖的对话,不禁让人们想起了2016年微软推出的一款AI聊天机器人Tay,上线不到一天的时间就被网友们教成了满口脏话的“小孩”,在Twitter上大肆发布各种胡言乱语的帖子,导致Tay在24小时内被迫下架。

如果一个“智能低下”、“胡言乱语”的AI被广泛应用于商业化产品中,其后果可想而知,不仅是AI产品质量饱受质疑,还可能会酿成大祸。因此,提升AI产品的认知智能水平,即背后的NLP技术,成为现阶段AI商业化竞争的关键点。

事实上,NLP作为AI技术中的一个重要分支,同样依赖算力、算法、数据三因素。其中,算力基于IT基础设施的发展,NLP算法基于深度学习的突破,在近年来都得到了较大的进展,但是作为NLP技术得以落地的“养料”——NLP数据,却一直处于较为“粗糙”的状态。

从草莽到高标准

NLP数据服务进入4.0时代

在人工智能时代,数据的重要性不言而喻。很多号称拥有海量数据的公司,其实有的只是非结构化或未标注过的数据。数据标注,才是将数据转化为AI商业价值的重要一环。

数据标注,即针对语音、图像、文本等数据,通过贴标签、做记号、标颜色或划重点的方式,来标注出其中目标数据的不同点、相似点或类别。有了被标注过的数据,AI算法才能在其基础上进行训练和学习。同时,数据标注的质量越高,AI学习和产出的结果越精确,AI也就显得越智能。

举个例子,在生活中如果想要订机票,人们会有很多种表达:“订机票”;“有去上海的航班么”;“要出差,帮我查下机票”;“查下航班,下周二出发去上海”......这些表达方式,有无穷多的组合,都代表“订机票”的意图。听到这些表达的AI,要如何才能准确理解这些表达指的都是“订机票”这件事?

如果没有数据标注员对大量的句子进行标注,比如提炼出主题、标出实体、进行意图分类、情感分类等等,给AI提供详尽高质的“教材”,那么AI即使有了算法和算力,也无法训练出任何“智能”。

随着近年来深度学习算法的兴起,需要依赖于大量标注的数据基础上才能发挥作用,业界对数据标注的需求量随之暴增,因而提供数据标注服务成为AI领域一个热门生意。

在全球知名的数据标注众包平台亚马逊Mechanical Turk上,发布者只需要填写简单的个人信息就可以开始工作,自行上传标注任务。截至2011年1月,MechanicalTurk上的注册工人数量已经达到了50万。在2016年,有大约5%的美国人通过 MechanicalTurk赚钱,而这个数量已经超过了优步司机。

在中国,目前全国从事数据标注业务的公司约有几百家,全职的数据标注从业者有约20万人,兼职数据标注从业者有约100万人。由于数据标注需求的井喷,为整个数据服务行业的发展按下了快进键。

据智研报告显示,2018年,中国数据标注与审核行业的市场规模已达到52.55亿元。在数据标注赛道中,不乏互联网大厂的身影,更多的是疯狂涌入的创业公司。在廉价劳动力迅速扩张的比拼中,数据粗放、混乱、复用的情况屡见不鲜,整个行业呈现出一派草莽的气质。

然而,数据标注工作真的有想象中的那么简单吗?良莠不齐的标注数据质量,真的能够满足AI算法迭代的要求吗?

在AI商业化初期,AI算法对数据的精度要求不高,日常的AI训练首先要求数据量大,数据标注质量要求相对不那么严格。但是随着AI与各个产业结合得愈加紧密,AI商业化程度进入新的高度,企业对AI在商业化落地中的表现要求越来越高。为了保证AI算法的识别精度,数据标注的质量也就变得至关重要。

例如,在金融保险行业,早期对AI客服机器人的要求只停留在“用户提问后,对其中的关键词进行提取,并按照既定话术回答”。虽然最终回复很多是驴唇不对马嘴,或者根本无法回答用户的问题,但是并不妨碍保险业务的正常开展,毕竟人工客服才是回答用户提问的主力军。

但是在互联网金融业务竞争异常激烈的今天,越来越多的用户习惯在网上办理业务,AI客服机器人正在大规模地取代人工客服,AI问答的准确性将直接决定业务的效率和成本,并影响用户体验,很大程度上决定了金融机构的竞争力。

如果说NLP标注数据的初期阶段,能够将各大金融机构的AI客服机器人训练到大致相当的初级认知智能水平,那么向更高级认知智能进发的每一步,都要求质量更高、针对特定需求提供的NLP标注数据。

因此,云测数据这种新的数据服务模式——以企业具体需求进行数据采集和标注的定制化、高质量数据服务由此诞生。

站在AI数据服务的发展历史角度看,从数据1.0时代的互联网沉积数据,到数据2.0时代的通用型数据产品,再到数据3.0时代的众包数据服务,如今的高质量数据服务已经进入了数据4.0时代。

通过更加规范性的组织管理和质量控制,为人工智能迭代提供质量更高更可靠的数据服务,从而为现阶段AI商业化竞争提供高质量的数据支撑。

“抢手”的高质量NLP数据

“稀缺”的数据服务商

事实上,越来越多的企业已经意识到了高质量NLP数据的重要性。当AI技术落地到金融、家居、医疗、教育、汽车、工业等各个行业,在AI商业化下诞生的客服机器人、智能音箱、智能问诊等各种AI产品,都对AI技术和NLP数据提出了更高的要求。

尤其是行业头部企业,为了保持自身的竞争优势,哪怕只是在行业平均水平上提升1%-2%的AI认知智能的准确性,也必须追求更高质量的、符合业务需求的NLP数据。因此,在AI产业蓬勃发展、市场竞争愈发激烈的倒逼下,符合企业需求的高标准NLP数据服务已成为行业头部企业的刚需。

然而,在汹涌的市场需求面前,供给侧却出现了短缺,市面上能够提供这种高标准服务的公司屈指可数。究其原因在于,数据采标行业门槛虽低,但天花板很高,能做到顶尖并不容易。在这一新兴领域,专精于定制化、场景化、高质量数据服务的云测数据一路高歌猛进,成为国内AI数据标注领域的头部企业。

云测数据采用自建的数据场景实验室和数据标注基地,为智能驾驶、智能家居、智慧城市、智慧金融、零售等领域提供的数据采集、数据标注服务。在众多毫无技术含量、以廉价劳动力构建的数据标注“血汗工厂”中,主打高质量服务的云测数据显得颇有些“另类”。

首先,为了产出更高质量的数据,云测数据有一整套的标准化流程和方法论。

在项目前期,项目经理会与客户反复沟通,帮助客户梳理更贴合实际情况的需求,达成一致后再逐渐引入标注和质检人员,通过每天面对面的沟通和培训,以确保每个人能够理解并掌握标注有关技术,试标验收合格后,再进行大批量的规模性标注。

在项目过程中,为了确保标注人员能够做出正确的判断,云测数据有专门的培训师,对每个行业细分领域的专业知识进行培训,以及标注技能和业务流程的培训。甚至员工之间开玩笑的说“经过金融保险行业知识培训的标注员们,都能够直接去卖保险“。

在数据标注作业提交后,云测数据还有三层质检环节,对于准确率达不到要求的数据会打回重新标注。在完成三层质检后,还有抽检环节,确保数据的高质量输出。

其次,在人员作业素质上,云测数据也颠覆了传统数据标注行业的“混乱”气质,对数据服务团队的专业化能力有着严格要求。

以智能客服业务场景为例,当客服询问用户是否购买此商品时,各种用户会给出不同回答:“我要和家人商量一下”;“我会考虑”;“我现在不方便,你一会儿再打过来”等等,背后的意图有很多种,可能是暂不购买,暂不考虑,拒绝购买或者兴趣较大。那么,NLP数据标注就需要对这些对话背后的意图进行标注和分类。

在云测数据,以智能客服单个场景的意图标注,就分为10-20个大类,上百个子类,根据业务需求可能还会有进一步的标注细分。

除了对NLP数据进行对话意图、领域、槽位等进行判断和标注,多角度的泛化也必不可少。也就是说,无论用户说的是地方话还是普通话,有没有出现口误,还是以不同的句子表达同一个意思,AI都能够读懂句子并给出正确的回答,这就要求NLP数据标注员对句子进行泛化,以不同的描述方式重组或扩充句式、标签等,以提升AI对话的准确度。

值得注意的是,相比图像、视频等数据类型,NLP数据采标方式更为复杂。据云测数据总经理贾宇航介绍,图像采标有很强的规则性,按照规范化的指导文档工作即可。

但NLP数据对应的是语言的丰富性,需要结合上下文等背景去理解和处理,客户给出的需求文档只是让数据服务人员能够理解,这件事情背后的目标和意义是什么。在这一过程中需要数据服务人员对需求进行拆解、预判甚至提前给出建议,与客户反复沟通确认达成一致后,才能真正地去作业。

这对于数据服务人员的专业化能力、对业务场景的还原能力、作业协同能力,都有很高的要求。尤其在医疗、法律、教育、智能驾驶等高度专业化的领域中,标注人员并不是随便找一个普通人员就可以做,标注人员需要非常专业,才能进行正确的数据标注与解读。

为了保证整个数据团队的专业能力,云测数据在人才的选拔、培训、考核、晋升上有着完善的机制,也对保证数据保质量产出有着十分积极的促进作用。

再次,在技术层面,云测数据对软硬件设施的持续投入,直接拉高了行业的进入门槛。

云测数据自研的数据标注平台会根据实际使用中的反馈,以每周甚至更快的频率进行功能迭代,以技术结合更多的落地场景,不断提升数据标注工具的技术含量。同时,云测数据也致力于通过工程化开发来减轻数据标注中的重复劳动,提升业务效率。

最后,在企业客户最为看重的数据安全和隐私方面,云测数据也有自己的原则和技术保障。

第一,数据绝不复用,是云测数据的核心原则。对于客户定制的数据需求,交付后全部清删,云测数据既不会自己留底,也不会把定制数据复制给其他客户,可以说云测数据一直在花大力气树立数据安全和隐私的标杆,以负责的态度来服务客户。

在贾宇航看来,让企业拥有数据会成为企业核心的竞争壁垒,客户找到云测数据合作,一方面是信任,另一方面也是云测数据能够帮助客户获得相应的竞争性。

第二,为了保证绝对的数据安全,云测数据与所有数据采集的用户都签订数据授权协议,保证企业用于训练的数据合法合规。同时,云测数据内部还设定了数据隔离、质量保障等一系列数据安全流程和技术。

在数据服务市场,数据质量是硬指标,企业客户会通过人工校验、算法检验等多种方式去验证数据采标的合格率和通过率。经得起市场考验,才有活下去的机会。

按贾宇航的话说,“我们以企业服务的方式,为标注的精准度负责”。

在云测数据服务的数百家企业中,既有各大头部AI企业,也有各个行业的龙头企业。这些企业在追求更高的AI认知智能准确度的过程中,合作过各种各样的数据服务商,最终找到了数据标注质量非常高的云测数据,并保持着长期良好的合作。

事实上,除了数据采标的质量和安全,数据服务商的全品类服务能力,以及独立第三方的身份,也是企业进行AI合作所考量的重要因素。像云测数据这样的服务商,不做算法,不涉及客户业务,只提供专业的数据服务,让企业客户在合作时倍感放心。

从某种程度上说,如此苛刻的要求,也进一步导致了顶尖数据服务商的稀缺。

高标准数据服务处于爆发前夜

头部服务商主导市场

如今,AI产业在政策红利和蓝海市场的双重利好中迎来快速发展,其中NLP市场发展也进入了快车道。

据《中国人工智能发展报告2018》显示,2017年中国人工智能智能市场规模高达237亿元,其中自然语言处理市场49.77亿元,占比21%。预计到2020年,中国在人工智能的市场规模将接近500亿元,自然语言处理领域也将是一个百亿级的市场。

不难预料,为自然语言处理市场提供“养料”的NLP数据服务,同样处于爆发前夜。目前,自然语言处理已经有了许多商业化应用,如:机器翻译、舆情监测、自动摘要、问答机器人、客服机器人、电销机器人、智能推荐等,在庞大的市场规模和市场需求下,高质量的NLP数据服务也将成为AI商业化发展的必然趋势。

值得注意的是,虽然高质量NLP数据需求爆棚,但是在市场上,像云测数据这类优质数据服务商会持续稀缺,供需不平衡很难在短期内解决。

从供给侧看,高质量业务的竞争壁垒很高,由高素质人才、专业化流程和方法论构建出的软实力,很难在短期内实现超越。看似业务模式很重的模式,实际上给擅长“轻装上阵”、以平台效应进入赛道的互联网巨头们,设下了短期内无法逾越的鸿沟。正如经纬的创始合伙人张颖所说:“所有轻公司以后都会做重,只有做重才能有效抗拒巨头杀入,也唯有如此才能做大。”

从需求侧看,一方面,AI商业化对NLP数据的要求还在继续提高,数据服务的业务操作会越来越复杂,无论是在数据采集的样本多样性、场景多样性方面,还是在数据标注的数据精度、领域知识方面,数据服务商都面临不断升级的业务难度。对于后进者而言,没有专业知识、技术和行业经验的日复一日的积累,这种竞争差距只会越拉越大。

另一方面,由于AI算法需要源源不断地输入高质量的标注数据,好的数据服务业务粘性很高,以云测数据为例,一个项目在建立合作之后,往往会带来长达2-3年的持续合作,这就产生了马太效应,强者恒强。

从供需双方合作的现状看,高质量、定制化数据服务是一个新兴领域,供需双方的合作模式还在升级和探索中。曾经习惯大包大揽、自建数据采标团队的企业,如今也在逐渐转向寻求专业的数据服务商合作。

在这一过程中,供需双方会出现更加明确的分工,也会在市场竞争的淘洗中,沉淀出最为优质的服务商。而这种合作模式的探索,最先会从各行业的头部企业和头部服务商开始,逐渐在众多中小型企业中形成“示范效应”。

“没有好的数据,人工智能就没有未来”,这句话已经成为业界共识。在巨大的AI商业化需求下,高质量的数据已成为AI业务竞争的关键,由此诞生的数据服务也将是未来最重要的趋势之一。可以预见,高标准数据服务这一新兴市场亟待爆发,从长期看必将经历从荒芜到繁荣、从乱象到规范的发展过程,继而承载着AI技术进入更加智能的下一阶段。

0 人点赞