作为经济发展的底座,基础设施建设决定了经济发展的可能性和未来边界。
过去40年,以“铁公基”为代表的老基建支撑了中国经济高速发展,成就了中国经济“快”的奇迹。
未来40年,以5G、AI、物联网、智能计算等新一代技术为驱动的新基建,将肩负起中国经济由“快”向“好”的重担。
在刚刚结束的全国“两会”中,“新基建”首次进入政府工作报告,成为会议期间被代表提及最多的高频词汇。
在新基建分支中,又以AI最为引人瞩目。百度、阿里、腾讯、搜狗、科大讯飞等一众中国科技巨头CEO,纷纷提交与AI相关的提案。
在“新基建”浪潮下,AI场景规模化落地与应用的速度不断被刷新,但随着AI应用由浅层向深层推进,不免出现根基不牢、“虚火”旺盛的症结,导致其在商业化应用方面仍然裹足不前。
是什么让这样一项拥有巨大潜力的技术面临窘境?又是什么扼住了AI应用的“咽喉”?这一切都指向了一个看似微不足道,却可以决定AI前途命运的基本要素——AI数据。
上层建筑与底层基座“失衡”
数据扼住AI应用的“咽喉”
如果想要聚沙成塔,那么塔基的坚实程度将决定塔顶的高度。
当AlphaGo战胜李世石,AI领域遂掀起热潮,ImageNet数据集、GPU算力支持和深度学习算法“三驾马车”整装待发,AI商业落地到了爆发前夕。
然而,人们期待中的爆发却迟迟未能到来,一切犹如一场海市蜃楼。
纵观整个AI行业,如今在算力、算法层面已达到阶段性成熟,但是在决定AI能力最基本的数据领域,却鲜有企业攀越高峰,这就造成上层应用与底层基座的严重失衡。
俗话说:根基不牢,地动山摇。
缺乏牢固的根基,再华丽的上层建筑也终究逃脱不了坍塌的命运,这也是扼住AI应用咽喉的症结所在。
根据中国信息通信研究院发布的《2018年人工智能发展白皮书》显示,在数据层面,主要存在流通不畅、数据质量良莠不齐和关键数据集缺失等问题。
当大部分AI企业在应用层面激战正酣,支撑AI技术的算法就像新生儿一样稚嫩,需要数以百万计有标注的高质量数据来教它们“分辨”。
比如,要想让自动驾驶汽车算法学会识别路标,或者区分孩子和动物,人们必须采集所有可能遇到的所有道路场景,并对其中的物体进行“标签化”的标注。
对于深度学习算法而言,没有标注的数据,就没有AI算法模型。而模型迭代和调整,则需要更多的精准数据。越是准确的算法,就越依赖于大量高质量的标注数据。
Google技术大牛Jeff Dean曾在公开课上展示过海量数据的训练结果,神经网络算法中准确率和数据规模及质量持续成正比。
而业界也达成了普遍共识,即“大量高质数据 普通模型”往往会比“普通数据 高级模型”的效果要好。
想要更加契合AI商业落地需求、解决行业具体痛点,就需要大量经过标注处理的数据做算法训练支撑。
如果没有高质量的标注数据,即使是初期具备算法优势的公司,也会被后起具备数据优势的公司所碾压。
如美国加州科技大学校长秦志刚教授所说:“数据标注是AI产业的基础,是机器感知现实世界的起点。从某种程度上来说,没有经过标注的数据就是无用数据。”
可以说,数据标注的质和量,将决定AI落地的最终效果。
场景化的数据标注服务
成为新基建下AI产业化的
“催化剂”
从整个数据标注行业看,过去这一行业曾长期处于粗放的发展模式,数据粗制、混乱、复用的情况屡见不鲜。
但随着AI与各个产业结合得愈加紧密,AI商业化程度进入新的高度,数据小作坊的模式也已不适用于AI产业化落地的数据需求。
在这其中,定制化、场景化的数据服务更是成为AI商业化的关键,这意味着必须有能力超群的企业站出来,重新定义数据标注行业的规则。
目前,数据标注行业的企业机构主要分为三类:第一类是AI公司内部的标注部门,第二类是数据标注众包平台,第三类是以场景化数据采集和标注见长的公司。
第一种以金融、安防等领域企业为代表,大量数据标注任务由公司内部完成。
第二种是众包平台,以亚马逊众包平台Mechanical Turk为代表,基本按照“需求公司——众包平台——多个互联网用户”的模式完成。
第三种是以云测数据为代表的,专门从事定制化数据采集和标注的企业。
这类企业具备非常完整的数据服务链条,能够满足于定制化、场景化、高质量的数据服务需求,以精细化的数据采集和标注标准,彻底撕掉了传统数据标注行业的“草莽”标签。
以云测数据为例,通过自建数据场景实验室和数据标注基地,实现了从数据采集、数据清洗,数据标注、标注平台私有化部署、到标注驻场服务的高质量、场景化的一站式数据采集标注服务。
针对AI每个细分领域的特点,云测数据都配备了专业人员进行AI数据服务,针对企业遇到的数据需求提供最优方案。
项目前期,云测数据项目经理会帮助客户梳理更贴合实际情况的需求,之后再逐渐引入标注和质检人员,通过每天的沟通和培训,以确保每个人能够理解并掌握标注有关技术,试标验收合格后,再进行大批量的规模性标注。
为了确保标注人员能够做出正确的判断,云测数据还配备专门的培训师,对每个行业细分领域的专业知识进行培训,以及标注技能和业务流程的培训。
在数据标注完成后,云测数据还会进行质检和抽检,对于准确率达不到要求的数据会打回重新标注,从而确保数据的高质量输出。
在智慧城市领域,云测数据可以提供全类型的数据标注与定制化数据采集,如:人脸打点、人体拉框、目标跟踪、语义分割标注,异常行为、步态、Re-ID、路面物体采集等。
在自动驾驶领域,云测数据提供多维度、多模态的数据服务,如:在车内场景中涉及到疲劳监测、动作识别、场景光线等一切场景,以及在车外环境中更复杂的障碍物、道路、天气、地点、车道线、路标,以及一些长尾场景。
同时,可实现连续帧标注、2D图像框选、图像分割、3D点云标注、2D和3D融合标注等众多功能。
在AI技术中重要分支的自然语言处理(NLP)领域,云测数据已经为许多商业化应用提供高质量的NLP数据支撑,如:机器翻译、舆情监测、问答机器人、客服机器人、智能音箱、智能问诊等。
以智能客服应用为例,云测数据为单个场景提供的NLP数据的意图标注,就分为10-20个大类,上百个子类,根据业务需求可能还会有进一步的标注细分。
同时,云测数据除了对NLP数据进行对话意图、领域、槽位等进行判断和标注,还可以进行多角度的泛化。
目前,云测数据业务范围已经覆盖智能驾驶、智慧城市、智能家居、智慧金融、新零售等多个领域,成为众多AI企业和各个行业龙头企业的合作伙伴。
正如云测数据总经理贾宇航所说,“通过使用定制场景化数据服务,企业可以将自己算法的识别精度推到一个新的高度,进而落地成为产品被用户使用。”
从野蛮生长走向精耕细作
AI数据标注手握新基建未来的
“密钥”
AI领域流行一种说法:如果AI是一辆车,那么数据是燃料,算力是车轮,算法则是发动机。也就是说,没有优质的数据,AI只能是空中楼阁。
根据《2019年中国人工智能基础数据服务行业白皮书》统计,早在2018年,高质量的数据资源定制服务就占中国AI基础数据服务的86%,可见优质数据市场之潜力巨大。
事实上,AI对于标注数据质量的新要求,也是数据标注行业未来发展方向的一个重要缩影。越来越多的AI企业意识到,高质量的数据采集和标注是影响人工智能项目落地的关键。
当新基建的大潮席卷而来,作为AI新基建的核心生产要素,数据标注如今迎来了品质化、精细化、场景化的全新发展阶段。
以云测数据为代表的数据标注行业领军企业,正在通过提升AI数据采集和标注的质量、效率和安全,驱动AI成为推动社会前进的新引擎。
例如,在AI数据的质量和效率方面,云测数据在软、硬件的投入上下足了功夫。
一方面,云测数据在华北、华东、华南搭建了专业的场景实验室和数据标注基地,进行相应的AI数据交付。同时,自研出专业的、拥有自主知识产权的数据标注工具,提升标注效率。
另一方面,云测数据设计了从创建任务、分配任务、标注流转、到质检/抽检环节和最后的验收等更完善的管理流程,每个环节有相应专业人员来把控数据标注的质量和时间节点,进行上下游工作环节衔接,得以在保证数据交付质量的前提下,真正提高生产效率。
在AI数据的安全方面,云测数据也始终坚守着AI数据安全隐私的红线。
对于AI行业而言,如何在合理使用数据的前提下保障用户隐私、杜绝数据滥用行为一直都是每个AI企业必须要面对的课题。
作为一家为独立第三方身份的数据服务商,云测数据在数据交付客户后清毁数据不留底,绝不进行二次使用。
同时,云测数据与所有数据采集的用户都签订数据授权协议,确保AI企业用于训练的数据合法合规。
此外,还建立一整套相关的数据保障机制,如从防火墙的设置、内部信息系统的管护、乃至标准化的流程作业体系等,充分保障数据安全。
舍恩伯格在《大数据时代》中预言:“数据可以量化一切,文字变成了数据,方位变成了数据,沟通变成了数据,直到万物的数据化。”
以数据价值为支撑的数字经济正成为推动社会前进的主要模式,由AI等创新技术驱动的数字化转型成为新基建的核心。
而驱动这趟科技列车前行的却是一个个看似微不足道的数据,这些被标注的数据就像娟娟细流,最终将汇聚在AI新基建的大江大河之中,幻化成澎湃的时代波涛奔涌向前。