梦晨 发自 凹非寺 量子位 | 公众号 QbitAI
当IT行业改变整个世界的时候,DevOps理念从大量产业实践中诞生。
如今AI也进入产业化新时代,继承者MLOps或者叫AI工程化也越发火热。
Gartner咨询公司将AI工程化列为2022年十二大战略性技术趋势,IDC则预测到2024年60%的企业将MLOps用于机器学习工作流。
△图源:ml-ops.org
这一波浪潮之中,算法的工程化一如既往的跑在前面,模型的自动部署、持续训练甚至AutoML都有较大进展。
与之相对的是,数据的工程化稍显落后。
对此,一直呼吁建设“以数据为中心AI”的吴恩达,今年初在接受IEEE Spectrum采访时也喊出新的口号:
AI要从大数据转向高质量的小数据。
吴恩达认为,对于数据中存在的噪声,通常做法是只要量足够大就可以让算法对其做平均处理。
但这样做不仅限制了算法的能力,有些场景如工业质检、罕见病等更是根本凑不出一个大型数据集,精心标注的高质量数据就成了关键。
实际上,除了碎片场景之外,如何高效构建高质量数据集也是全行业共同面对的问题。
AI工程化的大背景下,新一代数据标注与管理方法也从实践中逐渐诞生。
最新解决方案来了
云测数据,一家以“将数据标注的最高准确率提升到99.99%”而闻名的AI数据服务公司,率先推出「面向AI工程化的新一代数据解决方案」。
方案不仅包括标注数据、管理数据所需的平台工具,还涉及管理体系以及数据安全,总共三个方面。
平台工具方面,除了基础的标注工具、API集成能力,还有数据流转产线工作台和数据产能管理体系。
管理体系方面,分为人员管理和项目管理两部分。
数据安全方面,则从硬件安全、网络安全、物理安全和人员安全管理4个角度提供保障。
为什么是这三个方面?云测数据总经理贾宇航从AI工程化时代的不同特征进行了分析。
算法进入持续优化期,此时数据也要从瀑布式流转过渡到持续流转。
在算法预研期只需要基础数据集就能满足需求,针对实际业务场景的算法研发期则需要数据采集、清洗、标注等一系列定制化服务。
算法进入持续优化期,情况再次发生变化。
生产环境的回流数据需要持续标注用于迭代,使算法越用越智能;标注数据需要流转至仿真平台用于算法评测,提高重复利用价值;自动化流程中又需要辅以人工检查纠正,降本增效。
云测数据新一代解决方案中基于这些需求打造了数据处理工作台,支持持续任务处理、人机协作,同时以标准API接口与各类系统对接,将AI数据训练过程中的综合效率提升200%。
算法落地到实际场景中,而高质量的场景数据需要标注人员有领域专业知识。
举例来说,前一阵谷歌的文本情感数据集GoEmotion就被一位机器学习工程师Edwin Chen指出有30%标注错误,他分析问题出在谷歌请的印度员工不了解美国本土互联网文化。
像这样的问题,在知识门槛颇高的金融、自动驾驶等领域场景中也有可能发生。
对此,云测数据推出数据服务体系。其中人员管理体系涵盖招聘、业务培训,以及自动驾驶、智慧金融、AIOT等重点行业的领域知识培训。项目管理体系则以标准化的流程把控数据质量,将数据标注最高精度提升至99.99%。
最后,算法深入到实际业务中,数据安全需要得到保障。
云测数据推出安全交付体系,全方位保障数据安全和风险治理,同时满足ISO27001和ISO27701标准。
新一代数据解决方案,如何炼成?
云测数据是AI数据服务领域的领先者,凭借在产品、服务、技术研发等方面的综合实践,已连续三年被评为行业第一,具备丰富的研发及产业化服务经验。
技术能力方面,去年云测数据先后发布云测数据标注平台、AI数据集管理系统等技术成果,率先形成AI训练数据的“采、标、管、存”一站式服务,实现从“数据原料”到最后的“数据成品”全链条打通,输出完整的数据价值,其中更是将数据标注的最高准确率提升到了99.99%。
又经过一年的打磨完善后,云测数据标注平台&数据集管理系统在工具丰富性与易用性得到升级,并且与各种类型企业系统对接的能力得到增强,整合到最新解决方案里。
行业经验方面,云测数据提供多维度、场景化的数据服务与策略,多年来服务于汽车、安防、手机、家居、金融、教育、新零售、地产等行业,满足AI应用在数据质量、数据丰富度、数据时效性等方面的需求。
另外正如MLOps继承自软件行业的DevOps,Testin云测结合自身优势,将软件测试业务上10多年ToB服务经验也迁移沉淀至云测数据的AI数据服务中,提质增效的作用十分显著。
到如今,随着智能化转型的逐渐深入,云测数据的服务对象已扩展至各行各业,正是在大量实践与不断探索中,AI数据服务所需的方方面面被云测数据掌握、整合,最终沉淀成新一代数据解决方案集中发布亮相。
而随着新一代数据解决方案的发布及云测数据背后更多动作布局,给AI数据服务行业本身也带来一些改变。
云测数据,带来什么改变?
先看云测数据给服务对象带来的改变。
以自动驾驶行业为例,首先是一站式解决自动驾驶领域多场景的数据采集的需求,包括智能驾驶主流应用场景。通过云测数据的DMS与ADAS场景搭建采集能力,来减少数据采集周期、提升数据质量。
接下来,通过数据标注平台来解决包括2D标注、3D点云标注、2D/3D融合标注、语义分割、目标跟踪等等数据标注需求,同时标注&管理平台支持与企业完成训练、仿真等系统集成。
数据不必再按批次来回传输,实时处理的同时节省大量时间和成本。数据不出企业内网就能完成流转,同时也支持专业标注员驻场作业,在保证数据安全的基础上,有效降低信息传递损耗,同时兼顾标注作业效率和质量的提升。
据贾宇航透露,以某自动驾驶相关企业为例,原来要花一周时间的AI数据工作,对接新一代数据解决方案后效能至少提升2倍以上。
凭借这样的能力,云测数据与行业内包括自主、合资车企,大型Tier1、Tier2,以及无人出租车等众多自动驾驶企业建立了持久良好的合作关系。
效率的提升同样体现在零售货检行业,通过云测数据标注平台将货柜检测数据持续回流,基于算法预标注结果进行可视化审查并修改,与纯人工标注效率提升3倍。
而在金融领域,通过云测数据标注平台及集成算法API可进行金融票据标注,通过离岸的安全房进行标注,在保证质量和效率的基础上确保数据隐私安全。
另外还有建筑行业也可以通过云测数据标注平台对生成建筑CAD图纸进行审查校验。
云测数据深度合作伙伴覆盖了汽车、手机、工业、家居、金融、安防、教育、新零售、地产、生态系统等行业。这其中包含众多世界500强企业、高校科研机构、政府机构,头部AI企业和大型互联网企业覆盖率超90% ,涵盖了计算机视觉、语音识别、自然语言处理、知识图谱等AI主流技术领域。
与此同时,云测数据对AI数据服务行业自身的探索也在持续进行。
比如作为人工智能数据服务领域代表厂商,参与信通院牵头的全球首个MLOps模型开发管理标准,以数据标准化助推AI落地。
最新能透露的一条进展是, 云测数据正与云服务厂商合作,探讨延展数据服务的边界。
参考资料: [1]https://spectrum.ieee.org/andrew-ng-data-centric-ai [2]https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled
— 完 —
点这里