2.1.2 数据准备

2023-01-01 19:30:57 浏览数 (1)

数据准备阶段通常会占到实际机器学习任务的79%的时间。包括数据采集、数据清洗(清理)、数据标注、数据验收、数据交付等阶段。

数据采集:采集之前,要对数据来源进行考察,越熟悉的数据来源越好。采集一般有四种途径,分别观测数据、人工收集、调查问卷、线上数据库

  1. 观测数据:observation,实验室监测数据、浏览器上的网页数据,规模化自动化采集,伴随环境噪声,数据缺失或不规整,需要仔细做好数据清理工作。
  2. 人工收集:线下交流和走访,大量人工辅助,心理学、社会工程学来辅助,人工归纳和总结数据,非常低效和繁琐的数据来源
  3. 调查问卷:与人工收集分开来,可以自动,各种表格,可以线下手工录入或线上自动录入,数字化录入 自动化识别,形成结构化数据,是比较高效的一种数据来源;
  4. 线上数据库,注意数据获取的权限和版权问题。

数据清理(也叫数据清洗):现实世界的数据是非常脏的,数据清理工作是繁琐的,但却是至关重要。做好版本管理,至少三种:原始数据、某一步处理过后的数据、最终有待分析的数据。主要处理以下几种数据:缺失的数据、重复的数据、内容错误的数据(逻辑、格式错误)、不需要的数据。

数据标注:可以对语音、文本、图像、视频等进行标注,形式有打点、分类、画框、3D画框、目标物体轮廓线、注释、文本转录等,这是一个标记数据对象的过程,目的是作为机器学习的标签。例如对一段语音进行文本注释,就是一个语音数据的标注过程,海量的语音片段和对应的文本,就形成了数据输入和标签,供机器学习使用。

数据划分:标注之后划分为训练集和测试集。拆分比例通常训练集比重较大,8:2或7:3等。

数据验收:就是检查,合法性(自身业务特点或约束程度)、准确性、完整性、一致性等。合法性举例,定义的业务规则,或者约束的程度。业务特点或者逻辑特点,数据约束:类型约束(布尔值 数字 日期等),范围约束(特定的日期范围内),唯一约束(保证在数据集中唯一),离散值(必须是离散型数,如性别只有男女两种)。

数据管理:数据作为一种资产,企业按照新型资产来管理。与数据治理的区别和联系。管理包含治理,治理是管理的一部分。

与数据相关的问题:数据不足(数据扩充)、隐私泄露、分类质量低、数据质量低

0 人点赞