大数据ETL说明(外)
原文地址:https://pusdn-dev.feishu.cn/docx/G4VddZVtSoJTcvxOHAccxk8Hnph
自动化一站式流程处理。整个过程通过配置流程可以实现自动化执行,无需或少部分需要人工处理。
数据清洗 数据清洗是清洗脏数据,是指在数据文件中发现和纠正可识别错误的最后一个程序,包括检查数据一致性、处理无效值和缺失值。 那么数据中有哪些类型的脏东西呢?主要有四类:异常值、空值、重复值以及数据格式。 过滤:使用Java中的循环和条件语句对数据进行逐行筛选,对不符合要求的数据进行过滤,例如根据指定的条件过滤掉异常值、重复值等。 正则表达式:使用正则表达式对数据进行匹配和替换,可以用来处理数据中的噪声、无关信息和格式问题。 第三方库:使用Java中提供的第三方库,例如Apache Commons CSV、OpenCSV等,可以对CSV格式的数据进行读取、清洗和写入操作。 数据库:如果需要对大量数据进行清洗,可以考虑将数据存储在数据库中,使用SQL语句对数据进行筛选、聚合和更新等操作。 大数据清洗工具:还可以使用一些专门的大数据清洗工具,例如RapidMiner、Orange等,这些工具提供了可视化界面和代码生成等功能,可以帮助快速清洗大量数据。 分布式计算框架:Hadoop、spark等 元数据管理 元数据(Metadata)是关于数据的数据,指对数据进行描述和说明的数据,包括数据的标识、类型、格式、来源、创建时间、修改时间等。。元数据管理是数据仓库中不可或缺的一部分,可以帮助用户更好地理解数据。 元数据检索/全文检索
数据源 数据源(Data Source)是指数据的来源,包括数据仓库、数据库、文件系统、传感器等。数据源是数据仓库和数据挖掘系统中数据的来源,对数据的质量和可靠性有直接的影响。 常见方式: 网络爬虫 API接口 SQL查询 文件导入 第三方数据源 传感器数据 调查问卷 实地调研 数据仓库
| 数据仓库是一种专门用于存储和分析数据的系统。它是一个集成的、一致的、历史的、经过清洗的数据存储,可以帮助企业更好地理解其业务和客户,并做出更好的决策。 数据仓库的主要特点包括: 数据集成:数据仓库从各种不同的数据源中收集数据,并将其集成到一个统一的系统中。 数据清洗:数据仓库中的数据需要经过清洗和转换,以确保其质量和准确性。 元数据管理:元数据是关于数据的数据,包括数据的来源、格式、含义等。元数据管理是数据仓库中不可或缺的一部分,可以帮助用户更好地理解数据。
数据分析:数据仓库中的数据可以通过各种分析方法进行分析,以帮助企业做出更好的决策。 |
---|
数据分析 数据仓库中的数据可以通过各种分析方法进行分析,以帮助企业做出更好的决策。 数据质量 有效性: 数据符合定义的业务规则或约束的程度 数据类型约束:特定列中的值必须具有特定数据类型,例如布尔值,数字,日期等。 范围约束:通常,数字或日期应在一定范围内。 强制性约束:某些列不能为空。 唯一约束:一个字段或多个字段的组合在整个数据集中必须唯一。 Set-Membership约束:列的值来自一组离散值,例如枚举值。例如,一个人的性别可以是男性或女性。 外键约束:如在关系型数据库中一样,外键列不能具有所引用的主键中不存在的值。 正则表达式模式:必须采用特定模式的文本字段。例如,可能要求电话号码的格式为(999)999–9999。 跨字段验证:必须满足跨越多个字段的某些条件。例如,患者出院日期不能早于入院日期。 准确性:数据接近真实值的程度。 定义所有可能的有效值可以轻松发现无效值,但这并不意味着它们是准确的。 完整性:指数据的完整性和全面性,即数据是否包含了所需的全部信息。完整性标准包括数据缺失率、数据冗余度等指标。 一致性:数据在同一数据集中或在多个数据集中的一致性程度。