数据是企业最重要的资源之一。它可以用来帮助你的生意顺利进行,实施新的策略,等等。
了解数据质量
数据一直是组织的核心。它是组织日常业务顺利进行和实施新战略的基石。分析数据和做出数据驱动决策的能力变得越来越重要。
个人也从数据的使用中获益良多。无论是投资股票还是找一个合适的房子来买,数据都为我们做决定提供了丰富的信息。数据是决策的基础,提供信息,帮助得出各种见解,帮助做出有效决策所需的预测。收集数据的来源有多种。
例如:
内部数据库:这些是企业和机构中最相关、最可靠的数据源。它们通常采用结构化格式,通常记录来自各种内部应用程序的数据,比如ERP(企业资源计划)、CRM(客户关系管理)和HCM(人力资本管理)。
平面文件:平面文件(平面文件(flat file)是去除了所有特定应用(程序)格式的电子记录,从而使数据元素可以迁移到其他的应用上进行处理。这种去除电子数据格式的模式可以避免因为硬件和专有软件的过时而导致数据丢失。 平面文件是一种计算机文件,所有信息都在一个信号字符串中。)是组织最常用的数据源之一。平面文件产生于组织外部的来源,或者当没有合适的机制来集成各种内部数据时。例如,供应商可以发送定期的平面文件,这些文件可以上传到组织的内部数据库中。此外,在组织中两个或多个应用程序之间没有集成的情况下,平面文件作为交换数据的媒介。在大多数情况下,平面文件中的数据被认为是不可靠的,并执行一些检查来验证和验证数据。
Web服务和API:Web服务是不同应用程序之间通信和数据交换的首选媒体。它们提供了一种标准化的数据通信和交换方式。它们是可靠的,数据验证很容易嵌入。
其他来源,如来自社交媒体、博客帖子、音频和视频的数据,正逐渐成为需要存储和分析的重要信息来源。
然而,并不是所有的数据都有用或服务于既定的需求。例如,假设我想买一栋房子。然而,我得到的数据提供了与我所考虑的不同领域的购房历史趋势。这不合我的需要。除非信息足够好,否则数据就根本没办法使用。
适合预期使用的数据称为有用数据。不良数据阻碍了分析过程。立即找到一个可靠的数据集是非常困难的。我们必须精心制作和培育良好的数据。在本文中,我们将讨论在组织中管理、监视和改进数据质量的各种技术。对于那些依赖数据进行活动的个人来说,其中的一些内容也很有用。
高质量数据具有以下特性:
1、适合使用-正确和完整。
2、是对现实世界的真实反映。
3、它是可用的、一致的和可访问的。
数据质量可以根据以下维度进行测量:
1、完整性:是否有丢失或无法使用的数据?
2、数据是否符合标准格式?
3、一致性:数据值是提供一致的信息还是提供冲突的信息?
4、准确性:数据是准确的,还是过时的?
5、重复:数据记录或属性在不应该重复的地方是重复的吗?
6、完整性:数据是可引用的还是缺少约束?
定义数据质量的主要特征有两个
1、数据可用性
可用性意味着数据可以提供特定任务所需的相关内容。例如,关于客户年龄或位置的数据可能有助于消费品行业的客户保留计划。但是,关于客户地点的天气或土壤质量的数据可能无法用于这种保留活动。然而,这些天气或土壤质量数据可能对花卉行业的目标客户有用。因此,数据可用性与其驱动特定任务的操作/洞察的能力相关,并且它需要与工作相关的精确表示。当相似的数据出现在多个位置(比如不同的数据库和数据仓库)时,它们需要同步以具有相同的数据表示形式。
2、数据量
数据量定义了分析所需的数据量。在数据质量计划开始时估计和评估数据量对于程序的成功是至关重要的。我们需要的数据是太少还是太多?观察的次数是多少?没有太多数据的缺点是什么?这些问题可以帮助我们决定驱动数据质量计划所需的工具和技术。
手动检查数据以确保适合使用是确保数据质量的最佳方法。当数据量太小时,这是可能的。然而,鉴于我们目前拥有的数据量,仅仅依靠手工处理是太高了。为了消除人为错误和减少数据不准确,我们不得不依赖于各种技术和技术。我们需要遵循数据质量策略来保证数据的高质量。
有不同的阶段可以提供管理、监视和改进数据质量的能力,如下所示:
1、解析和标准化:从数据中提取片段以验证是否遵循特定模式的过程。如果它不符合模式,则对数据进行格式化以提供一致的值。
2、广义清理:消除数据中的错误和不一致的过程。
3、匹配:跨两组或多组数据比较、识别或合并相关实体的过程。
4、概要分析:分析数据集内容以验证数据的准确性、一致性和唯一性的过程。
5、监视:持续访问和评估数据以确保其符合目的的过程。
6、 充实:通过使用来自各种内部和外部来源的数据来提高数据质量的过程。