存储学习笔记之数据与信息解析

2023-02-24 11:44:22 浏览数 (1)

什么是数据

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,“0、1、2...`”、“阴、雨、下降、气温”“学生的档案记录、货物的运输情况”等都是数据。

在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。计算机存储和处理的对象十分广泛,表示这些对象的数据也随之变得越来越复杂。

DAMA对数据的定义:数据是以文本、数字、图形、图像、声音和视频等格式对事实进行表现。

数据的种类

根据数据的保存和管理方式,数据分为结构化数据、半结构化数据和非结构化数据。

结构化数据:可以使用关系型数据库表示和存储,常表现为二维表。如:SQL server,MySQL,Oracle。半结构化数据:不符合关系型数据库或其他数据表的形式,但使用相关标记分隔语义元素、或对记录和字段分层。如:XML,HTML,JSON。

非结构化数据:数据结构不规则或不完整,没有预定义的数据模型。如:文本、图片、各类报表、图像和音频/视频信息。

数据的处理周期

数据处理是人或机器对数据进行的重组或重新排序,以增加其特定的价值。数据处理包括以下基本步骤:输入、处理和输出。这三个步骤构成了数据处理周期。

  • 输入:将数据以特定的形式输入进行处理,形式将取决于处理机制。例如,当使用电子计算机时,输入数据可以记录在几种类型的输入介质上,例如磁盘、磁带等。
  • 处理 :将输入数据更改生成更有用的数据形式。例如,可以从时间卡中计算薪水,或者可以从销售订单中计算当月的销售摘要。
  • 输出 :将收集处理步骤的结果。输出数据的特定形式取决于数据的用途。例如,输出数据可以是雇员的薪水。

什么是信息

信息,指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容。人通过获得、识别自然界和社会的不同信息来区别不同事物,得以认识和改造世界。在一切通讯和控制系统中,信息是一种普遍联系的形式。1948年,数学家香农在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。创建一切宇宙万物的最基本单位是信息。

信息是指有上下文的数据。上下文包括:

  • 数据元素和相关术语的业务含义;
  • 数据表达的格式;
  • 数据所处的时间范围;
  • 数据与特定用法的相关性。

一般来说,人们会认为“数据”的概念更客观一些,指的是那些能够不依赖人们主观意愿而转移、变化的现实存在。而信息则是对数据处理加工后的结果,人们会把对自身有价值的数据称之为信息。

比如对于一个足球迷而言,这个世界上一切有关足球的历史、记载;每一天发生的足球比赛、教练、球员以及工作人员的状况;甚至还有国际足联以及其下级单位的规定……这些都属于足球世界的数据。但是具体到这个球迷个体,他很有可能只关注自己喜爱的球队、球星……以及很有限的足球相关事件,这些他所关注的,就是信息。

现实一点来看,人们永远无法掌握“所有的数据”,却可以掌握可以让自己做出判断的“足够的信息”。

数据与信息的关系

数据是未经处理的原始事实,需要对其进行处理以使其变得有意义,而信息是根据给定要求以有意义的方式处理的一组数据。

数据没有任何特定目的,而“信息”具有通过解释数据指定的含义。

  • 数据本身没有意义,而信息本身就具有重要性。
  • 数据从不依赖于信息,而信息则依赖于数据。

另一方面,以位和字节为单位的数据以有意义的单位(例如时间,数量等)来衡量信息。

  • 数据可以是结构化的,表格数据、图形、数据树,而信息是基于给定数据的语言、想法和思想。
  • 数据是反映客观事物属性的记录,是信息的具体表现形式。数据经过加工处理之后,就成为信息;而信息需要经过数字化转变成数据才能存储和传输。

信息生命周期管理

信息生命周期管理(Information Lifecycle Management)对企业用户而言是一种信息技术战略、是一种理念,而不仅仅是一个产品或方案。信息化建设中最关键的是数据,数据代表着信息,它可以构成企业的核心竞争力。信息从产生的那一刻起就自然地进入到了一个循环,经过收集、复制、访问、迁移、退出等多个步骤,最终完成一个生命周期,而这个过程必然需要良好管理的配合,如果不能进行很好地规划,结果就会是,要么是浪费了过多的资源;要么是资源不足降低了工作效率。

EMC公司建议客户分三个阶段实施信息生命周期管理:第一步,实施自动网络存储,优化存储基础设施;第二步,提高服务等级,优化信息管理;第三步,实施集成式生命周期管理环境。

ILM(Information life cycle management ,信息生命周期管理)对应的数据管理一般分为以下几个阶段:

  • 数据创建阶段:数据从终端产生并保存到存储设备。
  • 数据保护阶段:信息生命周期管理将按照数据和应用系统的等级,采用不同的数据保护技术, 以保证各类数据和信息得到及时有效的保护。存储系统会提供数据保护功能,如RAID、HA、容灾和权限管理。
  • 数据访问阶段:信息必须便于访问,可以在企业的多个业务环节和业务应用之间共享,以提供最大限度的业务价值。
  • 数据迁移阶段:IT设备使用过程中,经常需要设备升级和替换,设备中的数据需要从旧设备迁移到新的设备中。
  • 数据归档阶段:数据归档系统可以从多个方面支持企业的业务运作,提供交易和决策记录查询。数据的重删压缩功能常会应用在此场景中。
  • 数据销毁阶段:数据在一段时期后,没有再继续保存的价值。对没有必要保留或保存的数据进行销毁或回收,从存储,以及数据仓库中清除。

0 人点赞