文章目录
- 一、数据处理类型
- 二、传统数据库技术
- 三、传统数据库 不适用于 分析型 ( DSS 决策支持系统 ) 应用 原因
- 四、事务性处理 与 分析型处理 性能特性不同
- 五、数据集成问题
- 六、数据集成问题 : 数据分散原因
- 七、数据集成问题 : 数据仓库引入
- 八、数据动态集成问题
- 九、历史数据问题
- 十、数据综合问题
一、数据处理类型
数据处理类型 :
① 操作型处理 : 又称为 事务型处理 ;
- 处理内容 : 与业务活动相关 , On-Line Transaction Processing ( OLTP ) 联机事务处理过程 ;
- 主要作用 : 对数据联机的日常操作 , 对一个或一组数据进行查询 , 修改 ; 关注 响应时间 , 数据安全性 , 完整性 ;
- 示例 : 与业务相关的操作 ( 如网上购物 , 各种网络应用等 ) , 要求反应时间快 , 占用资源少 ;
② 分析型处理 :
- 处理内容 : 与决策活动相关 , OLAP 联机分析处理过程 ;
- 主要作用 : 用于管理人员决策分析 , DSS 决策支持系统 , EIS 企业信息系统 , 多维分析 , 需要访问大量历史数据 ( 5 ~ 10 年 时间跨度大 / 企业内外 数据范围广 ) ;
- 示例 : 由管理人员使用 , 如 CEO , CFO 等 , 对企业数据进行分析 , 然后做出决策 ;
上述两种操作差异巨大 , 操作型处理 和 分析性处理 的数据必须 分离存放 ;
在数据仓库出现之前 , 上述两种处理类型都放在数据库中进行处理 , 其中分析性处理效果不好 , 因此提出不同的数据类型 , 放在不同的数据载体中 :
- 操作型 : OLTP 联机事务处理 , 数据放在 数据库 中 ;
- 分析性 : OLAP 联机分析处理 , 数据放在 数据仓库 中 ;
二、传统数据库技术
传统数据库技术 :
- 数据资源 : 单一的数据资源 , 数据库 ;
- 进行的处理 : 事务处理 , 批处理 , 决策分析 , 等各种类型数据处理工作 ;
不同数据处理有不同的要求 : 上述数据处理有不同的特点 ;
- 反应时间 : 有的要求反应执行时间快 , 有的不要求实时性 ;
- 返回数据量 : 有的需要获取大量数据 , 有的只需要返回一个值 ;
传统数据库弊端 : 单一的数据组织方式 ( 传统数据库 ) , 无法满足数据处理多样化需求 ;
传统数据库 重要性 :
- 数据库是所有 信息系统基础 ;
- 主要用于 事务处理方面 ;
- 发展阶段 : ① 网状数据库 , ② 层次数据库 , ③ 关系数据库 ;
不适合分析型应用 : 传统数据库很重要 , 扔发挥着重大作用 , 但是在分析型应用中 , 使用数据库存储数据不太适合 ;
数据库 不适合 分析型应用 ( DSS ) :
- 数据库的三级模式 : 内模式 , 外模式 , 模式 ;
- 外模式 : 任何数据库应用都是 建立在外模式之上的 , 需要进行编程实现 ;
- 数据库对 DSS 支持有限 : 传统数据库 的 即席查询功能 , 支持 DSS ( 分析型应用 ) 的需求 , 但是支持的不是很好 ;
- 效率低下 : DSS ( 分析型应用 ) 关注 模型 与 方法 , 没有 在数据库管理系统层面上 的支持 ; 每个应用都需要编写一个程序 , 几百上千次分析决策 , 就需要编写对应的应用程序 , 这样效率很低下 ;
- 数据仓库引入 : 如果有一个系统已经将上述 模型 与 方法 实现好 , 可以支持成千上万个应用 , 不用为每个单独的应用编写程序 ; 这里就引入了数据仓库 ;
三、传统数据库 不适用于 分析型 ( DSS 决策支持系统 ) 应用 原因
事务处理环境 不适用于 分析型 ( DSS - Decision Support System 决策支持系统) 应用原因 :
- 事务性处理 与 分析型处理 性能特性不同
- 数据集成问题
- 数据动态集成问题
- 历史数据问题
- 数据的综合问题
四、事务性处理 与 分析型处理 性能特性不同
用户行为模式 :
- 事务型处理 : 数据存取频率高 , 每次操作要求时间短 ;
- 分析型处理 : DSS 运行时间长 , 消耗资源多 , 运行频率低 ;
五、数据集成问题
DSS 分析型应用需要的数据 :
- DSS 数据 : 需要全面 , 集成 的数据 , 时间跨度很长 , 来源很多 , 企业内部数据 , 外部数据 , 竞争对手数据 ;
- 事务处理数据 : 只有当前业务部门数据 , 企业范围数据没有集成 , 需要额外开发程序收集这些数据集成起来 ; 数据是分散的 ;
六、数据集成问题 : 数据分散原因
数据分散原因 : ① 事务处理应用分散 , ② 蜘蛛网问题 , ③ 数据不一致问题 , ④ 外部数据 和 非结构化数据 ;
① 事务处理应用分散 : 应用本身就是分散的
- 应用独立 : 企业的 每个应用的 事务处理 都是相互独立的 ;
- 设计针对当前问题 : 设计系统时 , 每个系统只是针对当前问题而设计 , 如财务系统 , 只针对财务问题 , 客户管理系统 , 只针对客户管理问题 ;
- 不考虑后续问题 : 设计时 , 不考虑以后可能出现的新问题 ;
② 蜘蛛网问题 : 分析型应用中 , 需要抽取数据 , 那就涉及到各种数据抽取程序 , 不同的用户设计的抽取程序不同 , 导致 :
- 抽取数据的时间不同
- 抽取数据算法不同
- 抽取数据级别不同
- 参考的外部数据不同
结果导致针对相同的问题 , 不同的节点产生不同的分析结果 ;
③ 数据不一致问题 : 多个应用之间数据格式不一致 ;
- 数据库相同字段数据类型不同 , 如标识 ID , 有使用 Int 类型 , 有使用 String 类型的 ;
- 数据库相同字段数据名称不同 , 学生名称有使用 name 作为字段名称 , 有使用 studentName 作为字段名 ;
- 字段名称类型相同 , 含义不同 , name 作为学生名称 , 学校名称 等 ;
④ 外部数据 和 非结构化数据 : 使用爬虫爬下来的文本 , 图片 , 视频 等信息 , 结构形式各不相同 ;
七、数据集成问题 : 数据仓库引入
DSS 对数据集成需求迫切 :
- 工作繁杂 : 数据集成工作繁杂 , 如果全部由开发者实现 , 负担很大 ;
- 效率低下 : 如果每次分析都要集成一次 , 处理效率很低 ;
DSS ( Decision Support System ) 决策支持系统 对数据集成的需求 , 是数据仓库出现的最重要的原因 ;
八、数据动态集成问题
数据动态集成问题 :
- 静态集成 : 集成后 , 数据与数据源不再进行关联 ; 之后数据源改变 , 集成的数据不再变化 ;
- 动态集成 : 集成后 , 每隔一定周期 , 就要同步一次集成数据 ;
九、历史数据问题
历史数据问题 :
- 事务处理系统 : 数据库中 , 存储的都是当前数据 , 或 短期数据 ;
- 分析处理系统 : 数据仓库中 , 需要历史数据 ,
十、数据综合问题
DSS 决策支持系统 分析的对象 :
- 不分析 细节数据
- 分析前 先要对细节数据进行 不同程度的 综合
事务处理系统 分析的对象 :
- 主要处理 细节数据
- 不进行数据 综合 , 该系统下降综合作为数据冗余 , 限制综合 ;