【DBMS 数据库管理系统】数据库 -> 数据仓库 ( 数据处理类型 | 传统数据库 | 数据库不适用于分析型应用 )

2023-03-28 16:33:00 浏览数 (2)

文章目录

  • 一、数据处理类型
  • 二、传统数据库技术
  • 三、传统数据库 不适用于 分析型 ( DSS 决策支持系统 ) 应用 原因
  • 四、事务性处理 与 分析型处理 性能特性不同
  • 五、数据集成问题
  • 六、数据集成问题 : 数据分散原因
  • 七、数据集成问题 : 数据仓库引入
  • 八、数据动态集成问题
  • 九、历史数据问题
  • 十、数据综合问题

一、数据处理类型


数据处理类型 :

① 操作型处理 : 又称为 事务型处理 ;

  • 处理内容 : 与业务活动相关 , On-Line Transaction Processing ( OLTP ) 联机事务处理过程 ;
  • 主要作用 : 对数据联机的日常操作 , 对一个或一组数据进行查询 , 修改 ; 关注 响应时间 , 数据安全性 , 完整性 ;
  • 示例 : 与业务相关的操作 ( 如网上购物 , 各种网络应用等 ) , 要求反应时间快 , 占用资源少 ;

② 分析型处理 :

  • 处理内容 : 与决策活动相关 , OLAP 联机分析处理过程 ;
  • 主要作用 : 用于管理人员决策分析 , DSS 决策支持系统 , EIS 企业信息系统 , 多维分析 , 需要访问大量历史数据 ( 5 ~ 10 年 时间跨度大 / 企业内外 数据范围广 ) ;
  • 示例 : 由管理人员使用 , 如 CEO , CFO 等 , 对企业数据进行分析 , 然后做出决策 ;

上述两种操作差异巨大 , 操作型处理 和 分析性处理 的数据必须 分离存放 ;

在数据仓库出现之前 , 上述两种处理类型都放在数据库中进行处理 , 其中分析性处理效果不好 , 因此提出不同的数据类型 , 放在不同的数据载体中 :

  • 操作型 : OLTP 联机事务处理 , 数据放在 数据库 中 ;
  • 分析性 : OLAP 联机分析处理 , 数据放在 数据仓库 中 ;

二、传统数据库技术


传统数据库技术 :

  • 数据资源 : 单一的数据资源 , 数据库 ;
  • 进行的处理 : 事务处理 , 批处理 , 决策分析 , 等各种类型数据处理工作 ;

不同数据处理有不同的要求 : 上述数据处理有不同的特点 ;

  • 反应时间 : 有的要求反应执行时间快 , 有的不要求实时性 ;
  • 返回数据量 : 有的需要获取大量数据 , 有的只需要返回一个值 ;

传统数据库弊端 : 单一的数据组织方式 ( 传统数据库 ) , 无法满足数据处理多样化需求 ;

传统数据库 重要性 :

  • 数据库是所有 信息系统基础 ;
  • 主要用于 事务处理方面 ;
  • 发展阶段 : ① 网状数据库 , ② 层次数据库 , ③ 关系数据库 ;

不适合分析型应用 : 传统数据库很重要 , 扔发挥着重大作用 , 但是在分析型应用中 , 使用数据库存储数据不太适合 ;

数据库 不适合 分析型应用 ( DSS ) :

  • 数据库的三级模式 : 内模式 , 外模式 , 模式 ;
  • 外模式 : 任何数据库应用都是 建立在外模式之上的 , 需要进行编程实现 ;
  • 数据库对 DSS 支持有限 : 传统数据库 的 即席查询功能 , 支持 DSS ( 分析型应用 ) 的需求 , 但是支持的不是很好 ;
  • 效率低下 : DSS ( 分析型应用 ) 关注 模型 与 方法 , 没有 在数据库管理系统层面上 的支持 ; 每个应用都需要编写一个程序 , 几百上千次分析决策 , 就需要编写对应的应用程序 , 这样效率很低下 ;
  • 数据仓库引入 : 如果有一个系统已经将上述 模型 与 方法 实现好 , 可以支持成千上万个应用 , 不用为每个单独的应用编写程序 ; 这里就引入了数据仓库 ;

三、传统数据库 不适用于 分析型 ( DSS 决策支持系统 ) 应用 原因


事务处理环境 不适用于 分析型 ( DSS - Decision Support System 决策支持系统) 应用原因 :

  • 事务性处理 与 分析型处理 性能特性不同
  • 数据集成问题
  • 数据动态集成问题
  • 历史数据问题
  • 数据的综合问题

四、事务性处理 与 分析型处理 性能特性不同


用户行为模式 :

  • 事务型处理 : 数据存取频率高 , 每次操作要求时间短 ;
  • 分析型处理 : DSS 运行时间长 , 消耗资源多 , 运行频率低 ;

五、数据集成问题


DSS 分析型应用需要的数据 :

  • DSS 数据 : 需要全面 , 集成 的数据 , 时间跨度很长 , 来源很多 , 企业内部数据 , 外部数据 , 竞争对手数据 ;
  • 事务处理数据 : 只有当前业务部门数据 , 企业范围数据没有集成 , 需要额外开发程序收集这些数据集成起来 ; 数据是分散的 ;

六、数据集成问题 : 数据分散原因


数据分散原因 : ① 事务处理应用分散 , ② 蜘蛛网问题 , ③ 数据不一致问题 , ④ 外部数据 和 非结构化数据 ;

① 事务处理应用分散 : 应用本身就是分散的

  • 应用独立 : 企业的 每个应用的 事务处理 都是相互独立的 ;
  • 设计针对当前问题 : 设计系统时 , 每个系统只是针对当前问题而设计 , 如财务系统 , 只针对财务问题 , 客户管理系统 , 只针对客户管理问题 ;
  • 不考虑后续问题 : 设计时 , 不考虑以后可能出现的新问题 ;

② 蜘蛛网问题 : 分析型应用中 , 需要抽取数据 , 那就涉及到各种数据抽取程序 , 不同的用户设计的抽取程序不同 , 导致 :

  • 抽取数据的时间不同
  • 抽取数据算法不同
  • 抽取数据级别不同
  • 参考的外部数据不同

结果导致针对相同的问题 , 不同的节点产生不同的分析结果 ;

③ 数据不一致问题 : 多个应用之间数据格式不一致 ;

  • 数据库相同字段数据类型不同 , 如标识 ID , 有使用 Int 类型 , 有使用 String 类型的 ;
  • 数据库相同字段数据名称不同 , 学生名称有使用 name 作为字段名称 , 有使用 studentName 作为字段名 ;
  • 字段名称类型相同 , 含义不同 , name 作为学生名称 , 学校名称 等 ;

④ 外部数据 和 非结构化数据 : 使用爬虫爬下来的文本 , 图片 , 视频 等信息 , 结构形式各不相同 ;

七、数据集成问题 : 数据仓库引入


DSS 对数据集成需求迫切 :

  • 工作繁杂 : 数据集成工作繁杂 , 如果全部由开发者实现 , 负担很大 ;
  • 效率低下 : 如果每次分析都要集成一次 , 处理效率很低 ;

DSS ( Decision Support System ) 决策支持系统 对数据集成的需求 , 是数据仓库出现的最重要的原因 ;

八、数据动态集成问题


数据动态集成问题 :

  • 静态集成 : 集成后 , 数据与数据源不再进行关联 ; 之后数据源改变 , 集成的数据不再变化 ;
  • 动态集成 : 集成后 , 每隔一定周期 , 就要同步一次集成数据 ;

九、历史数据问题


历史数据问题 :

  • 事务处理系统 : 数据库中 , 存储的都是当前数据 , 或 短期数据 ;
  • 分析处理系统 : 数据仓库中 , 需要历史数据 ,

十、数据综合问题


DSS 决策支持系统 分析的对象 :

  • 不分析 细节数据
  • 分析前 先要对细节数据进行 不同程度的 综合

事务处理系统 分析的对象 :

  • 主要处理 细节数据
  • 不进行数据 综合 , 该系统下降综合作为数据冗余 , 限制综合 ;

0 人点赞