财务数据仓库系统的设计与实现
【摘要】
近年来,数据仓库技术在信息系统的建设中得到了广泛应用,有效地为决策提供了支持。2004年6月,本人所在单位组织开发了财务管理决策系统,该系统主要是使高层领导掌握企业的经营状况及进、销、存情况,分析市场趋势。 本文通过对财务数据的分析,结合数据仓库开发原理,完成对财务数据仓库的数据组织,介绍了财务数据仓库的设计和实现方法方法。财务数据仓库的设计歩骤主要是逻循数据库设计的过程,为分概念模型的设计、逻辑模型设计、物理模型设计和数据仓库生成等几个阶段。 目前,该项目已顺利上线,领导反映良好。在该项目中,本人担任系统分析师职务,主要负责系统架构设计和数据仓库的设计工作。
【正文】
2004年6月,我所在的单位为了快速适应市场的变化,使高层领导及时掌握企业的经营状况及进、销、存情况,分析市场趋势,决定开发财务数据仓库系统。在该项目中,本人担任系统分析师职务,主要负责系统架构设计和数据仓库的设计工作。在这个系统的设计过程中,我们逻循了数据库设计的过程,整个财务数据仓库的设计歩骤如下:
- (1)概念模型的设计;
- (2)逻辑模型设计;
- (3)物理模型设计;
- (4)数据仓库生成。
1、概念模型的设计
进行概念设计所要完成的主要工作有:
- (1)决策需求分析:对于数据仓库系统而言,决策者最为迫切的需求在于,更加准确的掌握企业的经营状况及进、销、存情况,包括分析进货趋势,分析销售市场波动趋势,分析企业存货情况,分析市场经营状况发展趋势。所要求的操作数据库的数据有商品进货数据、商品销售数据、商品库存数据、顾客信息和销售商信息。
- (2)确定系统的主题域及内容在上述需求分析的基础之上,我们可以确定企业财务仓库系统的3个主题,分别是商品、顾客和销售商。如图所示:
2、逻辑模型设计
商品、顾客、销售商是财务数据仓库的3个主题,是其经营运作3个框架。商品主题描述企业商品分类及销售情况;顾客主题描述了企业对顾客进行分类及有关顾客合同的管理情况;销售商主题描述了企业销售人员销售商品及销售地区情况。其中商品主题作为中心,将这3个主题联系起来。它们的内容列出如下:
- (1)商品:商品固有信息(商品代码、商品名称、商品类别等);商品库存信息(商品代码、库房号、库存量、日期等);商品销售信息(商品代码、顾客代码、销售日期、销售单价、销售数量等);
- (2)顾客:顾客固有信息(顾客代码、顾客名称、地址号、电话等);顾客合同信息(顾客代码、合同代码、起始日期、终止日期、数量、价格等);顾客购货信息(顾客代码、商品代码、单价、数重、日期等);
- (3)销售商:销售商固有信息(销售商代码、销售商品、销售商品名、销售商地址等);销售商地区信息(销售商代码、销售地区名、电话等)。 以“商品”为主题可以看到,首先,在从面向应用到面向主题的转变过程中,丢弃了原来不必要、不适合分析的信息,如各类领料单、出库单、入库单等;棋次,在原有数据库模式中,有关商品的信息被分散在各个子系统中,如:商品销售信息存放于数据管理子系统,商品库存信息存放于商品库管理子系统中等,根本没有形成一个有关商品的完整一致的描述。面向主题的数据组织形式所实现的就是要形成商品一致的信息集合,以便在此基础上针对“商 品”这一分析对象进行分析处理。
3、物理模型设计
- (1) 确定数据存储结构 通过定义功能/数据的交叉参照图,决定谁需要访问哪个范围的数据。毎个数据仓库实施的最初阶段,必须标明最终用户的词汇表,定义恰当的商业术语,与底层数据联系起来。 由于数据仓库本身通常是面向主观意识的,基于最终用户的需求,创建数据仓库的第一歩是识别和分析有关的内部数据和外部数据源。 数据模型在将内部和外部操作数据转换和集成到数据仓库里的过程中起着关键性的作用。在这个阶段,系统分析师必须收集信息,实施从数据源到数据模型的逻辑转换,确定数据保存在数据库当中 创建词汇表、清除数据是产品数据与仓库数据之间的转化基础。词汇表是关于数据的数据。对于决策支持分析员来说,它是一个确定数据位置、理解计算法则的商业定位指导。清除数据和过滤数据包括转换数据、巩固数据和通过应用一致的命名法则协定解决在操作数据库中数据不一致的问题。 从长远的角度优化数据仓库,系统必须是灵活的,可扩充的,模块化的,以便有足够的能力去适应系统的不断増长。
- (2)确定索引策略 由于数据仓库的数量比较大,因此在库结构设计时将毎一个子库设计为树型索引结构,初始结点为所要决策的主题,其中间结点即为不同优先级的与该主题有关的查询角度与层次,而最终结点为经过预处理的有定义的数据集合。
4.数据仓库的实现
- (1)接口设计 在财务数据仓库中有几种方式:菜单式、问答式和图形式。接口设计涉及如下几个模式:输入响应模块、输出模块、人机对话管理模块和外围设备。由于时间和篇幅有限,这里就不详细介绍这些方式和模块了。
- (2)数据的采集 接口设计结束后,下一歩工作就是将数据采集到数据仓库中。数据采集是将原始数据从多个传统事务处理数据库系统中提取出来进行清洗,集成等有关处理,使之符合数据仓库环境中对数据质量的要求后再装载入数据仓库中。 数据采集的主要工作有确定数据源的次序、元数据的管理、粒度划分、数据分割和数据的定期维护。数据在装入数据仓库底层的目标数据库后,还要完成的任务包括数据的定期清理、刷新、重建索引、初歩划分主题等工作。 目前,该系统已经上线并顺利运行了一段时间,达到了开发的目标,为高层领导决策提供了可靠的数据来源和支持,得到了单位领导的一致好评。数据仓库技术的发展包括数据抽取,存储管理,数据表现和方法论等方面。 在数据抽取方面,未来的技术发展将集中在系统集成化。它将互连、转换、复制、调度、监控纳入标准化的统一管理、以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。 在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为服务器产品与数据库服务器并驾齐驱。在这一方面,帯有决策支持扩展的并行关系数据库将最具发展潜力。 在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,同时与Internet/Web技术紧密结合,推出适用于Intranet和终端免维护的数据仓库访问前端。数据仓库实现过程的方法论将成为数据库设计的一个明确分支,并将成为管理信息系统设计的必备。