正确答案:(1)面向主题:数据仓库是面向主题的而传统联机事务处理环境是面向应用的。
(2)集成:数据仓库是集成的数据仓库中的数据是从多个不同的数据源传送来的当数据进入数据仓库时就需要进行转换、重新格式化、重新排列及汇总等以得到具有单一映像的数据。
(3)非易失性:传统联机事务处理环境中的数据一般是按一次一条记录的方式进行的而且数据一般也是必须更新的但数据仓库中的数据通常是以批量的方式进行载人与访问的而且数据仓库中的数据并不进行一般意义上的更新。
(4)时变性:数据仓库中的每个数据单元都只是在某一时间点是准确的仓库中的记录都包含了时间戳以说明数据在哪一时间是准确的。
简述数据仓库的基本特征。
第二步:根据问题要点仔细阅读正文找出相应段落
(1)抽取程序它的作用就是根据用户给定的搜索条件搜索指定的数据库或者文件将满足条件的数据传送到另一个数据库或文件中。
(2)“不同的部门可以根据自己的需求来选取数据”这是一个解决数据可信性问题的一个关键线索。
(3)支持多级抽取在抽取数据的过程中一个职能部门也可以从另外一个职能部门抽取的结果中进行第二次抽取。
(4)数据仓库技术的应用背景。由于公司业务的扩展管理层需要更多类型的报表以支持决策公司决定建立数据仓库来支持决策支持系统。
第三步:分析试题的内容构思答案的要点
(1)面向主题:数据仓库是面向主题的,而传统联机事务处理环境是面向应用的。
(2)集成:数据仓库是集成的,数据仓库中的数据是从多个不同的数据源传送来的,当数据进入数据仓库时,就需要进行转换、重新格式化、重新排列及汇总等,以得到具有单一映像的数据。
(3)非易失性:传统联机事务处理环境中的数据一般是按一次一条记录的方式进行的,而且数据一般也是必须更新的,但数据仓库中的数据通常是以批量的方式进行载人与访问的,而且数据仓库中的数据并不进行一般意义上的更新。
(4)时变性:数据仓库中的每个数据单元都只是在某一时间点是准确的,仓库中的记录都包含了时间戳,以说明数据在哪一时间是准确的。
简述数据仓库的基本特征。
第二步:根据问题要点,仔细阅读正文,找出相应段落
(1)抽取程序,它的作用就是根据用户给定的搜索条件,搜索指定的数据库或者文件,将满足条件的数据传送到另一个数据库或文件中。
(2)“不同的部门可以根据自己的需求来选取数据”,这是一个解决数据可信性问题的一个关键线索。
(3)支持多级抽取,在抽取数据的过程中,一个职能部门也可以从另外一个职能部门抽取的结果中进行第二次抽取。
(4)数据仓库技术的应用背景。由于公司业务的扩展,管理层需要更多类型的报表以支持决策,公司决定建立数据仓库来支持决策支持系统。
第三步:分析试题的内容,构思答案的要点 解析:[问题1]
抽取程序是一个简单的程序,它通过搜索整个文件或数据库,使用某些标准选择合乎限定的数据,并把数据传到其他文件或数据库中。由于以下2个方面的原因,使得抽取程序很快就变得十分流行起来。
(1)因为用抽取程序能够将数据从高性能联机事务处理方式中转移出来,所以在需要总体分析数据时不与联机事务性能发生冲突。
(2)当用抽取程序将数据从操作型事务处理范围内转移出时,数据的控制方式就发生了转变,最终用户一旦开始控制数据,他就最终“拥有”了这些数据。
从上面的描述中,应试者不难总结出使用数据抽取程序的优点。
[问题2]
由于数据抽取可以多级进行,起初只是抽取,随后是抽取之上的抽取,接着是在此基础上的再次抽取,因此将形成抽取处理的蜘蛛网结构。显然,这种被称为“自然演化体系结构”的抽取过程是很容易失控的。
这种自然演化的体系结构带来的最大问题包括数据可信性、生产率和数据转化为信息的不可行性。下面分别介绍。
(1)数据缺乏可信性
正如题目中所述,数据抽取可能会出现“2个职能部门向管理层提交报表,一个部门认为公司业绩下降了5%,另一个部门认为公司业绩上升了20%”的现象,而且无法协调,到底是谁的数据可信呢?造成这一现象的主要原因是什么呢?
①数据无时基:例如,某个部门进行数据抽取时采用的数据是上周末的数据,而另一个部门却是基于本周四的数据进行数据抽取,这必然导致差异的存在。而且由于企业的数据实时在变化,多个抽取过程所基于的数据是不可能一致的。
②数据算法上的差异:在数据分析时所采用的算法上,不同的抽取过程可能不同。例如,一个部门对所有老顾客进行分析,而另一个部门则是基于大顾客进行的分析,那么结果出现不同的话,完全在情理之中。
③抽取的多层次:每次新的抽取结束时,由于抽取时间和采用的算法不同,因而产生的抽取结果也就不相同。在公司中,从数据进入公司系统到决策者准备好分析所采用的数据,经常需要经过很多次的抽取,8~9层的抽取也是十分常见的,因此最后产生的差异将显然地被放大。
④外部数据问题:由于利用当今的计算机技术、网络技术,是很容易从外部数据源取得数据的。如果分析者采用了不同的外部数据源,那么抽取出来的结果产生差异也在情理之中。
⑤无起始公共数据源:另外,由于在企业中数据源很多,如果执行抽取的人采用的数据源不相同的话,那么产生这种差异也是十分正常的。
由于这5个方面的原因,在企业或机构中,使用这种自然演化体系结构的数据抽取过程差生不可信的数据将成为很正常的现象。这也是产生数据仓库技术的重要原因之一。
(2)生产率问题
数据的可信性还不是自然演化体系结构中惟一的主要问题。当需要查询机构数据时,生产率是不可预测的,而且通常是很低的。由于企业在经营过程中经常会积累海量信息,因此在以下几个方面将存在着很大工作量。
①定位报表需要的数据并分析数据:要进行数据定位,必须分析很多文件和数据布局,但由于在企业数据库,同一个数据元素可能存在于多个数据库、多张表中,除非对数据进行分析和“合理化”处理,否则报表终将产生更大的混乱。
②为报表编辑数据:一旦数据定位完成,就需要进行数据编辑,但通常要写大量的定制的程序,而且这些程序通常涵盖了公司拥有的所有技术。
此外,要考虑公司为这项工作组织合适的人员的开销。
(3)从数据转化为信息的不可行性
该体系存在的第三个重要缺陷是抽取出来的还是数据,而不是信息(或称为知识)。由于该体系产生的数据缺乏集成性,应该没有办法提升到信息的高度,还需要决策者通过经验进行分析。这也是产生数据挖掘技术的重要原因之一。
通过上面的分析,可以充分地了解到数据抽取技术的不足与缺陷,理解这些缺陷产生的原因,应试者不难从中总结出问题2的答案。
[问题3]
从上面的分析中可以发现,自然演化体系结构的存在方式确实不足以满足日益发展的需求。因此体系结构需要转变,从而发展出了以数据仓库为核心的体系结构设计环境。体系结构设计环境的核心是意识到存在着2种基本数据:原始数据和导出数据。
(1)原始数据:即公司与机构每天操作运行所用的细节性数据,通常是以重复方式运行的过程操作。
(2)导出数据;即统计出来的或计算出来的满足公司管理者需要的数据,通常是由非重复地启发式地运行的程序操作。
现在数据仓库技术已经是决策支持系统处理的基础。数据仓库技术通过构建单一的集成的数据资源,使得数据可以访问。与传统数据环境相比,在该基础上决策支持处理系统分析员的工作要容易得多。
什么是数据仓库呢?著名的数据仓库专家W.H.Inmon在其著作Building the Data Warehouse一书中给予如下描述:数据仓库(data warehouse)是一个面向主题的(subjeet oriented)、集成的(integrate)、非易失的(non-volatile)且随时间变化的(time variant)的数据集合,用于支持管理决策。
(1)面向主题。操作型数据库的数据组织面向事务处理任务(面向应用),各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。例如,一个保险公司进行的事务处理(应用问题)可能包括汽车保险、人寿保险、健康保险和意外保险等,而公司的主要主题范围可能是顾客、保险单、保险费和索赔等。
(2)集成的。在数据仓库的所有特性中,这是最重要的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。表6-1说明当数据由面向事务处理的操作型数据向数据仓库传送时所进行的集成。有4个不同的应用系统,系统中对人的性别的标识如表6-1所示。
那么,在将4个系统的性别信息向数据仓库导人时就涉及集成问题,例如,可以统一将性别信息表示为m,f。
(3)相对稳定性(非易失性)。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。如图6-4说明了数据仓库的非易失性、相对稳定性。
图6-4说明了操作型数据环境下,是正规地一次访问和处理一个记录,可以对数据进行修改和更新。数据仓库中的数据却表现出不同的特性:数据通常是被一起载入和访问的,而且在数据仓库环境中并不进行一般意义上的数据更新操作。
(4)反映历史变化或者说是随着历史变化。操作型数据库主要关心当前某个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时间点 (如开始应用数据仓库的时间点)到目前的各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库专家w.H.Inmon所给出的定义刻画出了数据仓库的主要特点,问题3的解答可以根据上述讨论整理出来。