登陆注册
8863000000021

第21章 数据库与数据仓库(4)

数据仓库中的信息存储,是根据对数据的不同深度处理来分成不同层次的。其结构一般划分为以下几个方面。

①历史性详细数据层。它存储历史数据,供分析、建模、预测之用。

②当前详细数据层。存储最新详细数据,是进一步分析数据的基础。

③不同程序的归纳总结信息层。可包含多个层次,根据所需分类和归纳的不同深度而定,如按周、月、年统计的数据。

④专业分析信息层。进一步专业分析的结果,如统计分析、运筹分析、时间序列分析及表面数据的内在规律分析等。

⑤结构信息。数据仓库的内部结构信息,反映各种信息在数据仓库中的位置分布和处理方式等,以便检索查询之用。

5)数据仓库工具的组成

一个典型的数据仓库产品应包括以下几个部分:数据集市、关系数据库、数据源、数据准备区、各种服务工具等。

(1)数据集市

数据集市是数据仓库的子集,是按照主体从数据仓库中划分的数据集合。它可以理解为是一个小型的部门或者工作组级别的数据仓库。

(2)关系数据库

关系数据库是数据仓库非常重要的组成部分,数据仓库要想发挥真正的威力,必须由关系数据库为其提供强大的基础引擎。

(3)数据源

使用数据仓库的根本目的是向企业决策制定者提供各种决策信息,因此数据仓库必须将企业内部或外部的各种信息集中起来,合并为一致的数据集。数据仓库必须把来自不同数据源的数据收集并整理好,以准确地反映企业的业务运作情况和历史状态。虽然这些数据源的数据不能直接用于决策支持,但也必须将其捕获到数据仓库中,因为这些长期积累的数据是建立数据仓库的重要基础。

(4)数据准备区

数据准备区又称数据中间存储区,它是一个关系数据库,数据仓库从其他数据源所抽取的数据首先保存在这个关系数据库中,在此将数据转换为数据仓库所要求的统一格式,检查数据的一致性与引用完整性,并准备载入数据仓库中。

(5)

数据仓库需要相关工具来分析和评估数据仓库中浩瀚的数据,如联机分析处理(OLAP)、数据挖掘工具、预定义报表等。此外,还要预留支持用户开发自定义工具的应用程序接口。

2.数据挖掘

1)数据挖掘的概念

数据挖掘(DataMining),又称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。简单来说,数据挖掘就是从大量数据中提取或“挖掘”知识。典型的数据挖掘系统结构如图414所示。

图414典型数据挖掘系统结构

并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(InformationRetrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也用来增强信息检索系统的能力。

2)数据仓库与数据挖掘的关系

数据挖掘和数据仓库作为决策支持新技术,在近10年来得到了迅速发展。数据仓库和数据挖掘是相互结合起来一起发展的,二者是相互影响、相互促进的。二者的关系可以概括为以下几点。

①数据仓库为数据挖掘提供了更好的、更广泛的数据源。数据仓库中集成和存储着来自异质的信息源,而这些信息源本身就可能是一个规模庞大的数据库。同时数据仓库存储了大量长时间的历史数据,这就可以进行数据长期趋势的分析,为决策者的长期决策行为提供。

②数据仓库为数据挖掘提供了新的支持平台。数据仓库的发展平台不仅仅是为了数据挖掘开辟了新的空间,更对数据挖掘提出了更高的要求。数据仓库的体系机构努力保证查询和分析的实时性。

③数据仓库为更好地使用数据挖掘工具提供了方便。数据仓库的建立,充分考虑到数据挖掘的要求。用户可以通过数据仓库服务器得到所需要的数据,形成开采中间数据库,利用数据挖掘方法进行开采并获得知识。数据仓库为数据挖掘集成了企业内各部门的全面的、综合的数据。数据仓库中的数据已经被充分地收起来,进行了整理、合并,并且有些还进行了初步的分析处理,使数据挖掘的注意力能够更集中于核心处理阶段。

④数据挖掘为数据仓库提供了更好的决策支持。基于数据仓库的数据挖掘能更好地满足高层战略决策的要求。数据挖掘对数据仓库中的数据进行模式抽取和知识发现,这些正是数据仓库所不能提供的。

⑤数据挖掘对数据仓库的数据组织提出了更高的要求。数据仓库作为数据挖掘的对象,能为数据挖掘提供更多、更好的数据,其数据的设计、组织都要考虑到数据挖掘的一些要求。

⑥数据挖掘还为数据仓库提供了广泛的技术支持。数据挖掘的可视化技术、统计分析技术等都为数据挖掘提供了强有力的技术支持。

总之,数据仓库在纵向和横向都为数据挖掘提供了更为广泛的活动空间。数据仓库完成数据的收集、集成、存储、管理等工作,数据挖掘面对的是经初步加工的数据,使得数据挖掘能更专注于知识的发现。又由于数据仓库所具有的新特点,对数据挖掘提出了更高的要求。另一方面,数据挖掘为数据仓库提供了更好的决策支持,同时促进了数据仓库技术的发展。可以说,数据挖掘与数据仓库技术要充分发挥潜力,就必须结合起来。

3)数据仓库与数据挖掘的区别

数据仓库是一种存储技术,它的数据存储量是一般数据库的百倍,它包含了大量的历史数据、当前的详细的数据及综合数据,能为不同用户的不同决策需要提供所需的数据和信息。

4)数据挖掘方法与算法

数据挖掘有两种类型:一种是自下而上的方法,称之为有监督的数据挖掘方法;另一种是从下往上的方法,这种方法让数据自己解释自己,在数据中寻找模式,然后把产生的结果留给使用者去判断,找出哪些模式是重要并有用的。目前常见的主要有以下几种。

①特征概括(DataCharacterization)。特征概括是目标类数据的一般特征或特性的汇总,如饼图、条图、曲线、多维数据立方体等形式,还能实现数据的区分。

②分类预测(Classfication&Prediction)。分类与预测的区别在于,分类是对离散值变量的估计,而预测是对连续变量的估计。

③聚类分析(Clustering)。聚类和分类建立分类模型,主要有监督学习(分类)和非监督学习(聚类)之分。

④规则提取。关联知识(Association)决定哪些事件将一起发生。

⑤异常检测。描述一些数据与数据的常规行为不一致,揭示其偏离常规的异常现象。

这些数据往往是一些极端数据,有时也称孤立点。

BP、、、、

模糊聚类、支持向量机、粗糙集、孤立点分析、Bayes网络等。要实现不同的数据挖掘功能,需要采用相应的合适算法。一般来说,要解决某个特定问题,可能有若干种算法,如图415所示的预测分类,就有BP神经网络、决策树、支持向量机3种算法。

图415数据挖掘功能与其实现的算法

5)数据挖掘的主要应用方向

(1)财务分析的数据挖掘

大多数银行保险和金融机构都提供多种银行服务,如核算、存储、商业和个体客户服务、信贷、贷款等,可获得的财务数据往往完整性好,可行度高,质量也好,方便进行系统化的数据分析和数据挖掘,以提高公司的竞争力。

(2)电信行业的数据挖掘

像AT&T这样的公司已经宣布数据挖掘的应用,改进了他们的销售活动,而Lightbridge公司使用数据挖掘技术来解决电信业的欺诈行为,数据挖掘技术正在电信行业获得越来越深入、越来越广泛的应用。

(3)零售业的数据挖掘

微利时代的到来,使得零售商们比其他行业更早进入数据仓库阶段。由于零售业收集大量的销售数据、顾客购物记录、货物运送、消费模式等,尤其是由于Web与电子商务的风行,收集的数据量迅速增长,因此零售业成为数据挖掘的主要运用领域。

(4)生物医药学研究中的数据挖掘

以电子格式存储的病人记录及医学信息系统的发展产生大量的在线利用临床数据。用数据挖掘方法从这些数据抽取的规律性的、趋势和令人惊奇的事件,对辅助临床医生作出准确判断非常重要。

(5)证券行业中的数据挖掘

证券市场存在巨大的风险。证券公司应该能够给自己的客户提供大盘及各股的未来走势的信息,给客户的投资、选股提供有价值的参考,尽可能地回避风险。更何况,大多数证券公司本身就是证券的投资者。股票价格的变动受多方面因素的影响,而证券投资分析的方法,:,

庞大、复杂的研究课题,这就给了数据挖掘技术的运用提供了广阔的空间。

(6)冶金行业中的数据挖掘

采用数据挖掘技术,通过对冶金相关生产过程的历史数据、实时数据及正常工况数据的预处理与数据挖掘建模,开发具有指定功能的计算机用户界面软件,实现在线或离线的数据分析处理平台,以解决设备的负荷能力评价和操作参数优化问题,同时为工艺人员掌握过程的控制机理并进一步提高生产管理水平提供一个良好的工作平台。

(7)电子商务中的数据挖掘

电子商务网站每天都会产生大量的数据,运用数据挖掘技术可以从这些数据中发现对市场分析及预测非常有益的信息。

数据挖掘是信息技术和数据处理的必然潮流,是商务智能的核心和灵魂。可以说,只要有大量的复杂数据产生和分析需求,就有数据挖掘的用武之地。数据挖掘技术和相关的系统软件将会得到越来越广泛的应用。

习题

一、名词解释

1.数据库2.记录3.DBMS4.DBS5.概念模式6.数据模型7.概念模型

8.键或码9.数据操作10.1NF11.2NF12.3NF13.关系14.关系模式15.数据仓库16.数据挖掘

二、简答题

1.数据库系统组织数据的特点是什么?

2.数据库系统与文件系统的区别是什么?

3.数据管理经历了哪几个阶段?各个阶段的特点是什么?

4.数据模型的三要素是什么?

5.数据库管理系统的主要功能是什么?

6.信息模型的要素有哪些?

7.试述概念模式在数据库中的重要地位。

8.举出实例,要求实体型之间具有一对一、一对多和多对多的联系。

9.实体之间的联系方式有几种?不同的联系方式在转换为关系模型时的处理方式有什么不同?

10.什么是ER图?构成ER图的基本要素是什么?如何将ER模型转换为关系模型?

11.某工厂生产多种产品,每种产品又要使用多种零件,一种零件可能装在多种产品上。每种零件由一种材料制造,每种材料可用于不同零件的制作。有关产品、零件、材料的数据字段如下。

:(GNO),(GNA),(GUP)

零件:零件号(PNO),零件名(PNA),单重(UW),单价(UP)材料:材料号(MNO),材料名(MNA),计量单位(CU),单价(MUP)以各产品需要各种零件数为GQTY,各零件需要的材料数为PQTY。

(1)请画出产品、零件、材料的ER图。

(2)请将该ER图转换为关系数据模型。

12.教学管理涉及的实体有

教员:职工号、姓名、年龄、职称

学生:学号、姓名、年龄、性别

课程:课程号、课程名、学时数

这些实体间的联系如下:一个教员只讲授一门课程,一门课程可由多个教员讲授;一个学生学习多门课程,每门课程有多个学生学习。请画出教员、学生、课程的ER图,并构造其关系数据模型。

三、单选题

1.DBMS对数据库的保护主要通过4个方面实现,因而在DBMS中应该包括以下4个子系统:数据库的并发控制、数据库的恢复、数据完整性控制和()。

A.数据的检索B.数据的更新

C.数据安全性控制D.数据的存储

2.在数据库系统的三级模式结构中,外模式通常还称为()。

A.用户模式B.内模式C.物理模式D.概念模式

3.实体型与实体型间的联系方式有()种。

A.1B.2C.3D.4

4.若联系为m∶n,则关系的码为所连接的()。

A.n端和m端的码的组合B.n端的码

C.m端的码D.都不是

5.数据仓库有4个重要的特点:面向主题、相对稳定的、反映历史变化和()。

A.分散的B.合并的C.集中的D.集成的

同类推荐
  • 书香浪漫的文艺之都

    书香浪漫的文艺之都

    本书介绍了石雕之乡惠安、戏剧之都潜江等中国人文气息浓郁之地,以及著名的音乐圣地维也纳、世界先锋艺术的中心柏林、澳大利亚文学的摇篮墨尔本、文艺复兴的重镇佛罗伦萨等世界文艺都会共42座城市。
  • 湘行散记

    湘行散记

    《湘行散记》是中国现代文学史上的散文经典,书写了一个纯美的“湘西世界”,其中有以人物来命名的《一个戴皮帽子的朋友》《一个爱惜鼻子的朋友》;有以地点来命名的《桃源与沅州》《箱子岩》;而《滕回生堂的今昔》是从“滕回生堂”的历史和现实的两个维度来描述的,明朗淳朴的湘西风光在作者灵动自然的山水中再现一份难言的美好。同时也呈现了作家对生命、对社会的真诚态度,将会带给读者一份深沉的思索。
  • 学生素质教育丛书-在五星红旗下成长

    学生素质教育丛书-在五星红旗下成长

    本套丛书共分为:美育教育读本,在五星红旗下成长,学生素质培养读本,启智教育读本,学生行为规范读本,艰苦奋斗教育读本,传统美德教育读本,禁毒教育读本,家长学校读本,英雄主义教育读本。针对学生素质教育面临的重要问题,详细地论述了学生综合素质教育的基本内容。
  • 礼仪教材:中学生礼仪(初中版)

    礼仪教材:中学生礼仪(初中版)

    本书依据《中小学文明礼仪教育指导纲要》要求、针对初一至初三年级学生编写,分为校园礼仪、家庭礼仪、公共礼仪、服饰礼仪四章,在学生养成文明习惯的基础上,进一步培养学生热心参与社交活动、与人友好交往的能力。校园礼仪重点:使学生在参与集体活动时能遵守相关的规则和要求;掌握在公开场合发言的礼仪;与异性同学交往的礼仪。家庭礼仪重点:使学生理解父母的操劳,家人的可贵,懂得感恩;掌握拜访接待的基本礼仪,可热情、大方地与他人交往;掌握与人交谈时的礼仪要求,能宽容、礼让他人。
  • 学校科技教学的创新指导与实施(下)

    学校科技教学的创新指导与实施(下)

    科学是人类进步的第一推动力,而科学知识的普及则是实现这一推动的必由之路。在新的时代,社会的进步、科技的发展、人们生活水平的不断提高,为我们青少年的科普教育提供了新的契机。抓住这个契机,大力普及科学知识,传播科学精神,提高青少年的科学素质,是我们全社会的重要课题。
热门推荐
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 灭神大战

    灭神大战

    夏雨突然在玄天大陆重生了,带着前世的感伤,被亲人抛弃,从一个废物修炼到巅峰人生。
  • 天兵行

    天兵行

    物理博士在正负物质对撞的“湮灭”试验中坠入时空乱流,来到公元元年,就是下界汉朝,天庭封神一千年后,佛门将要佛法东渐,道门却是日渐势微。有圣人不屈末法时代之大寂灭,召来大道之中天道之外的主角,意欲搅乱诸天,谋求生机,于是主角做了天庭边地天兵,因福缘加身,得了造化,便在唐僧前面走了一趟西游,坏去西方的诸多布置,削了不少佛门功德以及后面的一系列故事。
  • 世纪末推异神话

    世纪末推异神话

    这里是异常聚集的世界,隐藏着数不尽的传说。这个世界原本没有色彩,非黑即白。与异常相伴的巩圭,总是在十字路口彷徨,他的大脑所思之处,蒐集着智与慧的迷雾;他的视线所及之处,隐藏着光与影的假象;他的五感所觉之处,深埋着杂与乱的真相。人间科技蓬勃发展的今日,与常理相抗的异常也在接踵而至。那么,双眼目视的异常背后到底会呈现出怎样的事实?就请心如止水的您,注视这光怪陆离的世界吧。ps:微推理+废话流,第一人称不喜误入。
  • 魔武艳阳

    魔武艳阳

    人善惨遭人欺,马善痛受人骑,曾经九世好人,终成六道恶棍,猎尽酒色财气,尝遍权欲荣华,神阻将神消灭,佛阻把佛铲除。娇美玉盈的校花,端庄秀雅的老师,妩魅炽辣的魔女,惊艳婀娜的特工……品香赏媚享用温柔!求砖,求藏,求票,你的支持是我最大的动力,谢谢!
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 毒妃榻上训:王爷,认真点

    毒妃榻上训:王爷,认真点

    一朝穿越,纳尼?母亲被害死?每天都要担心会不会被刺杀?姐可是21世纪的高新人类,怎可能被你们一群古董打败!踩姨娘,踩庶妹,踩渣渣,毫不手软!某女数着银子唱着歌,这开挂的人生简直不要太舒坦。等等,谁能告诉她,这个权倾天下的王爷,死缠烂打是闹哪样?“王妃,吃干抹净就想跑?”某王爷邪魅一笑,将脚底打滑的某女抓了回去。次日,某女揉腰欲哭无泪:妈蛋!出来混果然是要还的!
  • 科学知识大课堂——与科学家相约

    科学知识大课堂——与科学家相约

    作为一套普及科学知识的通俗读物,本书有别于专业的学术论著,侧重于知识性、趣味性、实用性,注重对青少年科技素质的培育、科学兴趣的培养、科学精神的塑造与科学方法的启迪,不求面面俱到,但求言之有物,物有所指,指有所发。
  • 古希腊与古罗马:历史纵横谈

    古希腊与古罗马:历史纵横谈

    本书从古代文明、世界宗教、探索与发现、科学与技术、医学、古代武器与战争等若干方面,介绍了世界历史的发展进程。文字简洁,集知识性与科学性于一身,体例编排得当,每一部分的知识形成系统、科学的有机整体,方便读者高效、全面地获得相应知识储备。