登陆注册
8863000000018

第18章 数据库与数据仓库(1)

4.1数据的描述与组织

1.三个世界

人们把客观存在的事物以数据的形式存储到计算机中,经历了对现实生活中事物特性的认识、概念化到计算机数据库里的具体表现的逐级抽象过程,即现实世界、信息世界、计算机世界3个领域。

(1)现实世界

存在于人们头脑之外的客观世界,称为现实世界。例如,学校教学管理中涉及的学生管理、教师管理、课程管理。管理者要求:每个学期开学时制作学生选修课程情况表,内容包括学号、姓名、课程名、选修课程的类别(类别分为必修、选修);每个学期结束时制作学生选修课程成绩表,内容包括学号、姓名、课程名、选修课程类别、总评成绩;制作教师授课安排表,内容包括教师号、姓名、课程名、授课类别(授课类别分为主讲、辅导、实验)、学时数、班级数等。这就是现实世界,是数据库设计者接触到的最原始的数据,数据库设计者对这些原始数据进行综合,抽象成为数据库技术所研究的数据。现实世界描述数据的形,。

(2)信息世界

信息世界是现实世界在人脑中的反映,是对客观事物及其联系的一种抽象描述,从而产生概念模型。客观事物在信息世界中称为实体,人们把它用文字和符号记载下来。例如,学生是客观世界中的实体,可以用一组数据(学号、姓名、性别、年龄、班级、成绩)来描述,有这样一组数据不见其人便可了解该学生的基本情况。因此,可以说信息世界就是我们所说的数据世界。

(3)计算机世界(或数据世界)

存入计算机系统里的数据是将概念世界中的事物数据化的结果。为了准确地反映事物本身及事物之间的联系,数据库中的数据必须有一定的结构,这种结构用数据模型来表示。数据模型将信息世界中的实体及实体间的联系进一步抽象成便于计算机处理的方式。信息世界中的数据在计算机世界中的存储,称为计算机的数据。

从现实世界到信息世界不再是简单的数据描述,而是从客观世界中抽象出适合数据库技术研究的数据,同时要求这些数据能够很好地反映客观世界的事物;从信息世界到计算机世界也不是简单的数据对应存储,而是要设计数据的逻辑结构和物理存储结构。所谓数据的逻辑结构,是指程序员或用户操作的数据形式,是抽象的概念化数据;所谓数据的物理结构,是指实际存储在存储设备上的数据。

将客观事物抽象(能用计算机存储和处理的)为数据过程的3个阶段,如图41所示。

图41客观事物抽象(能用计算机存储和处理的)为数据过程的3个阶段2.数据组织的层次

如果数据能够在限定的时间内被检索处理,这些数据就产生了价值,成为信息,因此需要将数据有序地组织起来,以便对数据进行有效的处理。数据的组织采用“分层”的思想来进行。

在3个世界中,数据组织的层次结构如图42所示。

从图42可以看出,在以计算机为主要手段的信息处理中,数据的组织一般分为:数据项———反映实体的某种属性;记录———反映一个实体或其部分;数据文件———反映某类实体;数据库———反映整个实体集合。

(1)数据项(字段)

数据项(或字段)是标记实体属性的命名单位,它是不可再分的数据单位。一般来说,。,,“”

图42数据组织的层次结构

一个数据项,它说明了某种产品,并可与其他产品相区别。同样,“单价”、“销售数量”、“销售金额”也都称为一个数据项,表示产品销售中某一方面的特性。同理,关于在校学生的记录中,“学号”、“姓名”、“性别”、“班级”等也是数据项,用于描述学生某些方面的特性,有时也称为属性。

(2)记录

记录是具有一定关系的数据项的有序集合。记录常用于说明一个客观存在的事物(或事物之间的联系),如将上述产品销售的有关数据排列在一起就可形成产品销售记录(产品代号、单价、销售数量、金额)。关于学生的记录可以表示为:学生(学号、姓名、性别、班级……)。在记录中,当某个或某几个数据项的值被确定时,这条记录就唯一被确定了,此时称这个或这几个数据项的联合为关键字。关键字是能唯一标识记录的数据项的最小集合。

(3)数据文件

文件是同一类记录的汇集。文件是描述实体集的,所以它又可以定义为描述一个实体集的所有记录集。例如,将某销售部销售的6种产品记录按产品代号顺序排列下来就形成了一个产品销售文件,如表41所示。

表41产品销售文件万元

文件

记录1

记录6

产品代号单价销售产量金额

A001508.0031524.00

B025120.00101200.00

B031112.005560.00

C002300.002600.00

C005350.002700.00

C025220.0081760.00

数据项1……数据项4

(4)数据库

数据库是存储起来的相关数据的集合。相关数据无论其记录类别是否相同,均可存储在一起形成一个数据的有机整体。因此,数据库可以描述更加复杂的信息结构,可以充分地反映客观事物之间的相互关系。数据库是目前数据组织的最高形式,也是应用最广泛的数据组织的管理方法与技术。在数据库中,数据具有良好的组织结构,由一种公用的方法进行管理,即采用数据库管理系统(DataBaseManagementSystem,DBMS)。数据库中数据可供多个用户调用,在很大程度上体现了数据与应用程序及用户间的独立性,实现了数据资源的共享,而且数据的冗余小,可靠性高,安全性好。所以,数据库为信息处理提供了一种良好的数据组织形式。图43描述了数据组织的层次与关系。

图43数据组织的层次与关系

4.2数据库管理技术

1.数据管理的发展

数据库技术是应数据管理任务的需要而产生的。数据管理技术是对数据的分类、组织、存储、操作和维护的技术。简单地说,计算机是数据处理机,输入原始数据,经过计算机的处理,获得所需要的信息。在计算机处理中,数据的管理显示了其更加重要的作用。计算机数据管理随着计算机硬件(尤其是外存储器)、软件技术和计算机应用范围的发展而不断发展,多年来大致经历了简单应用阶段、文件系统阶段、数据库系统阶段。

(1)简单应用阶段(20世纪50年代以前)

这个阶段最基本的特征是无数据管理及完全分散的手工方式,具体表现如下。

①无外存或只有磁带外存,输入输出设备简单。

②无操作系统,无文件管理系统,无管理数据的软件。

③数据是程序的组成部分,数据不独立,修改数据必须修改程序。处理时,数据随程序一道送入内存,用完后全部撤出计算机,不能保留;数据大量重复,不能共享。

④文件系统尚未出现,程序员必须自行设计数据的组织方式。图44描述了简单应用。

应用程序1数据集1

应用程序2数据集2

应用程序n数据集n

图44简单应用阶段程序与数据之间的关系

(2)文件系统阶段(20世纪50年代后期到60年代中期)这个阶段的基本特征是有了面向应用的数据管理功能,工作方式是分散的非手工的,具体表现如下。

①外存有了很大的发展,除磁带机外,还出现了大容量的硬盘和灵活软磁盘。数据可以长期保存,数据以独立数据文件的形式长期存储在外存储器上,可以被应用程序随时访问。

②系统软件方面出现了操作系统、文件管理系统和多用户的分时系统,出现了专用于商业事务管理的高级语言COBOL。它主要用于文件处理,也可以进行非数值处理。

③数据管理方面,实现了数据对程序的一定的独立性,数据不再是程序的组成部分,修改数据不必修改程序,数据有结构,被组织到文件内,存储在磁带、磁盘上,可以反复使用和保存。文件逻辑结构向存储结构的转换由软件系统自动完成,系统开发和维护工作得到减轻。

④文件类型已经多样化。由于有了直接存取设备,就有了索引文件、链接文件、直接存取文件等,而且能对排序文件进行多码检索。

⑤数据存取以记录为单位。

这一阶段数据管理的不足之处如下。

①数据共享性差、冗余度大。在文件系统中,一个文件基本上对应一个应用程序,也就是文件仍然是面向应用的。当不同的应用程序具有相同的数据时,也必须建立各自的文件,而不能共享相同的数据,因此数据的冗余度大,浪费存储空间,给数据的修改和维护带来了困难。

②数据独立性差。文件系统中的文件是为某一个特定应用服务的,文件的逻辑结构对该应用程序来说是优化的,因此想要对现有的数据再增加一些新的应用会很困难,系统不容易扩展。图45描述了文件系统阶段程序与数据之间的关系。

图45文件系统阶段程序与数据之间的关系

(3)数据库系统阶段(20世纪60年代后期)

这一阶段开始,计算机在管理中的应用更加广泛,数据量急剧增大,对数据共享的要求越来越迫切;同时,大容量磁盘已经出现,联机实时处理业务增多;软件价格在系统中的比重日益上升,硬件价格大幅下降,编制和维护应用软件所需的成本相对增加。在这种情况下,为解决多用户、多应用共享数据的要求,使数据为尽可能多的应用程序服务,出现了数(DataBaseSystem,DBS),。

①面向全组织的复杂数据结构。数据库中的数据结构不仅描述了数据自身,而且描述了整个组织数据之间的联系,实现了整个组织数据的结构化。

②数据冗余度小,易于扩充。由于数据库从组织的整体来看待数据,数据不再是面向某一特定的应用,而是面向整个系统,减少了数据冗余和数据之间的不一致现象。在数据库系统下,可以根据不同的应用需求选择相应的数据加以使用,使系统易于扩充。

③数据与程序独立。数据库系统提供了数据存储与逻辑结构之间的映射功能及总体逻辑结构与局部逻辑结构之间的映射功能,从而使得当数据的存储结构改变时,逻辑结构保持不变,或者当总体逻辑结构改变时,局部逻辑结构可以保持不变,从而实现了数据的物理独立性和逻辑独立性,把数据的定义和描述与应用程序完全分离开。

④统一的数据控制功能。数据库系统提供了专门的管理软件,即数据库管理系统,对数据实施统一的管理和控制。这些控制包括数据的安全性控制(Security)、完整性控制(Integrity)和并发控制,即允许多个用户同时使用数据库资源等。

以上4个方面构成了这一阶段数据的主要特征。综上所述,数据库系统中的数据是长期存储在计算机中大量的、有组织的、可以共享的,冗余度小、独立性强、可以统一管理和控制的数据的集合。图46描述了数据库系统阶段程序与数据之间的关系。

图46数据库系统阶段程序与数据之间的关系

2.数据库管理系统

1)数据库系统(DBS)

数据库系统是指在计算机系统中引入数据库后的系统,这类系统由5部分组成:硬件系统、数据库集合、数据库管理系统(DBMS)及相关软件、数据库管理员(DataBaseAdministrator,DBA)和用户。

2)数据库管理系统(DBMS)

数据库具有三级结构或称三级模式:数据的局部逻辑结构、整体逻辑结构和物理存储结构。这三级模式之间可以有很大的差别,为了实现这三级结构之间的转换,DBMS提供相邻二级结构之间的映像。

数据库管理系统DBMS保证了数据和应用程序之间的物理独立性和逻辑独立性。所谓数据的物理独立性,是指当数据的存储结构改变时,由系统提供数据的物理结构与逻辑结构之间的映像或转换功能,保持数据的逻辑结构不变,从而应用程序不需要修改。数据的逻辑独立性是指由系统提供数据的整体逻辑结构和面向某个具体应用的局部逻辑结构之间的映像或转换功能,当数据整体逻辑结构改变时,通过映像保持局部逻辑结构不变,从而应用程序也不需要修改。

DBMS,,

本功能如下。

(1)数据库的定义功能

DBMS提供数据定义语言(DDL)或操作命令来定义数据库的三级结构,包括外模式、概念模式、内模式及其相互之间的映像,定义数据的完整性约束、保密限制等约束。因此,在DBMS中应包括DDL的编译程序。

(2)数据库的操作功能

DBMS提供数据操纵语言DML(DataManipulationLanguage)实现对数据的操作。基本的数据操作有4种:检索(查询)、插入、删除和修改,后三种称为更新操作。DML有两类:一类是嵌入在COBOL、C等宿主语言中使用,称为宿主型(或嵌入型)DML;另一类是可以独立地交互使用的DML,称为自含型(或交互型)DML。因而在DBMS中应包括DML的编译程序或解释程序。

(3)数据库的保护功能

DBMS对数据库的保护主要通过4个方面实现,因而在DBMS中应该包括以下4个子系统。

①数据库的并发控制。数据库技术的一个优点是数据共享,但多个用户同时对同一个数据的操作可能会破坏数据库中的数据,或者用户读了不正确的数据。并发控制子系统能防止上述情况发生,正确处理好多用户、多任务环境下的并发操作。

同类推荐
  • 证券投资与管理

    证券投资与管理

    本教材详尽地介绍了我国投资工具——股票、债券、投资基金及权证交易等基础知识、基本原理和实践操作技巧。在编写过程中,充分考虑到读者的特点,本着注重实践操作和实践技能培训的主导思想,在对基本原理进行深入浅出阐述的同时,重点突出实际操作运用技巧;在领略我国最前沿的证券投资理论时,采取通俗易懂的语言和实际案例进行讲解,图文并茂,言简意赅,真正做到“零距离”的接近我国证券投资市场,具有很强的实践性和指导性。本书适宜作为高职高专院校经济类、管理类、金融学等专业的教材,同时也适宜于社会投资爱好者的参考用书。
  • 环境哲学

    环境哲学

    从哲学的视角观照环境问题,把环境问题纳入哲学的研究框架,重新审视人与自然的关系,建立关于环境问题的世界观,并以此指导和规范人类的行为。同时也探讨了人与自然和谐发展的理论问题及实现途径。
  • 语文新课标课外必读第六辑——傲慢与偏见

    语文新课标课外必读第六辑——傲慢与偏见

    国家教育部颁布了最新《语文课程标准》,统称新课标,对中、小学语文教学指定了阅读书目,对阅读的数量、内容、质量以及速度都提出了明确的要求,这对于提高学生的阅读能力,培养语文素养,陶冶情操,促进学生终身学习和终身可持续发展,对于提高广大人民的文学素养具有极大的意义。
  • 质量·特色·改革·创新

    质量·特色·改革·创新

    本书为乐山师范学院教学质量与教学改革研究的论文集,该文集围绕特色办学与理念创新、教学管理与教育理论研究、培养方案与专业改革研究、实践教学改革与研究、课程建设与改革研究、教学方法手段改革与研究六个专题,收录了近年来乐山师范学院广大教师有关教育教学研究的优秀文章82篇,收列已出版的教研教改专著36部、已发表的教研教改文章305篇,对于推动各高校进一步明确学校定位、创新办学理念、深化教学改革、提高教学质量具有一定的积极引导作用。
  • 校园绘画类活动指导手册

    校园绘画类活动指导手册

    根据党和政府有关政策和部门的要求以及国内外最新校园文化艺术的发展方向,特别编撰了《五彩校园文化艺术活动》丛书,不仅包括校园文化艺术活动的组织管理、策划方案等指导性内容,还包括阅读、科普、歌咏、器乐、绘画、书法、美化、舞蹈、文学、口才、曲艺、戏剧、表演、游艺、游戏、智力、收藏、棋艺、牌技、旅游、健身等具体活动项目,还包括节庆、会展、行为、环保、场馆等不同情景的活动开展形式等,具有很强的系统性、娱乐性、指导性和实用性。
热门推荐
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 仙尊很忙:师父大人来渡劫

    仙尊很忙:师父大人来渡劫

    她命有一劫,为生死劫。何为生,何为死,师父不曾提点便飞升而去。兜兜转转,一个不小心收了位仙尊为徒,咳咳,这难不成就是所谓的生死劫?相杀不如相爱,到最后才发现,自己所追求的‘生死劫’的真相是多么可笑。“命里有时终须有,无也不必强求。”
  • 凤栖仙源

    凤栖仙源

    前世是农家出身的夏玥琸重生在陌生的凤栖大陆,幸运地拥有了奇异的仙源空间。在异世八载,使她逐渐淡忘了前世的种种爱恨情仇,也得到了前世穷其一生所求却不得的幸福与快乐!然好景不长,旦夕之间她痛失了一切,她和弟弟们从此流离失所,不得相见,成为无根的浮萍。谁夺去了她的幸福?谁让她失去了一切?得到却失去远比从未得到过要痛的多!在寻找弟弟的旅途上她遇到了她此世的劫,谱写了一段不同的乐章。
  • 成长纪念

    成长纪念

    女主从出生都结婚的故事,整天跟着邻居青梅竹马打着,而邻居小哥也是小腹黑,每天都欺负她,却从没正视自己的这份情感......直到另一人的出现才让他正视了他自己的情感,有了这份危机感,每天对女主灌输除了他世界上的男生有多坏......
  • 七微克蔚蓝

    七微克蔚蓝

    叶祯心:我觉得我们现在有点像古装剧里的皇帝或者是钦差大臣微服私访,郁青山:《康熙微服私访记》?叶祯心:对!郁青山唇角一勾,眼底是狡黠的笑意:我是康熙,谁是宜妃?叶祯心瞪他一眼:我看你是三德子,三公公!郁青山笑而不语。……许久后的某一天,叶祯心偶然间看到郁青山给自己的微信备注名:法印。叶祯心:???
  • 长安有时尽

    长安有时尽

    那大名鼎鼎的秦王殿下要与左丞相家那嫡女联姻,整个京城有谁不知那秦王殿下是个狠角色,又道这有是唱了哪一出好戏。
  • 阵法我最强

    阵法我最强

    孤儿,化险为夷,因祸得道。天下阵道唯我独尊。
  • 吞花卧酒

    吞花卧酒

    从前的贪官女魔王风谣重拾良心,誓要将此乱世改造成清风盛世。什么贪官陷害污吏贿赂,她压根不放在眼里!“敢跟老娘耍花招,你是不知道论起贪污,老娘还是你祖宗!只是如今我金盆洗手,来惩治你们积德!”问她此生何愿,她潇洒笑道:“世间吞花卧酒,喝月担风,即我所往!”(本文元素为古风+悬疑+科幻)(男主归杳,女主风谣,有略微言情桥段)
  • 花痴太后多情僧

    花痴太后多情僧

    她有色心没色胆,干的最多的是偷窥美男洗澡,亲亲美男小嘴,一朝穿越陷入了和尚堆,看着各色各样的美男和尚有妖娆的,高贵的,俊俏的,冷酷的,可爱的,她双眼只冒红心,这个调戏,那个勾引。其实,她真的没勾引,可是这群和尚就赖着她不走了。情节虚构,请勿模仿!
  • 等倾归:跨越千年的救赎

    等倾归:跨越千年的救赎

    感谢,感谢我能有时间做这个感兴趣的事情。