1.1 数据库的相关概念、特点及发展

【案例1-1】数据库技术及应用极为重要且广泛深入。美国未来学家托夫勒(Alvin Toffler)曾指出:“谁掌握了信息,谁控制了网络,谁就将拥有整个世界”。现实世界,信息无处不在、数据无处不用,数据库技术是各种业务数据处理与应用系统的核心。数据库的建设规模、数据量和使用频率已成为衡量一个国家信息化程度的重要标志,数据资源和数据库高新技术已成为世界各国极为重要的优先发展战略。

1.1.1 数据库系统的相关概念

1.数据的概念及分类

数据(Data)是对不同客观事物具体特征描述的符号记录。数据是信息的表达方式和载体,是利用信息技术进行采集、处理、存储和传输的基本对象。通常,数据可分为两大类:数值数据和非数值数据,包括文字、数字、符号、表格、图形、图像、声音、视频等多种形式。从具体的应用上可细分为数值型、字符型、时间型、货币型或其他类型,具体参见“2.5.2 常用的数据类型”一节介绍。978-7-111-66147-4-Chapter01-4.jpg

978-7-111-66147-4-Chapter01-5.jpg知识拓展

信息的概念及其内涵

978-7-111-66147-4-Chapter01-6.jpg特别理解

数据概念的理解及内涵

实际上,数据包含描述具体事物特性的内容、存储在某种媒体上的数据形式和含义。其中,数据的含义称为数据的语义(信息),数据与其语义密不可分。在实际业务处理过程中,各种信息只有经过数据载体的描述和表示,才能进行采集、传输、存储、管理与处理,并产生新的更有价值的数据(提供信息),如网站商品信息(实际是数据)。

信息与数据的区别和联系。信息是客观事物在人脑中的反应,是观念性的,需要通过数据才能表示、存储、传输和处理,信息可按人为需要选取数据的表示形式及方式方法,如文字、图像和语音。数据的表示形式可以选择,而信息不随着数据的表示形式而改变,如气象信息(都以数据展现)。数据是信息的载体和具体表达方式,是信息的一种符号化表示,是物理性(客观存在)的,数据是信息的来源并提供信息(含义),数据经过处理后可得到更有价值的新信息。

2.数据处理与数据管理

数据处理(Data Processing)是对各种数据进行采集、存储、检索、加工、变换和传输的过程。这是广义的概念,狭义上主要是指对数据进行加工的过程,如对多种商品数据进行的查询、分类、修改、运算、统计和汇总等都属于数据处理。其目的是根据实际需要,从原有大量、繁杂、难以理解的数据中抽取出有价值的新数据(信息),作为决策的依据,其实质是信息处理。可以借助数据库等技术处理和存取各种业务数据,方便快捷地利用各种数据(信息)资源,极大地提高工作效率并减轻劳动和成本。业务数据处理技术发展及应用的广度和深度,极大地促进了人类信息化的进程。

不同的数据处理方式要求不同的软硬件技术支持。每种处理方式都有其特点,可以根据应用问题的实际需求选择合适的处理方式。数据处理方式主要根据对业务数据的不同应用及要求,以及数据处理设备的结构、工作方式和数据的时间空间分布方式不同而确定。数据处理方式主要有4种:①以处理设备的结构区分,有联机处理方式和脱机处理方式;②以数据处理时间的分配方式区分,有批处理方式、分时处理方式和实时处理方式;③以数据处理空间的分布方式区分,有集中式处理方式和分布式处理方式;④以中央处理器的工作方式区分,有单道作业处理方式、多道作业处理方式和交互式处理方式。

数据管理(Data Management)是指以管理方式对数据进行基本加工的过程。如在数据处理过程中,数据采集、存储、检索、分类、传输等基本环节统称为数据管理。广义上数据管理也属于数据处理。978-7-111-66147-4-Chapter01-7.jpg

978-7-111-66147-4-Chapter01-8.jpg知识拓展

数据处理与数据管理的区别

【案例1-2】Web图书信息管理系统的商品数据管理。在Web图书信息管理系统的“价格”中,可以索引统计图书数据(信息)或查询价格最低的图书、按价格从低到高排序、修改或打印价格等操作都属于数据管理,而图书价格的汇总或制作图书价格数据统计图属于数据处理。

3.数据库及数据库系统

数据库(DataBase,DB)是按照数据结构进行组织、存取和处理数据的集合,是存储在计算机或服务器等设备上的结构化(有组织)、可共享的相关数据集合。可将其概念理解为“按一定(模式)结构存取、控制与处理数据的空间(库)”。

数据库可按特定数据模型(结构)进行组织、表示、控制与处理数据。数据库具有数据结构化、共享性、独立性、持久性、较小冗余度、易扩展和海量性等基本特性,数据库操作处理的基本对象是数据。

数据库系统(DataBase System,DBS)是指具有数据库功能特点的系统,是具有数据库技术支持的应用系统,也称为数据库应用系统,是可以实现有组织地以及动态地存储、管理和维护大量相关数据,提供数据处理和数据资源共享服务功能的应用系统。常用的网购、网银等业务数据处理系统都是数据库系统。

数据库技术是研究、处理和应用数据库的一门软件科学,也是计算机科学与技术中发展最快、应用最广泛、最重要的技术之一。其研究和处理的核心关键是数据。

4.数据库管理系统

数据库管理系统(DataBase Management System,DBMS)是指建立、运用、管理和维护数据库,并对数据进行统一管理和控制的系统软件。主要用于定义(建立)、操作、管理、控制数据库和数据,并保证其安全性、完整性、多用户并发操作及出现意外时的恢复等。DBMS是整个数据库系统的核心,对数据库中的各种业务数据进行统一管理、控制和共享。DBMS的主要功能和结构见1.5节,其重要地位和作用如图1-1所示。支持关系型数据模型的DBMS,称为关系型数据库管理系统(Relational DataBase Management System,RDBMS)。

978-7-111-66147-4-Chapter01-9.jpg

图1-1 DBMS的重要地位和作用

常用的大型DBMS有SQL Server、Oracle、MySQL、Sybase、DB2、Informix等,小型的DBMS有VFP(Visual FoxPro)和Office Access等。

1.1.2 数据库系统的特点、内容及应用

1.数据库系统的主要特点978-7-111-66147-4-Chapter01-10.jpg

978-7-111-66147-4-Chapter01-11.jpg知识拓展

数据库系统的主要特点

1)对数据统一的管理与控制,采取统一的标准。各种应用(程序)对于数据库中数据的各种操作都由数据库管理系统(DBMS)进行统一管理和控制。DBMS提供的主要功能有并发访问控制、数据完整性保护、数据安全性保护、数据库恢复。采取统一的数据标准,即数据库中数据项的名称、数据类型、数据格式、有效数据的判定准则和要求等数据项特征值的取值规则。

2)数据整体结构化。在数据库系统中,采用统一的数据模型(结构),将整个企事业机构的业务数据组织为一个整体;数据不再只面向特定应用,而是面向整个机构;数据内部及整体结构化,可以更好地反映各实体(事物)间的联系。实现多种关联数据(如进售存商品)的集中处理和高度集成,有助实现数据共享,保证数据和应用程序的各自独立性。

3)数据高共享、低冗余、易扩充。数据库系统可以通过网络对数据集中管理控制,并由多用户和多种应用程序所共享与调用。数据库中相同数据不用多次重复出现,从而降低了数据冗余度,并可避免数据冲突的问题。当业务数据发生变化更新时,只需要修改服务器中数据表便可自动完成所有的更新。

4)数据独立性高且程序维护便利。数据独立性是指数据库中存储数据与应用处理程序之间相互独立,可极大提高应用程序和数据的修改和维护效率,可由DBMS二级映像功能实现。数据独立性包括两种:①物理独立性指用户的应用程序与存储在磁盘上的数据库中数据是相互独立的。数据在磁盘上的存储由DBMS管理,应用程序要处理的只是数据的逻辑结构。②逻辑独立性是指用户的应用程序与数据库的逻辑结构是相互独立的,当数据的逻辑结构(数据元素间逻辑关系)改变时,用户程序不受任何影响。978-7-111-66147-4-Chapter01-12.jpg

978-7-111-66147-4-Chapter01-13.jpg知识拓展

数据的物理及逻辑结构

5)数据的完整性和安全性高。数据完整性(Data Integrity)是指数据的正确性、有效性和相容性。正确性是指数据合法、规范,有效性是指数据规定的有效范围,相容性是指描述同一事物的各数据保持一致性。数据库的完整性关系到数据库系统中的数据是否正确、可信和一致。

数据完整性有4类:实体完整性、参照完整性、域完整性和用户自定义完整性。通过数据库管理系统(DBMS)管理和控制可以确保安全性。978-7-111-66147-4-Chapter01-14.jpg

978-7-111-66147-4-Chapter01-15.jpg知识拓展

数据完整性的4种类型

6)保证数据一致性。数据一致性(Data Consistency)是指关联数据之间逻辑关系的正确性和同一性。确保数据库中不同数据表的相同数据项具有相同值。各数据库由多种数据文件组成,其文件之间通过公共数据项相联系,当对某个数据文件中的数据项更新时,相关联文件中的对应数据项将自动更新,始终保持数据增删改等操作的一致性。

2.数据库技术相关内容及应用

数据库技术研究和处理的基本对象是数据,涉及的主要内容包括4个方面。

1)通过DBMS对数据库系统及业务数据相关的事务进行统一管理、控制和维护。

2)按照指定的数据结构(模型)建立和组织相应的数据库及其处理对象(数据表、视图及索引等)。

3)各种业务数据的处理操作,包括数据添加(输入或插入)、修改与更新、删除、查询、统计、报表和打印等。

4)通过用户对业务数据处理的需求及构建数据库应用系统的需求分析,设计并实现数据处理和综合应用的数据库应用软件。

数据库技术主要应用于根据用户需求自动处理、共享、管理和控制大量业务数据。进入21世纪现代信息化社会,由于信息(数据)无处不在、无处不用,所以,数据库技术的应用更广泛、更快捷、更深入,遍布各个应用领域、行业、业务部门和各个层面。网络数据库系统已成为信息化建设和应用中的核心和重要支柱产业,纳入世界各国优先发展战略,鉴于篇幅所限,在此仅介绍几例典型应用。978-7-111-66147-4-Chapter01-16.jpg

978-7-111-66147-4-Chapter01-17.jpg知识拓展

数据库技术的促进作用

【案例1-3】数据库技术典型实际应用案例。

①电子商务。网上购物或机票、火车票及其数据输入、查询、订购、销售、统计和汇总等。

②网上办公。通过政府或机构网站网上政策发布、办公、查询、数据输入、传输和反馈等。

③网银证券。网上银行客户信息、账户、汇款、理财、贷款和支付等,以及证券及期货交易、股票、债券、金融票据、基金及外汇交易、保险产品等数据处理。

④电信通信。各种网络通信与服务、电子邮件与文件传输、数据交换、各种电信业务服务,存储通信网络信息、通话记录及短信、用户付费业务记录、通信账单和交费情况等。

⑤经贸、交通、旅游。不同地区的经贸、旅游、交通、道路、车船等数据,都需要利用分布式数据库,通过相关数据输入、存储、查询、传输、更新、统计、汇总等提供技术支持和帮助。

⑥产供销及库存。各种产品及零部件等需求、生产、供销,产品订单、库存、原料供应及进展,跟踪产品生产、质量和库存,可以极大地提高企业经济效益和管理水平。

⑦教育界。院校教学等相关信息、课程及实验信息、图书资料信息、人力资源、设备及实验室、学生及成绩信息、大学生活动和毕业及就业信息等。高校信息化数据库应用如图1-2所示。

978-7-111-66147-4-Chapter01-18.jpg

图1-2 高校信息化数据库应用实例

1.1.3 数据库系统的发展及趋势

1.人工数据管理阶段

1946年世界上第一台电子计算机ENIAC诞生后的较长时期,计算机主要用于科学计算。当时的计算机以电子管为元器件,具有运算器、控制器、存储器和简单输入输出设备等硬件系统,但当时没有磁盘等直接的存储设备、操作系统和数据文件处理软件,体积大且运行慢,只能计算并输入输出很少的数据。数据存储当时面临的一个重要问题是计算机将数据和程序以打孔的方式存储在纸带上,很难检索或修改。数据管理主要依靠手工方式,用纸卡及表格等进行记载、储存、查询和修改。978-7-111-66147-4-Chapter01-19.jpg

978-7-111-66147-4-Chapter01-20.jpg知识拓展

数据库技术的产生背景

人工数据管理阶段的主要特点如下。

1)数据无法存取。当时受计算机软硬件技术所限,数据随程序一起输入计算机,处理结束后输出结果,数据无法长期保存,计算后数据空间与程序一起被释放。

2)数据面向应用。数据对应指定的具体应用程序,多个程序若使用相同的数据,需在这些程序中重复存储相同的数据,程序之间所用的数据不能共享,造成数据冗余且可能不一致。

3)数据不独立。当应用程序改变时,数据的逻辑结构和物理结构也随之变化。

4)无数据文件处理软件。数据的组织方式由程序员设计和安排,数据须由应用程序进行管理。

2.文件管理数据阶段

20世纪50年代中期到60年代中期,以晶体管取代了计算机中的电子管,存储器得到改进,数据可用文件形式存储,计算机将成批数据单独组成文件存储到外存,这个阶段还出现了操作系统(可对文件进行管理)、汇编语言和一些高级语言。计算机不仅限于科学计算,还大量用于各种业务管理等。

(1)文件系统管理数据的特点

1)数据持久保存。各种数据主要以文件形式保存在计算机中,如同电子表格数据。

2)数据无法共享。在文件系统中,文件面向应用,当不同文件具有相同数据时要建立各自的文件,数据无法共享,致使数据冗余,浪费存储空间。

3)数据不能独立。软件同数据关联只部分独立,改变应用程序要改变数据结构,反之数据结构改变,需要修改应用程序和文件结构。

4)数据管理功能简单。利用文件系统进行数据管理的功能比较简单。此阶段应用和数据文件之间的关系,如图1-3所示。

978-7-111-66147-4-Chapter01-21.jpg

图1-3 应用和数据文件间关系

(2)文件系统的缺点978-7-111-66147-4-Chapter01-22.jpg

978-7-111-66147-4-Chapter01-23.jpg知识拓展

数据库文件系统的缺陷

由于各种业务数据的规模和数据量急剧增加,文件系统的缺点逐渐突显,主要包括:数据不共享、冗余大,数据不一致,数据文件缺乏关联。

3.初期数据库阶段

20世纪60年代中期,信息技术的快速发展和广泛应用对存储和处理庞大数据量的数据库给予了极大的技术支持。这个阶段操作系统得到很大改进,推出了各种DBMS软件,数据库技术不断发展和完善,成为计算机领域中最具影响力和发展潜力、应用范围最广、成果最显著的技术之一,形成了“数据库时代”。978-7-111-66147-4-Chapter01-24.jpg

978-7-111-66147-4-Chapter01-25.jpg知识拓展

关系数据库的产生过程

初期数据库阶段的主要特点如下。

1)数据共享冗余低。数据面向整个系统,不再面向单一应用,数据可被多用户、多应用所共享。数据库与网络技术结合扩展应用,数据冗余少,节省空间。

2)对数据统一管理和控制。DBMS可自动检测用户身份及操作合法性、数据一致性和相容性,保证数据符合完整性约束条件、数据安全性和完整性,对多用户同时操作数据实行并发控制,保证出现意外时自动恢复。

3)独立性强。应用程序与数据库中数据相互独立,当数据的物理结构和逻辑结构更新变化时,不影响应用程序使用数据,反之,修改应用程序不影响数据。

4)结构化集成。数据库系统通过统一数据结构方式,使数据结构化;全局的数据结构由多个应用程序共同调用、共享,各程序可以调用局部结构的数据,全局与局部的结构模式构成数据集成。

4.高级数据库阶段

20世纪80年代后,数据库技术在商业领域取得巨大成功,激发了很多新的应用领域和业务,特别是手机App等广泛应用,极大地促进了数据库技术的快速发展,面向对象数据库技术、数据库同其他技术的结合,形成了高级数据库技术,详见第11章。

(1)分布式数据库技术

随着企事业机构跨地区业务的发展、IT技术发展和异地用户对数据共享的需求,产生了分布式数据库系统(Distributed Database Systems),主要特点如下。

1)本地为主处理大部分业务数据。在本地区分布处理当地的各种数据,提高了整个系统的处理效率和可靠性,并通过数据复制技术实现网络数据共享。

2)减少中心数据库和数据传输压力。数据库中的数据物理上分布于各地,逻辑上为相互联系的整体,可实现数据物理分布性和逻辑整体性,减少了中心数据存储和传输负载。

3)提高系统的可靠性。系统的可靠性得到增强,若局部系统发生意外故障,其他部分仍可继续工作。

4)各地终端数据通过网络互联。对于本地终端不能单独处理的各种业务数据,都可以通过外部网络得到其他数据库系统和终端的大力支持。

5)数据库分布扩展便捷。数据库集中于分布式数据库系统,便于实现分布及扩充。

分布式数据库系统的两大任务是集中管理和分布处理,其具体结构如图1-4所示。

978-7-111-66147-4-Chapter01-26.jpg

图1-4 分布式数据库系统

(2)面向应用领域的专用数据库

数据库技术经过几十年的研究和快速发展,形成了完善的理论体系和实用技术。为了更好地适应多种业务数据处理的需求,根据各应用领域特点,将数据库技术专门用于某些特定领域,研发出专用的科学数据库、工程数据库、地理数据库、统计数据库、空间数据库、大数据等数据库,以及数据仓库和数据挖掘等技术,数据库技术发展如图1-5所示。

978-7-111-66147-4-Chapter01-27.jpg

图1-5 数据库技术发展简图

(3)面向对象数据库技术

对于一些数据结构较为特殊复杂的应用领域,如地理数据、多媒体数据、多维表格数据、计算机辅助设计数据,需要特殊的数据库技术,由此产生了面向对象数据库技术,它便于构造、管理与维护大容量的持久数据,并与大型复杂程序紧密结合,具体内容详见11.2节。

5.数据库技术的发展趋势

根据数据库应用及多家分析机构的评估,数据库技术将以社会需求为导向,面向实际应用,并与计算机网络和人工智能等技术结合,为新型应用提供多种支持。

(1)云数据库和混合数据快速发展

云数据库(Cloud Database)简称为云库,是在云计算环境中部署和虚拟化的数据库。将各种关系型数据库看成一系列简单的二维表,并基于简化版本的SQL或访问对象进行操作。使传统关系型数据库通过提交一个有效的链接字符串即可加入云数据库,云数据库可解决数据集中更广泛的异地资源共享问题。978-7-111-66147-4-Chapter01-28.jpg

978-7-111-66147-4-Chapter01-29.jpg知识拓展

云数据库的特性及优点

(2)数据集成与数据仓库

数据仓库(Data Warehouse)是面向主题、集成、相对稳定且反映历史变化的数据集合,是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库以面向主题、集成性、稳定性和时变性为特征,主要侧重对企事业机构历史数据的综合分析利用,找出对机构发展有价值的信息,协助决策支持,提高效益。新一代数据库使数据集成和数据仓库的实施更简捷。从数据应用逐步过渡到数据服务,开始注重处理关系型与非关系型数据的融合、分类、国际化多语言数据。详见第11章。978-7-111-66147-4-Chapter01-30.jpg

978-7-111-66147-4-Chapter01-31.jpg特别理解

数据挖掘技术的概念

(3)主数据管理和商务智能

在企事业机构内部各种业务整合和系统互联中,许多机构具有相同业务应用的数据被多次反复定义和存储,导致数据大量冗余成为IT环境发展的障碍,为了有效使用和管理这些数据,主数据管理已经成为一个新的研究热点和方向。

商务智能(Business Intelligence)是指利用数据仓库及数据挖掘技术,对业务数据分析处理并提供决策信息和报告,促进企业利用现代信息技术收集、管理和分析商务数据,改善决策水平,提升绩效,增强综合竞争力。商务智能主要融合了先进信息技术与创新管理理念,集成优化企业数据资源,处理并从中提取创造商业价值的信息,面向企业战略并为管理层服务。978-7-111-66147-4-Chapter01-32.jpg

978-7-111-66147-4-Chapter01-33.jpg知识拓展

商务智能及其应用

(4)大数据促进新型数据库

进入大数据时代,传统数据库技术的数据模型和预定义的操作模式,时常难以满足实际需求,大数据量、高并发、分布式和实时性的需求,致使新型数据库在大数据的场景下,将取代传统数据库成为主导。

(5)利用网络自动化管理

网购、网银等网络数据库应用系统的广泛应用,使数据库管理更加自动化。从企业级向世界级的转变,提供了更多基于互联网环境的管理方式,完成数据库管理的网络化。应用程序编程接口(Application Programming Interface,API)更开放,基于浏览器端技术的管理技术,为分布式远程管理提供极大便利。978-7-111-66147-4-Chapter01-34.jpg

978-7-111-66147-4-Chapter01-35.jpg知识拓展

数据库的自动化管理

(6)其他新技术的发展方向

数据库技术与多学科技术的有机结合、非结构化数据库、演绎面向对象数据库技术将成为数据库技术发展的新方向。面向对象的数据库技术与关系数据库技术结合,将成为下一代数据库技术发展的一种趋势。

数据仓库和电子商务将成为未来数据库技术及市场发展的方向。数据库技术的实践性发展是面向专门应用领域的数据库技术。数据库还可以与具体业务语义的数据内容融合,数据库将更广泛地应用于各种“信息服务”,超文本预处理器(Hypertext Preprocessor,PHP)也将促进数据库产品应用。

978-7-111-66147-4-Chapter01-36.jpg讨论思考:

1)什么是数据、数据处理和数据库?

2)数据库系统与数据库管理系统的区别有哪些?

3)数据库技术的主要特点有哪些?其应用有哪些?

4)数据库系统的发展分为哪几个阶段?各有何特点?