1.1.1 数据的定义、分类和特征

1.数据的定义

数据是指描述客观事物性质、状态以及相互关系等原始资料的符号,它不仅是狭义上的数字,还可以是具有一定意义的文字、字母、图形、图像等物理符号以及这些物理符号的组合。数据是大脑感知客观事物形成的最初印象,是最原始的记录,它没有回答特定的问题,未进行加工和解释,只是单纯地反映了客观事物的某种运动状态,是无任何意义的实体。数据的具体表现形式如表1-2所示。

表1-2 数据的表现形式

在不同的领域中,数据往往有特定的含义。例如,在计算机科学中,数据是指所有能输入计算机并被计算机加工处理的对象,包括数值数据如整数、实数,以及非数值数据,如声音、数字符号等。由于计算机存储和处理的对象十分广泛,因此表示这些对象的数据也随之变得越来越复杂。在物流管理领域里,数据是指物流各种活动内容的知识、资料、图像、数据、文件的总称。物流数据不被任一物流作业系统直接需要,但又与之密不可分,经过一系列数据处理后得到的物流信息可广泛用于物流企业的运输、仓储、配送等业务。在会计事项处理中,数据是以“单”“证”“账”“表”等形式表现的各种未曾加工的数字、字母与特殊符号的集合,其中又可根据加工流程分为三类:原始会计数据,中间会计数据和会计信息、发布的会计信息。

2.数据的分类

数据的分类有助于人们对数据有更深刻、全面的理解。数据的分类方式有很多,比较常见的分类方式有:按照数据结构分类、按照加工类型分类、按照表现方式分类、按照记录方式分类等。这里主要介绍按照数据结构的分类。

按照数据结构可以将数据分为三类,即结构化数据、半结构化数据以及非结构化数据。

(1)结构化数据 结构化数据指的是具有数据结构描述信息的数据,这包括预定义的类型、格式和结构的数据。常见的结构化数据主要是从传统关系型数据库中获取、存储、计算和管理的数据,以及联机分析处理的数据。当获取的数据与数据的结构不一致时,就需要对数据结构进行转换,以匹配关系型数据库的需求。

(2)半结构化数据 半结构化数据具有一定的结构性,但与具有严格理论模型的关系型数据库相比更加灵活。经过一定的转换处理,半结构化数据可以被数据库存储和管理。常见的半结构数据有:HTML、XML数据文件等。半结构化数据的结构变化很大,因为要了解数据的细节,所以不能将数据简单地组织成一个文件按照非结构化数据处理,由于结构变化很大也不能简单地建立一个表和它对应。

比如存储员工的简历就不像存储员工基本信息那样方便,因为每个员工的简历都有一定的差异,有的员工的简历很简单,比如只包括教育情况;有的员工的简历却很复杂,比如包括工作情况、婚姻情况、出入境情况、户口迁移情况、党籍情况、技术技能等。还有可能有一些无法预料的信息。所以通常要完整地保存这些信息并不容易,因为公司不会希望系统中表的结构在系统运行期间进行变更。

(3)非结构化数据 非结构化数据指的是没有固定结构的数据,它没有预定义的数据模型,且不方便用数据库的二维逻辑来表示。图像、音频、视频、PDF文档等都属于这种数据结构。非结构化数据的格式多样,标准也不尽相同,因此非结构化数据比结构化数据更难标准化。

这三种不同结构类型的数据之间的关系如表1-3所示。

表1-3 数据的结构类型关系

虽然表1-3显示的是三种相互分离的数据类型,但是有时这些数据类型是混合在一起的。例如,一个传统的关系型数据库保存着一个呼叫中心的通话日志,其中包括典型的结构化数据,如日期/时间戳、机器类型、问题类型、操作系统等,这些都是在线支持工作人员通过图形用户界面上的下拉菜单输入的。同时,通话日志中也包括非结构化数据或半结构化数据,如自由形式的通话日志信息,这些可能来自包含问题的电子邮件、技术问题和解决方案的实际通话描述、与结构化数据有关的实际通话的语音日志或音频文字实录等。

3.数据的基本特征

数据作为客观事物最原始的记载资料,具有四个基本特征:变异性、规律性、复杂性和无限性。

(1)变异性 数据的变异性包括以下两方面的含义:一方面是指一组数据的取值往往具有多种多样的特征,量化到数据上的形式也是各不相同的;另一方面是指不同的数据记录者在面对客观事物时产生的数据可能是不同的,且在不同的时间或地点观测事物可能会呈现出不同的数据特征,尤其体现在对人的精神属性的测量,例如,同一人在不同的时间对同一事物的描述往往具有差异。

(2)规律性 虽然数据具有变异性,一组初始数据初看是杂乱无章的,但统计学相关研究表明,数据其实是具有一定规律的,寻找这种规律就是研究数据的目的之一。数据的变异性使得数据有了研究的必要,而数据的规律性使得对数据的研究成为可能。

(3)复杂性 数据往往是异构和多态的,由不同的元素或部分组成,且数据间分布并不均匀,在面向不同的对象语言时,接口呈现多个不同的表现形式,如计算机语言采用二进制的形式表示;数据还具有多种不同的数据类型,例如数值数据、图形数据、模糊数据等;另外,数据的来源渠道众多,导致数据量巨大。

(4)无限性 数据具有可复制、可共享、无限增长和供给的特点,数据资产不需要折旧、摊销,反而会越用越多。数据资产本身是无限增长的,且每年都在增值,而不是被消耗。