1.3 大数据结构类型

大数据结构类型包括结构化、半结构化和非结构化。本节将依次介绍大数据存储容量、大数据结构特征、大数据的数据类型、数据的复杂性和多样性。

1.大数据存储容量

大数据的存储结构小到以字节表示,大到NB和DB级别。以210逐级增长。数据最小的基本单位是bit,按顺序给出所有单位:bit、B、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

它们按照进率1024(210)来计算:

1KB(KiloByte)=210B

1MB(MegaByte)=210KB

1GB(GigaByte)=210MB=220KB=230B

1TB(TeraByte)=210GB=220MB=230KB=240B

1PB(PetaByte)=210TB=220GB=230MB=240B=250B

1EB(ExaByte)=210PB=220TB=230GB=240MB=250KB=260B

1ZB(ZettaByte)=210EB=220PB=230TB=240GB=250MB=260KB=270B

1YB(YottaByte)=210ZB=220EB=230PB=240TB=250GB=260MB=270KB=280B

1NB(NonaByte)=210YB=220ZB=230EB=240PB=250TB=260GB=270MB=280KB=290B

1DB(DoggaByte)=210NB=220YB=230ZB=240EB=250PB=260TB=270GB=280MB=290KB=2100B

一方面,数据规模的“存量”和“增量”在快速增长。另一方面,人们缺乏对“大数据”的开发利用能力。大数据爆发式的增长情况如表1-5所示。

表1-5 大数据在各行业爆发式的增长情况

2.大数据结构特征

数据的结构化程度直接关系到处理数据的方法选择。传统和经典的数据是结构化的,这些数据存储在数据库中,采用相应的数据库技术完成查询和管理需要。而半结构和非结构的数据,就是今天的网页和社交媒体产生的大量音频和视频等数据。大数据的结构特征说明如表1-6所示。

表1-6 大数据的结构特征说明

3.数据类型

变量是用来存储数据值的所在处,它有名称和数据类型。而变量的数据类型决定了如何将代表这些值的位存储到计算机的内存中。数据类型是指变量值的不同类型,例如,姓名是一种数据类型,年龄可能是另外一种数据类型,爱好可能又是另一种数据类型。在计算机语言中,数据的类型可分为基本数据类型和引用数据类型,这里仅简单介绍几种基本数据类型。常用的基本数据类型有数值型、字符型和布尔型。

1)数值型数据(Metric Data)是按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数数据都是数值型数据。数值型数据又可分为两大类:整数类型和浮点类型。整数类型有字节(byte)、整型(int)。浮点类型有单精度浮点型(float)和双精度浮点型(double)。

2)字符型数据(Character Data)是不具有计算能力的文字型数据类型,用字母C表示。它包括中文字符、英文字符、数字字符和其他的ASCII字符。其长度(即字符个数)范围是0~255。

3)布尔型数据(Boolean Data)是编程语言Pascal、VB、C++等的一种变量类型。布尔型数据的取值只有两个:false(假)和true(真)。false取值为0,true取值为1。

表1-7所示为这几种数据类型的介绍。

表1-7 数据类型介绍

4.数据的复杂性与多样性

(1)数据的复杂性

复杂数据在可以“成熟地”分析和可视化之前需要额外的准备工作。因此重要的是,通过了解数据的复杂程度以及它在未来的复杂性趋向,来评估大数据/商业智能项目是否能够胜任这一任务。多重数据源通常意味着脏数据,或者遵循着不同的内部逻辑结构的简单的多个数据集。为了确保数据源有统一的数据语言,数据必须被转换或整合到一个中央资源库。数据的复杂性表现为处理大数据或异构数据。

(2)数据的多样性

文本一直是非结构化数据的典型。早期的非结构化数据,在企业数据的语境里主要是文本,如电子邮件、文档、健康/医疗记录。随着互联网和物联网的发展,又扩展到网页、社交媒体、感知数据,涵盖音频、图片、视频、模拟信号等,真正诠释了数据的多样性。

从另一个维度上看,数据的多样性又表现在数据来源和用途上。例如,卫生保健数据大致有药理学科研数据、临床数据、个人行为和情感数据、就诊/索赔记录和开销数据4类;而在交通领域,北京市交通智能化分析平台数据来自路网摄像头/传感器、地面公交、轨道交通、出租车以及省际客运、旅游、化学危险品运输、停车、租车等运输行业,还有问卷调查和GIS数据。从数据体量和速度上也达到了大数据的规模:4万辆浮动车每天产生2000万条记录;交通卡刷卡记录每天产生1900万条;手机定位数据每天产生1800万条;出租车运营数据每天产生100万条等。图1-11所示为不断增长的数据多样性与复杂性。

图1-11 不断增长的数据多样性与复杂性