第1章 认识数据分析

1.1 数据分析的基本概念

人类社会已进入大数据和云计算时代,随时随地都在产生海量的数据。从2004年至今,全球数据总量一直在以指数级速度增长。美国国家科学基金会将大数据定义为“由科学仪器、传感设备、互联网交易、电子邮件、音视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”。

大数据具有以下特征。

(1)数据量巨大,其数据的存储和处理操作无法由人工完成而必须使用计算机。

(2)数据的来源和格式具有多样性。除了传统的结构化数据外,更多的是半结构化和非结构化数据。

(3)数据的价值密度低。

(4)数据总量的增长速度快。

(5)数据的处理和分析难度大。

大数据时代的巨量数据并不都是有用的信息。为了提升数据的价值,我们需要做深入的数据分析和挖掘工作,从大量数据中找出隐含的、未知的、用户可能感兴趣的、对决策有潜在价值的知识和规则,揭示数据中某些对象之间的特定关系,为经营决策、市场策划和金融预测等提供有用的信息。因此,对于现代化企业而言,数据分析工作非常重要。例如,一家公司让员工佩戴传感器以搜集日常工作中员工之间的非正式互动数据,公司的数据分析人员在对搜集到的数据进行分析后,建议重新设计办公环境,因此提高了工作效率。

从事数据整理、分析和挖掘工作的技术人员被称为数据分析师或数据科学家。托马斯·达文波特和帕蒂尔在《哈佛商业评论》上发表的《数据科学家:21世纪最性感的职业》一文中指出:企业正在应对前所未有的庞大而多样的信息。数据科学家的职责是在数据的海洋中探索,找出丰富的数据源并将它们与其他数据源连接起来,将大量不规则的数据组织起来使之成为可分析的数据,再用数据分析得到的信息为企业高管和产品经理提供产品、流程和决策等方面的建议。

数据科学是培养数据分析师及数据科学家的专门学科。数据科学包括数学与统计学(线性代数、概率统计、建模等)、计算机与人工智能(机器学习等)、可视化、计算语言学、图形分析、商务智能、数据存储与检索等多个学科领域。有人曾经把数据科学家形容为计算机科学家中的统计专家,统计专家中的计算机科学家。

1.1.1 数据的基本概念

在客观世界中,数据通常是指一些抽象的、可识别的物理符号或物理符号的组合,用于记录和表示客观事物的属性、数量、位置及它们间的相互关系。数据不仅是用某种进制表示的实数(如1、2、3、3.14、2.71828等),还包括具有一定意义的文字与数字、符号的组合(如电子商务平台上各商铺的商品交易记录等),以及图形、图像、音频、视频等。在计算机世界中,数据是指所有用二进制编码表示的、可以输入计算机中并能被计算机程序处理的数值、命令、文字、图形图像、音频和视频等。

虽然大数据时代下的数据量巨大且种类繁多,但它们并不都是对人类有用的信息,因此对数据做进一步的处理和分析使其变为有用的信息就显得十分必要。

从数据分析和处理的角度可以将数据分为4类:①原始数据(没有经过任何加工处理的数据);②干净数据(做过预处理的数据);③增值数据(做过分析和处理的数据);④洞见数据(可直接用于决策的数据)。

1.1.2 数据分析的主要内容及流程

数据分析的主要内容可以归结为以下几方面。

(1)确定数据分析的目的。在目的明确的基础上确定需要分析什么数据并建立相应的数据框架。例如,一个互联网电子商务企业为了增加企业产品的网上销售额、提升自己在行业中的地位,决定分析以下几方面的数据:①电子商务行业整体状况统计数据;②网站运营状况(流量分析、销售分析、商品分析等)统计数据;③客户分布情况数据;④各种转化率及广告投放效益等数据。据此建立的数据框架包括:①流量数据层(客户的浏览行为等);②交易和库存数据层(客户的交易行为等);③客户信息、商品信息和售后服务数据层;④财务数据层;⑤店铺数据层。

(2)根据数据分析目的和数据框架从各种数据源中收集并存储数据。例如,一个互联网电子商务企业的数据来源通常包括内部数据和外部数据两大类。内部数据主要有:①财务数据(产品销售总额、成本、利润、广告投放额);②网站运营数据(PV、UV、购买商品的客户信息、浏览网站的客户信息及其在网站停留的时间、收藏数、评论数、跳出率、新访问比例、流量订单转化率、新用户注册购买率、老用户购买率、平均订单额、订单失败率、购物车失败率、广告投放转化率、配送差错率、每个用户的平均获取成本等);③客户数据(性别、年龄、职业、地域分布、购物时间等)。外部数据主要有:①电子商务行业所占的市场份额;②企业市场调研数据;③用户使用的搜索引擎类型及主要搜索关键词的比例;④第三方监测数据;⑤竞争对手的数据等。一个企业在运营的各个环节都需要做实时的数据收集。

(3)选择合适的数据分析工具。有许多数据处理与分析工具可供选择,具体选择什么工具取决于企业的需求和操作工具的人。例如,对于一个电子商务企业而言,自助式商业智能软件Power BI就是一个不错的选择。

(4)将收集到的数据导入数据分析工具,对数据做必要的整理,建立数据模型并做相应的数据分析,用数据分析结果形成决策辅助策略,以可视化报表形式呈现给决策者。

数据分析实际上就是将企业业务层面的问题转化为数据问题,使用数据分析工具对数据加以分析和处理后,再将数据应用到业务层面的过程。数据分析的一般流程可用图1-1表示。

图1-1 数据分析的一般流程

1.1.3 数据的表示和存储

按照数据结构化的程度可将数据分为3类:①结构化数据;②非结构化数据;③半结构化数据。这3类数据的存储方式是不同的。

结构化数据是指用二维表表示的数据,其具有固定的符合关系数据库要求的数据模型结构。例如,一个企业所有员工的基本信息(工号、姓名、性别、出生日期、文化程度、入职日期等)就可以组织在一个二维表中,表格的第1行是标题行,从第2行开始每行记录一个员工的基本信息;表格的每一列称为字段(属性),一个字段中的所有数据都属于相同的类型。结构化数据可存储在传统关系数据库(如 Access、MySQL、Oracle)中,也可存储在 Excel文件中。

非结构化数据是指没有固定结构的数据,包括文本、图形、图像、音频、视频等形式。这类数据可存储在文件中或非关系数据库(如NoSQL、MongoDB)中。

半结构化数据是介于结构化数据和非结构化数据之间的数据,这种数据不符合关系数据库要求的数据模型结构,但包含了用于分隔语义元素及对记录和字段进行分层的相关标记,因此经过适当的转换和处理后,它可以变为结构化数据。例如,HTML文档(网页)就是一种半结构化数据。存储半结构化数据有两种方式:一种是将其转换为结构化数据后存储到传统关系数据库中;另一种是将其转换为XML格式的数据后存储到支持XML格式数据的关系数据库中。

1.1.4 数据分析与数据思维

通常意义上的思维是指人类大脑以感知为基础并超越感知的认知活动。人类思考的过程就是探索和发现客观事物之间的本质联系和发展变化规律的过程。

数据思维是一种量化的逻辑思维模式。数据思维的特点是通过分析和对比来源于客观事物及与其具有相互关系的数据,发现隐藏在数据中的事物之间的联系和规律后,对事物做出判断、推理及决策。另一种思维模式是经验思维,其特点是依据个人经验和常识对事物做出判断和决策。

以一个现代化企业为例。在当今的互联网时代,企业的竞争对手越来越多,所面临的外部环境也越来越复杂,企业的领导者和决策者如果仍然依靠经验思维管理企业,则难以提升企业的竞争力,甚至有可能会做出错误的决策。一个企业在激烈的市场竞争中想要求得生存和发展,应当运用数据思维对企业进行数据化管理。数据思维的基础是数据分析。对企业的数据做分析不仅需要从事数据分析的专业人员,还需要合适的数据分析工具,如Power BI。