1.1 数据分析话题的“树模型”知识框架

数据分析,听起来似乎很高大上,离我们的日常生活非常遥远,但它又经常萦绕在我们的耳边。那么,数据分析到底是什么呢?数据分析有什么用处呢?数据分析能不能解决问题?数据又是什么?数据是数字吗?数据从哪里来?很火热的机器学习、深度学习算不算数据分析?本书将为你一一解答这些问题。

这些问题涉及的理论、技术、场景、工具是纷繁芜杂的,这大概也是数据分析这个概念总会让外行人摸不着头脑、内行人盲人摸象而不得全貌的原因。为了解决这一问题,本书使用一个框架来帮助读者厘清思路。

常用的思考框架有“道、法、术、器”等,但笔者发现这些框架对于数据分析并不适用,主要是数据分析涉及的内容太多,有业务层面的,也有技术层面的,上游是数据采集问题,下游是可视化及应用问题。因此,笔者用“树模型”作为数据分析的知识框架(见图1-1)。

图1-1 用“树模型”作为数据分析的知识框架

“树”的根是数据分析的源头,主要进行数据采集、存储与整理。有了数据作为原材料才能进入数据分析的加工过程。

“树”的干是数据思维,是把数据分析的技术与业务问题结合起来的桥梁,是数据分析最重要的方法论。

“树”的花是数据可视化部分,是数据的展现,让数据的关键部分一目了然,给人直观感。

“树”的叶是数据分析常用的统计分析和传统算法,这些技术虽然偏传统,但其实是数据分析最主要的技能。

“树”的芽是AI技术,如机器学习、深度学习等,这些技术比较时髦,处于快速发展期,但目前还不是最主流的数据分析技能。

“树”的果是数据的商业应用、数据驱动运营等,是数据分析最终的成果。

一个数据分析问题可大可小,并不是说这里提到的“树”的每个部分都能在一个数据分析的案例里用到,多数案例只会用到“树”的一部分。举一个简单的例子,一家餐馆的老板一旦收集了每天所有的点餐记录和结账记录,数据分析师就可以从这些点餐记录里:

● 找出顾客最喜欢点的菜——了解顾客的喜好;

● 平均每桌的就餐时长——预估顾客排队的时间;

● 平均每桌的上菜时间——预估顾客等餐的时间;

● 总结每天食材的消耗量——库存管理。

借助数据分析,可以更好地提升顾客的满意度,降低成本。在上面的这个例子中,数据分析师并没有用到算法,而是在收集数据、从各个角度分析数据、得出结论、撰写汇报材料。这就好比游泳,不需要学会所有泳姿,只要能游,不管是学蛙泳还是学自由泳,甚至学“狗刨”都可以。

一般来说,没有用到算法的数据分析,叫作“商业智能”,也称BI。业内人士戏称“商业智能就是做个看板”(dashboard)。正是这个原因,这种类型的数据分析侧重于从原始数据中通过简单规则获取有用的洞察,不需要用到算法。

用到算法,并使用算法寻找规律的数据分析,叫作“数据挖掘”。这种类型的数据分析借助算法从零散的数据中学习规律,找出数据之间的关系,从而进行预测。