前言

本书讲什么

本书主要讲解Tableau的使用方法,而不是Tableau的操作方法。

Tableau作为一个操作简单的可视化分析软件,在连接好数据后,通过拖动鼠标很快就可以获得一幅可视化作品,至于它是美观的或者丑陋的,取决于使用者的审美能力和一些运气。但无论怎样,快速生成图形仅仅是Tableau提供的能力,并不是它存在的主要价值。

数据是一种数字化的信息承载形式。只有使用者通过工具处理数据,从中捕获到需要的信息,并且使用信息指导现实的行动,才会让数据产生价值。

可视化技术的主要目标是帮助用户高效地捕获数据中的信息。掌握了Tableau的各种功能,能够制作各种数据图表,并不算会使用软件。将软件作为一种工具,熟练地操作和探索数据,发现有价值的东西,才是软件的使用之道。

所以,我们尽量还原了一些现实商业分析场景,展现了在这些场景下如何结合数据和Tableau的可视化技术,对多种商业问题进行探索和解答。希望通过这样的方式让读者更容易学会使用Tableau,快速成为一名合格的数据分析师,而非软件操作匠人。

基于这样的目标,本书每个部分的开始,都是先结合数据图表进行某种商业分析。分析逻辑有时候简单,有时候复杂,有时候没有获得确定答案,但这就是商业分析环境的现实情况,我们尽量把它还原出来,以帮助读者了解在真实分析环境中,如何更好地使用Tableau解决问题。

本书在深挖软件能力的同时,也展现了软件的局限在哪里,以及如何结合其他工具和技术更好地解决问题。当然,本书主要内容还是关于Tableau的,对其他技术的介绍,更多的是给读者一种信息线索,指出Tableau和其他相关工具组合运用的方向。

Tableau的产品除我们所重点讲解的Tableau Desktop之外,还包括Tableau Prep和Tableau Server两个部分。本书也对这两部分进行了相应的介绍和讲解,将三种工具结合起来,可以让Tableau发挥出更大的价值。

数据分析师必须是践行者,所以本书在每个分析思路的后面,阐述了可视化图形的实现方式。在文字上,本书没有将这两部分糅合到一起,因为软件的实现操作和对数据图形的观察分析本质上是两种思维,我们不希望这两种思维互相干扰。

这种结构设置的另一个好处是,避免技术高手重复阅读自己已掌握的知识(对软件非常熟悉的用户,看到图形时一般就已经知道如何实现,重复阅读操作过程是浪费时间)。

在本书中,每一章节的末尾部分为练习题,可以根据每章所学知识举一反三,进行独立的数据分析,让学习者能够更好地领会书中的内容。习题是规范的,也是发散的,可以开拓思维,用所学知识从不同角度对题目进行探究,答案并不唯一,更重要的是过程。

案例数据及商业场景的设定

常见数据软件的操作案例使用的数据要么是一些玩具性质的数据集[1],只能演示软件功能,反映不出分析师面对的现实复杂情况和软件功能的现实意义;要么是国外一些公开的数据集,国内的用户进行学习的时候,很难进行场景代入,分析也没有感觉。

本书内容融合了很多项目的实际经验,书中案例都是基于真实商业场景重新构建的数据集,所用数据,除规模缩小、对关键信息进行脱敏以保证合法使用外,数据中的模式基本保留了“原汁原味”[2]。依托这些数据,书中尽量重现了Tableau可视化技术在各种现实商业环境下的应用,希望能带给读者一些有价值的启发,帮助大家迅速建立起实战能力。

具体来讲,本书案例主要包括以下商业分析场景:

产品分析

产品线优劣的分析

销售时间变化模式的分析

产品价值分析

客户分析

客户的合理分群

客户留存分析

客户生命期分析

产品促销反应分析

营销效果的分析

媒体的营销价值分析

不同营销策略的对比测试

购物篮分析

商品评论分析

电商平台产品评论的综合分析(文本分析)

重要说明:

现实商业环境的复杂性和解决方案的细节,远远超过本书所阐述的内容范围。从分析上来说,不同企业的细节各不相同,可借鉴意义并不大。所以本书舍弃了很多细节,尽量陈述了比较通用的思维框架。读者在参考案例进行实际分析时,可以参考主要思考逻辑,但细节需要结合各自情况因地制宜地做出调整。

Tableau的正确使用方式

Tableau自诞生之日起,就不断地被用来与Excel、Power BI、D3等各种作图相关的软件进行对比,这充分证明了Tableau的影响力,但同时也说明了大家对它的误解。虽然Tableau官方在不断重复“敏捷自助式分析”的设计初衷,但看来多数用户并没有充分理解Tableau官方宣传中所传达的信息。

我们需要一种工具:能够快速灵活地连接和整合数据,提供简单的方式以实现从不同的角度观察研究数据,计算和展示不同的指标,马上分享获得的结果,获取反馈,并推进后续的分析。

Tableau的设计初衷就是搭建这种工具,无论业务人员是自己连接数据进行分析,还是需要和其他相关人员分享和探讨结果,都可以在Tableau体系中简单快速地完成(随着Tableau版本的不断更新,这种特性更加突出)。

理解了这些,你就会感受到Tableau提供的标准筛选控件,各种动态数据交互的展示方式,以及快速搭建“仪表板”和“故事板”能力所带来的高效率,也更容易理解由于组件标准化造成的一些灵活度上的限制。本质上,Tableau是为业务人员准备的,以灵活的可视化的方式“玩”数据的工具,而不是为开发者准备的产品再开发工具。

任何软件都不是万能的,虽然总有一些“大神”级别的人物,给出各种出乎意料的解决方案,完成各种软件提供的标准能力之外的任务。诚然,这也是Tableau的强大之处,当人们需要一些超脱软件标准能力的功能时,它仍能用一些方式来实现。

但我们应该明白,这些非常规的解决方式一定是有代价的,要么是工作量的增加,要么是软件效率的低下从而导致无法进行大规模部署。而随着Tableau版本更迭,一些外部插件也被允许使用到软件中,这也让软件的功能愈发完善,一些意想不到的功能,随之跃然于屏幕之上。同时,有些原本复杂的功能,也逐渐变得简单。

但正常的用户应该详细了解软件的设计初衷、优势及能力的边界,才能用好软件。所以,Tableau的用户也应该知道如何正确地使用它,才能最大化地发挥其能力。虽然有人用Tableau绘制“维纳斯”,但理智一点来说,还是应该充分利用它数据探索的敏捷性,利用它交流和展示数据信息方便的交互性,这样才能发挥它最大的价值,物尽其用。

书写约定

下面是说明书中使用的一些术语的书写格式,方便帮助读者快速理解内容。

(1)Tableau工作界面和数据源界面的术语约定,如图1和图2所示。

图1 Tableau工作界面的术语约定

图2 Tableau数据源界面的术语约定

如果你曾经阅读过2015年出版的《触手可及的大数据分析工具:Tableau案例集》,可跳过这一步,相信你对Tableau的界面已了然于胸。

(2)技术方面的扩展知识单独设有“拓展技术专题”体例。

(3)在对数据的操作说明中,为了避免让读者对软件操作动作和操作数据对象的混淆,所有数据字段(有时称为变量)都使用符号“『』”括起来,格式为『字段』。

(4)在文字说明中,软件内部需要输入和配置的内容用双引号括起来。例如,在公式面板内输入公式“{fixed[二级品类]:SUM(销售数量)}”。

书中主要人物介绍

作为一本技术书,用人物场景对话的方式引出一些分析主题,好像不太正式。但很多技术书已经证实,这种不太“正式”的方式,有助于避免学习的枯燥,帮助读者理解抽象的技术主题,提升记忆效率。毕竟向我们的大脑中输入的总是一些陌生的技术词汇,难免会导致瞌睡虫泛滥。

为了让读者不至于混乱,图3展示了书中主要虚拟人物的关系,其中还展示了每位人物的技术能力和行业背景,方便读者快速理解对话主题。

图3 书中主要人物介绍

下面,让我们从认识书中角色开始数据分析之旅吧。位于三里屯SOHO的这家Costa咖啡店原来充斥着一种慵懒的气息,以前大多是文化界和媒体的人到这儿来扯皮或小憩。如今周边的文化公司多数都搬走了,政府批准了园区内企业享受高科技税收优惠,于是一批软件公司搬了进来。咖啡店里也经常有IT工程师来这儿写代码,还有一些软件产品的小型发布会或技术研讨会在这里召开,无形中,在咖啡店慵懒的氛围中逐渐掺杂了更多的理性气味,节奏也快了许多,别有一种新气象……

最近,一群热爱数据可视化和数据分析的人把这儿作为了聚集地,不定期地约着来喝咖啡,说的都是销量预测、KPI、计算函数、数据整合之类的话题,这引起了店长Lisa(梅丽莎)的注意。

Lisa,1994年生人,被父母送到澳洲完成了市场营销本科学业,回国后因为喜欢咖啡,到Costa求职。因为咖啡闻得准,手脚麻利,大半年前荣升了三里屯店的店长。店长这个工作,除了要求会做咖啡,还得管销售、管排班、管采购、管优惠券的推广……据说她使用了“洪荒之力”记住了许多到店客人点单的喜好,于是为店里带来了一季度月均接近两位数的业绩增长。总部通知说,正在考察她,想调她进入销售部,配合市场部完成新媒体促销的设计。

最近常来店里的一位20岁出头的小伙子和一位30岁左右的职业女性一直聊产品分析的问题,Lisa一直想搞清楚书本的营销理论如何与现实数据结合,也想学学产品分析怎么做,于是借着共同的咖啡爱好,干脆和他们俩交上了朋友。

小伙子名叫鹏辉,每次换着花样地戴X-Large的大猩猩帽子,这让Lisa很快就记住了他。他在一家国际知名的老牌服装企业BestCloth工作,该公司旗下的全球男装、女装、童装品牌一共有12个,其中在中国销售的4个主打品牌价格比较亲民,因此曾一度开店近6000家且占据了各大商场中流行服饰馆的黄金铺面。随着中国年轻一代消费者需求的变化,受到彰显个性的小众潮牌及无牌有品的商品的冲击,这家老牌的服装企业不得不重构自己在中国区的业务。

鹏辉在上海财经大学完成学业后,作为校园招聘生进入BestCloth销售部,配合主管进行销售数据的分析。据他的老板说,BestCloth最后选中他的原因是他的简历中写着“Tableau软件操作熟练”,这个软件是上海财经大学统计实验室的标配,也是BestCloth的常用软件。

尽管算是名校毕业,可毕竟是“小白”,工作这一个月,压力大得让鹏辉快要喘不过气来了。他发现自己会的那点儿Tableau的简单操作在庞大的IT架构面前不过是蜻蜓点水,而BestCloth日平均15万笔的交易记录也远超实验室的那点儿Excel数据。

坐在鹏辉对面的女性被他称为“萧岚老师”,有时候也单独来买咖啡。她应该也在附近办公,Lisa知道每个月他们公司都包下咖啡店的第二层举办一两场技术研讨会,萧岚经常作为讲师谈一些数据分析指标。鹏辉算是萧岚在技术研讨会上认识的小粉丝。

还有几位人物在后面会经常出现。

大威:萧岚的老同事,身为数据挖掘分析师,可视化技术很牛。作为可视化人员,又精通数据挖掘,用自己的话说属于“遭老板爱,招同事恨”的角色。

术术:鹏辉的同学,热爱IT技术,工作主要是提供IT技术支持,但经常给分析师提供数据支持,对数据相关的技术也有一定的钻研。视大威为偶像,正努力成为“斜杠青年”。但对“师傅”大不敬,口头禅是:“虽然我××方面不如你,但我代码写得比你快!”

娜娜:企业电商项目经理,统筹管理内外部项目对接,对数据应用的整体技术构建和流程很了解,但技术实施细节不是非常清楚。

通过他们在咖啡厅的讨论和分享,我们将逐渐了解到书中的各种可视化分析主题……

开始本书的学习之前,建议先扫码听听两位作者是怎么介绍这本书的。

作者开篇

[1]为了演示某种软件功能,人为生成的非常小的示例数据集没有任何现实意义。

[2]不仅保留了原始结构特征,也保留了原始错误,这样读者才能了解真实的企业数据可能有多“糟糕”,认识了真相才会具备应对现实生产环境的能力。