1 大数据:数智时代的底层逻辑

第一节 颠覆与重构:大数据引发的思维变革

随着信息技术的快速演进与发展,海量数据几乎可以无成本地在全球范围流转,它使一切的人与人、物与物、人与物都连接在一起。这样一来,大数据便成为新发明和新服务的源泉,而数据本身也变成了人类极为重要的自然资源。

从这个角度来思考,大数据将为人类创造前所未有的可量化维度,也正在引发新一轮的智能时代大变革。这场变革,我们每个人都无法置身事外。

重新定义数据

我们先来解释一下数据,把这个词分开来看,“数”就是“数字”,可以把它比作所有具有意义的符号,而“据”则是“根据”与“证据”。

把它们放到一起来理解,数据就是对客观事件进行观察或记录的结果,是对客观事物的性质、状态以及相互关系等进行记载的物理符号组合,是对客观事物的逻辑归纳。

它可以是数字,也可以是具有一定意义的文字、图形、图像、视频和音频等,是对客观事物的属性、数量、位置及其相互关系进行描述的抽象符号。

从古至今,人类都试图把一切的知识和经验积累起来。但是,由于技术限制,古人并不能完全充分地传承与运用。而今天,随着经济、技术、文化及制度的进步,物理世界被数据化,整个人类社会将被颠覆,我们对于数据的积累和运用达到了前所未有的程度。

我们对数据的记录越来越全面而精确,对数据的应用需求日益增加。如果说此前的小数据时代,我们对数据的处理就像修水管一样,如今到了大数据时代,我们面对的则是江河,甚至海洋的治理,这发生了质的变化。

这要求我们不仅需要利用更先进的技术与工具,更需要提升洞察力、思辨力与决策力。所以,我们需要进行新一轮的认知觉醒与思维变革。

从抽样到总体

首先,是抽样思维到总体思维的转变。

以前我们开展研究时,都习惯采用抽样调查的方式。从想要研究的全部样品中抽取一部分样品单位,通过这些样品单位的分析与研究结果来估计和推断全部样品特性。

抽样调查是科学实验、质量检验、社会调查普遍采用的一种经济有效的研究方法,它在一定历史时期内,极大地推动了社会的发展。在数据采集难度大、分析和处理困难的时候,抽样调查绝对是一种非常好的权宜之计。

例如,我们想要计算洞庭湖中银鱼的数量,就可以事先对10000条银鱼打上特定记号,并将这些鱼均匀地投放到洞庭湖中。过一段时间进行捕捞,假设捕捞上来的10000条银鱼,有4条是打了记号的,那么我们可以得出结论,洞庭湖大概有2500万条银鱼。

这样的抽样调查既有优点,也有缺点。抽样保证了在客观条件达不到的情况下,可能得出一个相对可靠的结论,让研究有的放矢。

但抽样也带来了新的问题:抽样是不稳定的,从而可能导致结论与实际差异非常明显。上面的例子,有可能今天去捕捞得到打了记号的银鱼有4条,明天去捕捞得到打了记号的银鱼有400条。同样,我们不能因为一个高考状元后来发展得不好,就得出所有高考状元一定走向平庸的结论,这是抽样在极端情况下结论不稳定的极端表现。

以前我们对数据的收集、储存和处理的能力有限,随机抽样是最有效且成本最低的调查方法。但随着大数据技术的发展,我们已经具备了洞察所有样本的能力,进而解析全部的数据,这更能让我们无限接近100%的真相。

比如,以前要了解全国人均寿命,只能随机调查全国几个城市的部分人均寿命,从而推断出全国大概的人均寿命。但是现在我们每一个人从出生到死亡的信息都会被记录,这样就可以分析出最准确的平均寿命。

从抽样思维到总体思维,是从过去的小数据时代到如今的大数据时代最重要的思维转变。

实际上,在很多情况下,现实是不允许我们进行抽样的。例如,为了获得中国的准确人口数量,为党和国家在制定政策与方针时,提供更加客观可靠的依据,我们基本不会采用抽样调查,而是采用人口普查。所谓人口普查,就是获得中国所有人的样本,计算中国的精确人口数量。

从精准到容错

其次,是精准思维到容错思维的转变。

在小数据时代,我们习惯了抽样。一般来说,全样的样本数量是抽样样本数量的很多倍,因此抽样的一丁点错误,就容易导致结论的“差之毫厘,谬以千里”。为保证抽样得出的结论相对可靠,人们对抽样的数据要求精益求精,容不得半点差错。

这种对数据质量近乎疯狂的追求,是小数据时代的必然要求。这样一来,一方面,极大地增加了数据预处理的代价,大量的数据清洗算法和模型被提出,导致系统逻辑特别复杂。另一方面,不同的数据清洗模型可能会造成清洗后的数据差异很大,从而进一步增加了数据结论的不稳定性。

还有一个容易被忽视的事实是,现实世界本身就是不完美的,现实中的数据本身就存在异常、纰漏、疏忽,甚至错误。将抽样数据极致清洗后,很可能导致结论反而不符合客观事实。这也是很多小数据的模型,在测试阶段效果非常好,到了实际环境效果就非常差的原因。

随着大数据技术的不断突破,我们已经有技术与能力进行全样数据分析,就更应该关注效率而不是精确度,甚至可以容忍其中的一些纰漏和错误,因为我们获得的数据量绝对庞大,其结果更加接近客观事实。

为了统计消费物价指数,美国劳工统计局以前每年都会花费一大笔钱,雇用很多人向全美90个城市的商店打电话、发传真甚至登门拜访。这些传统方式收集的数据虽然精确有序,但结果却是滞后的。

后来,麻省理工学院两位专家提出了一个大数据解决方案。通过一个软件系统在互联网上收集信息,他们每天可以收集到50万种商品的价格。这些数据虽然非常庞杂且混乱,但是把它们和分析算法相结合,就能及时发现消费物价指数的变化,这让消费物价指数的统计更有效率。

所以说,大数据标志着人类在寻求量化和认识世界的道路上前进了一大步。过去不可计量、存储、分析和共享的很多东西都被数据化了,拥有大量的数据和更多不那么精确的数据,为我们理解世界打开了一扇新的大门。

过去寻求精确度,现在寻求高效率;过去寻求因果性,现在寻求相关性;过去寻找确定性,现在寻找概率性,对不精确的数据结果已能容忍。只要大数据分析指出可能性,就会有相应的结果,从而帮助我们快速决策、快速动作、抢占先机。

从因果到相关

最后,是从因果思维转向相关思维。

在小数据时代,我们大多数时候相信因果关系。但在大数据时代,因果关系是脆弱的,是一种非常片面的逻辑关系,“有因必有果”的结论也非常武断,甚至在某些情况下这种关系是错误的,或者是不合时宜的。

以前大家都认为天鹅是白色的,“因为是天鹅,所以是白色的”曾被世界上所有人奉为经典。但是当人们在澳大利亚发现了黑天鹅的时候,世人关于天鹅的认知体系崩溃了。

我们曾经引为经典,认为千真万确的牛顿力学理论,在高速运行的世界里全被颠覆了。许许多多曾经认为理所当然的因果关系荡然无存。这都说明因果关系是非常脆弱的,非常不稳定的。

在大数据时代,我们不追求抽样,而追求全样。当全部数据都加入分析的时候,只要有一个反例,因果关系就不成立,因此在大数据时代,因果关系变得几乎不可能。所以我们要寻找另一种关系,那就是相关关系。

大数据时代,我们要去追求“是什么”,而不要执着“为什么”。这有点像机械思维,即我们按了那个按钮,就一定会出现相应的结果,而不需要去挖掘中间非常紧密的、明确的因果关系,只需要找到相关关系和迹象就可以了。

举个例子,经济学中有一个“啤酒尿布”现象——将尿布和啤酒放在一起售卖,这两种产品的销量会同时增加。很多经济学家希望通过因果关系找出其中原因,比如家庭主妇采购尿布时,看到啤酒就会顺便为丈夫购买一点。

很多男人去超市买了啤酒后也会顺便买纸尿裤,但不是买啤酒就一定买纸尿裤。因此,啤酒和纸尿裤的关系不能算因果关系,而只能是一种相关关系,所以我们只需要借鉴使用这种组合销售的方式就行了。

又比如,一家超市竟然从一位19岁女孩的购物清单中,发现了她怀孕的事实;腾讯一项针对社交网络的统计显示,爱看家庭剧的男性人数是女性人数的两倍多;2019年,支付宝中无线支付比例排名前十的地区,竟然有青海、西藏和内蒙古。

大数据透露出来的信息,确实会得出颠覆性的结论,所以我们不能用因果关系去探求其中的关联,而应该用相关思维去利用大数据带来的结论与价值。如何转变这种思维,是大数据时代下最值得我们思考的问题。

大数据的无限可能

用大数据进行城市规划。我们可以通过对城市地理与气象等自然信息,以及经济、社会、文化和人口等人文社会信息的搜集和分析,为城市规划提供更优的决策,更好地帮助城市发展。

用大数据进行交通管理。我们可以通过对道路交通信息的实时挖掘,有效缓解交通拥堵,并且快速响应突发状况,为城市交通的良性运转提供科学的决策依据。

用大数据监控舆情。我们可以通过网络关键词搜索及语义智能分析,提高舆情分析的及时性和全面性,全面掌握社情民意,提高公共服务能力,应对网络突发公共事件,有效打击违法犯罪。

用大数据辅助安防。我们可以通过大数据及时发现人为或自然灾害及恐怖事件,提高应急处理能力和安全防范能力。

大数据已经潜移默化地渗透到我们工作和生活的方方面面,为这个时代带来了巨大的变革。