第2章 认识大数据的基本常识(1)

大数据时代悄然而至

我们每天坐在电脑前在网上搜索、购物、发信息、发图片,用手机打电话、发彩信……很多人都在不经意中制造和使用着数据。因此,产生的数据量正在以惊人的速度增长——数据已经渗透到生活和工作的方方面面,成为时代的特征。

2003年,刚进大学的小强还没有自己的电脑,他省吃俭用花600元买了一个不知名品牌的MP3播放器,容量只有128M。拿到MP3播放器后他非常欣喜,因为这个MP3播放器能存储大约50首普通压缩率的MP3歌曲,还能当软盘用。而他之前一直使用3.5寸的软盘来存储数据,一张软盘的容量仅为1.44M。之前他用来听歌的设备是一台索尼随身听,要听新歌只能花钱买磁带,每盘磁带大约30元,只能存储10首歌,而且没法自己挑选想要听的歌。

10年后的2013年,小强已经参加工作多年,他平时使用智能手机听歌、上网,使用平板电脑玩游戏、购物、看电影,家里的笔记本电脑反而用得越来越少了。最近他想买一个移动硬盘来存储高清电影,他在网上花600元买了一个2T的移动硬盘。这个2T的移动硬盘大约能存储1000部高清电影,如果用来存储普通压缩率的MP3歌曲,大约能存储80万首。

不考虑货币购买力变化及产品功能等问题,只考虑数据容量,同样是600元,2013年购买到的容量是2003年的1600倍。可是,小强还是觉得容量不够用,这10年里到底是哪里出了问题呢?是什么促进了存储介质的发展呢?

不仅是小强,几乎所有的个人、单位都已经觉得原来购买的存储设备容量不够用。随着互联网的逐渐成熟和发展,移动带宽迅速提升,云计算、互联网应用更加丰富。更多的传感设备、移动终端接入网络,由此产生的数据及数据增长速度迅速攀升。数据已经渗透到世界每一个角落、每一个行业和每一个业务职能领域,逐渐成为重要的生产因素和时代的标志;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。

大数据时代已经悄然来临。在这样的背景下,人们逐渐认识到大数据给自己带来的作用,大数据的概念也逐渐在人们的脑海中凸显。这就让人们需要一个巨大容量的存储设备。所以,大数据产生的一个显著标志就是:为了满足市场的要求,数据存储设备的容量越来越大,处理数据的速度越来越快。

以“脸谱”为例。2012年10月,“脸谱”声称其用户量已突破10亿人——近乎世界总人口的1/6。仅仅是用户量就是一个巨大的数字,这让“脸谱”接待这些客户有些吃力,“脸谱”不得不开发各种各样的新技术以跟上用户暴涨的脚步,而这些都需要数据去支撑。

数据暴涨的不仅是人数,更有因人数剧增而产生的一些技术性数据。时代的发展让“脸谱”以惊人的速度处理这些数据,据统计,“脸谱”每天需要处理近30亿个“赞”、25亿次内容分享以及3亿张上传照片。也就是说,这家公司每天存储的数据超过100PB,将这些数据分析处理后,得到超过500PB的新数据。这就相当于2000台苹果电脑硬盘驱动器存储的数据量。你可能还不了解“PB”是什么样的数据单位,这个单位究竟有多大,接下来的内容会让你知道这是个多么庞大的数字量。

权威机构的一项调查发现,90%的企业的数据量在迅速上涨,其中近20%的企业的数据量每年增长一半甚至更多。

国际数据公司2011年6月的报告显示,全球数据量在2011年已达到1.8ZB,在5年里增加了5倍。1.8ZB有多大呢?如果把所有这些数据都刻录存入普通DVD光盘里,光盘的高度将等同于从地球到月球的一个半来回,也就是大约72万英里,相当于每位美国人每分钟写3条推特,要不停地写2.6976万年。IDC预测全球数据量大约每两年翻一番,2015年全球数据量将达到近8ZB,到2020年,全球将达到35ZB。我们可以想象,这是一个多么庞大的数据。当然,这也让我们发现,大数据时代已经悄然而至。事实上,今天的全球互联网巨头都已意识到大数据时代数据的重要意义。包括易安信、惠普、IBM、微软在内的全球IT巨头纷纷通过收购大数据相关厂商来实现技术整合,这足以看出它们对大数据的重视。

大数据产生的背景

为什么大数据似乎在一夜之间悄然而至,并迅速走红呢?为什么人们会把2012年称为“大数据的跨界年度”?大数据之所以会在2012年进入主流大众的视野,我们分析得知,缘于三种趋势的合力。

第一,随着互联网的发展,许多高端消费公司为了提供更先进的、更完美的服务,加大了对大数据的应用。

比如“脸谱”就使用大数据来追踪用户,然后通过“搜索和识别你所熟知的人”,“脸谱”可以给出好友推荐建议。用户的好友数目越多,他对“脸谱”的信任度就越高。好友越多同时也就意味着用户分享的照片越多、发布的状态更新越频繁、玩的游戏也越多样化。后文会提到,“脸谱”因此在和同行的竞争中占得先机。

商业社交网站领英则使用大数据为求职者和招聘单位建立关联。有了领英,猎头公司就不再需要对潜在人才进行繁琐的识别和访问。只需一个简单的搜索,他们就可以找到潜在人才,并与他们进行联系。同样,求职者也可以通过联系网站上的其他人,将自己推销给潜在的人力资源负责人,入职自己中意的公司。

杰夫·韦纳是领英的首席执行官,他在谈到该网站的未来发展时谈到一个经济图表,这是一个能实时识别“经济机会趋势”的全球经济数字图表,他说,实现该图表及其预测能力时所面临的挑战就是一个大数据问题。

可以看出,大家都在利用大数据产生利益,反过来,利用大数据的人就成了催生大数据时代到来的力量之一。

第二,人们在无形中纷纷为大数据投资。

还是以实际的公司为案例。“脸谱”与领英两家公司都是在2012年上市的。“脸谱”在纳斯达克上市,领英在纽约证券交易所上市。从表面上来看,谷歌和这两家公司都是消费品公司,而实质上,它们都是利用大数据吃饭的企业。除了这两家公司以外,一家为大中型企业提供运营智能的大数据企业Splunk也在2012年完成了上市。这些企业的公开上市使华尔街对大数据业务的兴趣非常浓厚。因此,硅谷的一些风险投资家们开始前赴后继地为大数据企业提供资金,这给大数据的发展提供了前所未有的良机。大数据将引发下一波重大转变,在这场转变中,硅谷有望在未来几年取代华尔街。

作为“脸谱”的早期投资者,加速合伙公司在2011年年底宣布为大数据提供一笔不小的投资,2012年年初,加速合伙公司支出了第一笔投资。著名的风险投资公司格雷洛克合伙公司也针对这一领域进行了大量的投资。

第三,商业用户和其他以数据为核心的消费产品,也开始期待以一种同样便捷的方式来获得大数据的使用体验。

我们在网上看电影、买产品——这些已经成为现实。既然互联网零售商可以为用户推荐一些阅读书目、电影和产品,为什么这些产品所在的企业却做不到呢?举个例子说,为什么房屋租赁公司不能明智地决定将哪一栋房屋提供给租房人呢?毕竟,该公司拥有客户的租房历史和现有可用租房屋库存记录。随着新技术的出现,公司不仅能够了解到特定市场的公开信息,还能了解到有关会议、重大事项及其他可能会影响市场需求的信息。通过将内部供应链与外部市场数据相结合,公司可以更加精确地预测出可租的房屋类型和可用时间。

类似地,通过将这些内部数据和外部数据相结合,零售商每天都可以利用这种混合式数据确定产品价格和摆放位置。通过考虑从产品供应到消费者的购物习惯这一系列事件的数据(包括哪种产品卖得比较好),零售商就可以提升消费者的平均购买量,从而获得更高的利润。

所以,商业用户也成为了推动大数据发展的动力之一。

从我们所举的例子看,好像是少数的几家公司推动大数据的产生,的确是这样。但总的来说,大数据的产生既是时代发展的结果,也是利益驱使的结果。当然,那些小公司的发展,乃至个人的服务需求也在为大数据的产生添砖加瓦,只是单个个体的效果不明显,但反映在整个大数据产业中依然是巨大的,其中的道理不再多说了。

一切都可以数据化

很多传统观念告诉我们,有些东西是可以量化的,而有些东西不能够量化。比如,一个面点师一天做了多少个馒头是可以量化的,数数就知道了,而馒头好不好吃是没办法量化的,因为每个人的口味不一样;一个水池里有多少鱼是可以量化的,数数就知道了,而整条河流里有多少鱼是没法量化的。现在,我们需要转变这个观念,因为很多东西是可以量化的。

阿基米德曾经说:“给我一个支点,我就能撬动地球。”从某种意义上我们也可以说:“给我一组数据,我就能复制地球。”为什么这么说呢?数据到底能告诉我们多少信息呢?

2014年5月,黑龙江境内相继发现10个不明坠落物,假如其中一个不明物体是一个规则的长方体。我们手上惟一的工具是尺子,现在我们量出了它的长、宽、高,也就能够在纸上画出这个长方体并算出它的体积。接着,我们发现这个长方体实际上是一个实心的大金块,那么根据黄金的密度我们可以算出它的质量,并根据当前黄金的价格给其估价;如果我们发现这块金块是贵重的文物,却不知道具体是什么时候的,我们可以把它带到实验室对它做碳14鉴定,了解它具体制造于哪一年,进而推测是当代人制造的,还是来自遥远的太空……

从一开始我们只知道它是一个长方体到后来我们掌握了它的来龙去脉,在一步步里我们是如何增加对它的认识的?其实,我们只是逐步采集到了以下这些数据:

(1)这是一个长方体;

(2)这个长方体的长、宽、高的值;

(3)我们已知的知识告诉我们:体积=长×宽×高,质量=体积×密度,黄金的密度=19.3克/立方厘米,由此得出金块质量;(4)由当时的金价,我们可以计算出这个金块值多少钱;(5)碳14的半衰期为5700年,计算出这个金块的碳14含量,就知道它的制造年代。

这一过程中,我们采集到的具体数据越来越多,最后得到的信息也越来越多。我们采集到的数据的多少,决定了我们准确描绘它的程度。对一个金块是如此,对这个地球同样是如此。当我们掌握的数据足够多,多到我们足以完美描绘出这个地球的任何一个特征,我们就能够将它数据化了。同样,我们采集到一个人的数据足够多时,就能很好地用数据描绘这个人。

2011年12月,英国一家电视台播出了一部名为《黑镜》的迷你电视剧,全剧共两季,每季3集,每集都是一个独立的故事。

虽然每集都有不同的演员上演不同的故事,但所有故事都是围绕我们当今的生活展开的。在《黑镜》第二季里,编剧查理·布鲁克为大家讲了3个故事,其中第一个故事是这样的:女主角是一个叫玛莎的女孩,她深爱的男友艾什因车祸意外去世。刚刚怀孕的玛莎痛不欲生,每天都沉浸在过去,怀念着有艾什的日子。艾什生前沉迷于各种社交网络,在网络上留下了不少东西,包括照片、视频、聊天记录、电子邮件等。而此时,一种新的电脑软件出现了,只要将艾什生前散落在网络上的各种内容全部整合在一起,经过一系列复杂的数据分析,这个软件就能够准确地掌握艾什的各种特征,包括形象、语言风格等。通过这些数据,这个软件可以再造出一个“艾什”。玛莎接受了这项服务。这样,玛莎可以像过去一样与虚拟的艾什进行网络聊天、手机通话等。