前言

秋水时至,百川灌河;泾流之大,两涘渚崖之间不辩牛马。

于是焉河伯欣然自喜,以天下之美为尽在己。

顺流而东行,至于北海,东面而视,不见水端。

—《庄子·秋水篇》

互联网的时机到了,数据汇入数据库,流量之大,不能辨别分类聚类。

于是数据科学家沾沾自喜,以为大数据的美丽结果,我说了算。

数据流量顺势加大,汇流成海量,看数据沧海,不见因果关系。

—《大数据篇》

本书期望以深入浅出接地气的方式介绍数据科学,即帮助读者轻松学习数据科学理论,又有利于读者动手(手算和电算)完成数据科学实战。因此本书特色是:

一图抵千言

本书继承清华大学出版社出版的《大话统计学》一书学习地图的精神,内容尽量用图形、表格、思维导图说明。学习地图是让你知道你的位置,并且告诉你如何去目的地。

避免深奥的数学证明,采用简单的数学说明

奥卡姆剃刀原理(Occam's Razor)认为,最好的科学理论是能解释所有事实的最简单的理论(The best scientific theory is the simplest one that explains all the facts)。数据科学机器学习秉承简约法则:切勿浪费较多东西,去做“用较少的东西,同样可以做好的事情”,避免“过拟合”的精神。学会本书数据科学基本观念,可以进一步理解机器学习的理论证明和复杂模型,例如深度学习。

章节连贯,一气呵成

本书说明了数据科学模型输入数据的类型和限制,算法的分类异同和因果关系,输出结果的评价和优劣。数据科学要考虑:问题种类,数据来源,数据类型,分析方法,模型和算法,信息结果,验证评价和应用价值。有些实战数据出现在许多章节。

动手计算

本书中有小型数据的例题演算,也有大型数据的实战程序。数据科学模型涉及关联分析、聚类分析、贝叶斯分类、近邻法、决策树、降维分析、回归模型等算法,利用小数据例题介绍计算步骤,同时用R语言对照计算结果。另外,也有大数据的案例数据用R语言计算结果,例如推荐系统、支持向量机、集成学习等,只有大数据的案例数据用R语言计算。

因为本书使用R语言,而R语言的包、函数、数据、参数、输出信息等都是用英文,对每个名词的英文名词要特别注意,所以中英文索引很重要。本书中的R语言程序码(R例1.1~R例13.4)、实例的数据集(表2-4实战数据及补充数据如:北京PM2.5数据等)、出版后的索引、勘误表等,可在清华大学出版社扫码下载。

感谢台湾大学工业管理系杨立伟教授和计算机信息中心林淑芬教授提供部分素材。

衷心感谢清华大学出版社大力的支持和协助,使本书能够顺利出版。

由于作者的水平有限,本书中难免有不足和疏漏之处,恳请各位读者提出批评和建议,以便进一步修订和改进。

陈文贤