1.2 机器学习的重要性
为什么机器学习变得如此受人关注呢?(咔嚓咔嚓)
其实机器学习的基础理论和算法本身并不是新出现的。
欸,原来是以前就有的啊?
无论是过去还是现在,计算机都特别擅长处理重复的任务。所以计算机能够比人类更高效地读取大量的数据、学习数据的特征并从中找出数据的模式。这样的任务也被称为机器学习或者模式识别,以前人们就有用计算机处理这种任务的想法,并为此进行了大量的研究,也开发了很多代码。
原来机器学习从很久以前就可以做很多事情,真是出乎意料……
现在机器学习能做的事情更多了。虽然不可否认这受益于计算机理论的发展,不过我认为主要还是归功于以下两点。
● 具备了能够收集大量数据的环境
● 具备了能够处理大量数据的环境
也就是说,让计算机收集大量数据、学习大量知识,就可以做许许多多的事情了吗?
嗯,差不多是这样的。当我们打算用机器学习做什么事情的时候,首先需要的就是数据。因为机器学习就是从数据中找出特征和模式的技术。
原来并不是说有一个很厉害的程序,只要把事情交给它,它就什么都会帮我们搞定呀。
嗯,所以收集数据很重要。
不过“具备了能够收集大量数据的环境”是什么意思呢?
由于互联网的发展,个人行为和生活的一部分已经被数字化,规模大到无法想象的数据也随之而生。
而且,不仅是数据量变多了,数据的种类也增加了。其中包括Web网站的访问记录、博客上发布的博文和照片、邮件的发送记录、电商网站的购买记录等,数不胜数。多亏有了互联网,我们才可以轻松获取大量这样的数据。
对呀,我也经常在网上买东西。现在再普通不过的事情,在过去看来却并不简单……
我们就拿刚才你举的机器学习的例子来说吧。人脸识别可以使用SNS网站上与人物标签一起被上传的图像数据,而推荐系统则可以使用电商网站上的购买记录数据。不管是人脸识别还是推荐系统,都是从数据中学到的成果。
原来如此。看来我之前对机器学习完全不了解啊。
而且现在计算机的性能也越来越高,处理同样多的数据所需的时间变得越来越短,硬盘和SSD这样的存储设备也越来越便宜。
现在好厉害呀。计算机能够处理大量数据,也就能学到相应的大量知识,真让人激动。而且值得处理的数据也非常多。
是啊。不过,比起可以学习到大量知识,计算机能够更快地处理数据这一点更令人激动。现在可以使用GPU进行数值计算,Hadoop、Spark之类的分布式处理技术也逐渐成熟,所以才说现在“具备了能够处理大量数据的环境”。
适合机器学习的时代终于来临了!
对,所以人们对机器学习的兴趣越来越高。机器学习不仅可以应用在那些方便我们日常生活的应用程序上,还可以帮助商务人士做决策,或者应用在医疗、金融、安全等其他各种领域。
这样说来,机器学习真是太厉害了。眼下也正是使用机器学习大展拳脚的时候,我现在真心想学习它了。