1.3.1 网络爬虫_自己动手写分布式搜索引擎-QQ阅读男生轻小说网

书名：自己动手写分布式搜索引擎
作者名：罗刚
本章字数：304字
更新时间：2020-11-28 15:52:39

1.3.1 网络爬虫

网络爬虫(Crawler)又被称作网络机器人(Robot)或者蜘蛛(Spider)，它的主要用途是获取互联网上的信息。只有掌握了“吸星大法”，才能源源不断地获取信息。网络爬虫利用网页中的超链接遍历互联网，通过URL引用从一个HTML文档爬行到另一个HTML文档。http://dmoz.org可以作为整个互联网抓取的入口。网络爬虫收集的信息可有多种用途，如建立索引、HTML文件的验证、URL链接验证、获取更新信息、站点镜像等。为了检查网页内容是否更新过，网络爬虫建立的页面数据库往往包含根据页面内容生成的文摘。

在抓取网页时大部分网络爬虫会遵循Robot.txt协议。网站本身可以用两种方式声明不想被搜索引擎收入的内容：第一种方式是在站点的根目录增加一个纯文本文件http://www.yourdomain.com/robots.txt；另外一种方式是直接在HTML页面中使用Robots的<meta>标签。