- 自己动手写分布式搜索引擎
- 罗刚
- 304字
- 2020-11-28 15:52:39
1.3.1 网络爬虫
网络爬虫(Crawler)又被称作网络机器人(Robot)或者蜘蛛(Spider),它的主要用途是获取互联网上的信息。只有掌握了“吸星大法”,才能源源不断地获取信息。网络爬虫利用网页中的超链接遍历互联网,通过URL引用从一个HTML文档爬行到另一个HTML文档。http://dmoz.org可以作为整个互联网抓取的入口。网络爬虫收集的信息可有多种用途,如建立索引、HTML文件的验证、URL链接验证、获取更新信息、站点镜像等。为了检查网页内容是否更新过,网络爬虫建立的页面数据库往往包含根据页面内容生成的文摘。
在抓取网页时大部分网络爬虫会遵循Robot.txt协议。网站本身可以用两种方式声明不想被搜索引擎收入的内容:第一种方式是在站点的根目录增加一个纯文本文件http://www.yourdomain.com/robots.txt;另外一种方式是直接在HTML页面中使用Robots的<meta>标签。