2.3 爬虫的原理_Python网络爬虫技术与实战-QQ阅读男生中文历史网

上QQ阅读APP看书，第一时间看更新

2.3　爬虫的原理

我们通常会将网络爬虫的组成模块分为初链接库、网络抓取模块、网页处理模块、网页分析模块、DNS模块、待抓取链接队列、网页库等，网络爬虫的各系模块可形成一个循坏体系，从而不断地进行分析和抓取。爬虫的工作原理可以很简单地解释为先找到目标信息网，然后页面抓取模块，接着页面分析模块，最后数据存储模块。其具体详情如图2-5所示。

图2-5　爬虫原理图

爬虫工作基本流程：

1）首先在互联网中选出一部分网页，以这些网页的链接地址作为种子URL；

2）将这些种子URL放入待抓取的URL队列中，爬虫从待抓取的URL队列依次读取；

3）将URL通过DNS解析；

4）把链接地址转换为网站服务器对应的IP地址；

5）网页下载器通过网站服务器对网页进行下载；

6）下载的网页为网页文档形式；

7）对网页文档中的URL进行抽取；

8）过滤掉已经抓取的URL；

9）对未进行抓取的URL继续循环抓取，直至待抓取URL队列为空。