您当前的位置：杭州SEO中心 > SEO答疑 >

搜索引擎抓取系统构架介绍

抓取互联网的网页是搜索引擎非常重要的一步，必须尽可能的抓取所有页面并且快速，所以必须设计一个良好的抓取系统构架，保证SERP都是显示的最新的网页快照。

1、原始网页集合

人工选取的第一批网页的种子集合，共蜘蛛第一次抓取用；

2、链接数据库

存储链接的数据库，存储着兆级以上的链接及链接统计信息（局部PR，链接深度、URL格式、抓取日期等），供链接管理模块与链接处理分析模块用；

3、链接管理

它是爬取系统的中枢神经，负责整个抓取系统的调度任务，根据链接深度、网页类型、URL格式、局部PR等来决定网页的抓取优先级；

4、内部DNS服务

通过公共的DNS服务提供网址的解析不能满足SE抓取的高效，所以SE自己设立DNS服务器以提供高效率的解析，有事DNS服务还担任robots.txt的内容检查；

5、蜘蛛系统

爬行系统中真正去互联网交互的模块，完成爬取任务，通常采用多线程或者异步I/O抓取方式，以提高效率；

6、网页提取系统

它将提取和计算出来的网页信息存储到链接数据库中，并提取出网页中包含的链接存储中链接数据库中；

7、链接处理分析

负责链接的分析与处理，去除无意义、自动生成的、重复的链接。

抓取系统各个模块分工明确、通力合作完成抓取工作。