您当前的位置：杭州SEO中心 > SEO答疑 >

搜索引擎蜘蛛抓取原理

　　搜索引擎蜘蛛的主要任务就是及时、高效地收集数量尽可能多的有用的互联网页面，并保存到原始网页数据库，供内容索引与链接分析之用。

　　SE蜘蛛抓取的方式就是通过超链接，一到十、十到百、百到千的方式抓取互联网上的页面，抓取原理的伪代码如下：

Crawler(S)

{

Get（S）

SS=Collect(S)

Crawler(SS)

}

搜索引擎蜘蛛抓取原理

1、人工选取原始网页集合

人工选取一部分权威度比较高的拥有较多导出链接的站点，例如新浪网易等门户站点，好123等导航站点，以这一部分作为网页的原始结合；

2、蜘蛛爬行网页，并构建新的网页集合

蜘蛛爬行抓取原始网页集合中的所有网站与网页，保存到原始网页数据库，并抓取页面上的超链接，形成一个新的网页集合；

3、蜘蛛爬行新的网页集合

蜘蛛爬行新的网页集合，周而复始的循环下去，直至抓取了互联网上的可供抓取的页面。