联系电话:18858105031
您当前的位置:杭州SEO中心 > SEO答疑 >

蜘蛛抓取优先级策略

 

  对于SE来讲,抓取互联网的所有网页几乎是不可能,所以蜘蛛在有限的硬件和带宽的资源下,必须对互联网的网页进行有选择的抓取,链接抓取策略是抓取系统的大脑,它决定链接抓取的优先级,先抓取什么网页,后抓取什么网页,相当于军队的指挥官角色。

1、深度优先策略

  具体实现方式就是沿着树的深度遍历树的节点,尽可能深的搜索树的分支,就是蜘蛛从起始页开始,一个链接一个链接跟踪下去,处理完这条线路最低端后再抓取其他的,但是很少被搜索引擎采用。

2、广度优先策略

  BFS,从根节点开始,沿着树的宽度遍历树的节点,就是蜘蛛会优先抓取起始页中的链接中的所有网页,然后再选择其中一个页面继续抓取此网页中链接的所有页面,这种可以提高蜘蛛的抓取速度。

3、反向链接策略

  反向链接数量可以衡量一个网站收欢迎的程度和重要性,基于反向链接数量确定抓取优先级也是不错的策略,但在实际执行中,不仅会考虑反向链接的数量,还会考虑反向链接的相关性重要性等。

4、局部PR策略

  已下载的网页与待抓取的URL形成一个局部的若干个的网页集合,在此集合内进行PR值计算,蜘蛛再按照局部PR值的高低抓取网页。

5、OCIP策略

  在线页面重要性计算,基本上与PR思路一致,就是在算法开始之前,每个互联网网页都赋予相同的权重(临时权重),当下载了某页面P后,P将自己的拥有的权重平均分配给页面中包含的链接页面,把自己的权重清空,对于待抓取URL中,根据其手头拥有的权重多少排序,优先抓取权重高的页面。

6、大站优先策略

  以网站为单位衡量网页的重要性,对于权值较高、页面内容较多、网页质量较高的大站优先下载。

 


如果您需要帮助,可以立即拨打我们的服务热线!
杭州SEO服务
售后服务
Totop