
网页重访策略
互联网的网页无时不在发生着变化,新网页出现、页面内容更新或者本来存在的网页被删除等,SE为了展现给用户最新的网页数据快照,必须对已有的网页按照不同的时间间隔进行重访,更新SE的网页数据库。搜索引擎的网页重访策略包括以下几类:
1、以网站的更新频率作为主要的参考标准
主要是依据网页的历史更新数据作为参考,合理的判定网页的更新时间,设定蜘蛛的重访时间,这个依据是:过去更新频繁的网页,将来也会更新频繁。
2、聚类抽样策略
网页有一些属性,根据这些属性可以预测其更新周期,具有相似属性的网页,其更新周期也类似,于是可以根据这些属性特征将网页归类,同一类别的网页具有相同的更新频率,尤其对于一些新抓取的网页,没有历史信息的积累,可以直接根据网页的属性特征判断所属于的类别,设定网页重访频率。比如:网站首页、频道首页、内容页面更新频率会不同,并且他们的网页特征属性不同,那么蜘蛛可以根据他们属于不同的聚类合理的设定不同的重访频率。
3、针对有时效性要求的关键词进行特殊处理
对于时效性要求高的关键词,例如“天气”、“黄金价格”等进行时时的网页更新,有些甚至是分钟级别的。
上一篇:搜索引擎怎么评估链接的质量 下一篇:搜索引擎蜘蛛抓取原理
如果您需要帮助,可以立即拨打我们的服务热线!