
蜘蛛抓取方式有哪些
蜘蛛抓取网页的方式大致分为累积式抓取和增量式抓取,蜘蛛会根据网络带宽合理的确定蜘蛛的抓取方式。
1、累积式抓取
一次性全面的抓取网站上允许抓取的网页,一般用于数据集合的整体建立或大规模的更新阶段,比如对新站的第一次抓取,建议新站在没有完成修改好之前,使用robots.txt禁止蜘蛛抓取,以免第一次抓取了一些待修改的页面,因为下次快照更新时间可能会比较长。
2、增量式抓取
采用数据更新的方式选择已在集合中的过时的网页进行抓取,以保证所抓起的网页数据与真实网站的网页数据接近,增量式抓取的前提是系统以抓取到了足够数量的网页,主要用于对网站快照数据的日常维护和及时更新,增量式抓取比较注重网页抓取的优先级。
在理想的互联网环境中,累积式可以保证抓取到所有有超链接的网页集合,但是真实的网络环境收硬件、带宽、死链的影响,累积式抓取的网页并不能与真实互联网环境的网页数据保持一致,所以必须使用增量式抓取。
上一篇:怎么正确规划网站URL 下一篇:Inurl高级搜索命令介绍
如果您需要帮助,可以立即拨打我们的服务热线!