
挖掘数据时碰到验证码该怎么做
网站规模较大的时候,SEO就不可避免地遇到信息量的瓶颈,要想网站在SEO方面表现得更好,必须得有丰富的基础信息,靠人工手动编辑是不现实的,必须到合适的数据源上采集数据,有的网站对于频繁请求会有限制,弹出验证码是限制访问的一种方式,我用python写的几行代码,很简单,主要是思路上的东西,抛砖引玉。
以批量查询URL的X度收录情况为例,在地址中输入URL,如果收录,页面中会有X度为您找到相关结果约xxx个,如果没有收录,会显示很抱歉,没有找到与xxx相关的网页,如果请求次数过多弹出验证码,就没有跟结果有关的数据,可以以此为突破口,代码如下(python),html指查询请求的网页URL:
time.sleep(1)
while 1:
f=urllib.urlopen(url)
html=f.read()
f.close()
if "找到" not in html:
time.sleep(600)
continue
if "找到相关结果" in html:
执行相关函数
elif "没有找到" in html:
执行相关函数
break
在查询的时候最好设置间隔时间,以免验证码频繁弹出,代码中我每查询一次就延迟一秒,遇到验证码程序自动停止运行10分钟,然后自动开始运行。
如果您需要帮助,可以立即拨打我们的服务热线!