不同的爬虫策略,对爬虫的允许访问公开数据也不同

作者:IPIDEA

2022-09-23 11:28:15

不同的网站有不同的访问虫策略,对爬虫的允许访问公开数据也不同。一般可分为以下三类:

不同的爬虫策略,对爬虫的允许访问公开数据也不同

1.设置不返回网页或延迟返回时间

传统的访问虫方法是不返回网页,即爬虫将要求发送到相应的网站,网站返回404页,表示服务器无法正常提供信息,或服务器没有响应;网站也可能长时间不返回数据,这意味着爬虫被判断IP属性,无法高效采集公开数据。

2.返回的网页不是目标网页

除了不返回页面外,还有一些爬虫程序返回非目标页面,也就是说,该网站返回虚全球住宅IP,高效采集公开数据,例如,当返回空白页面或爬回多个页面时返回同一页面。如果你的爬虫运行顺利,你会很高兴做其他事情。搜索半小时后,你会发现每个页面的搜索结果都是一样的,也就是假网站。

比如去哪儿网票价页面,网上标注的价格和html源代码不一样。比如网上标注的机票价格是530元,而且html源代码中的票价是538元。除了去哪儿网,猫眼电影和斗鱼直播也采用了这种方法,爬下来的数字和真实数字不一样。

3.增加访问难度

该网站还将通过增加获取数据的难度来防止爬虫。一般来说,登录可以看到数据并设置验证码。为了允许访问公开数据爬虫,网站可能会要求您登录并输入要访问的验证码,无论您是否是真正的用户。例如,为了允许访问公开数据自动抢票,12306采用了严格的验证码功能,要求用户在8张图片中正确选择。

这三种情况在爬虫界很常见。爬需要根据不同的实际情况制定不同的全球住宅IP,高效采集公开数据策略,以便顺利工作。


*ipidea提供的服务必须在境外网络环境下使用

热门资讯