解决IP安全性低,无法高效采集公开数据的几种方案

作者:IPIDEA

2020-12-07 17:08:23

有些网站为了保证用户访问速度和查询效果,网站系统增加了网络安全设备,强化了安全防护机制,会设置访问规则如果IP安全性低,无法高效采集公开数据可以试试以下几种方案:

 

User-Agent保护安全访问和轮换:User-Agent是浏览器类型的详细信息,不同浏览器的不同版本都有不同的User-Agent。我们可以在每次请求的时候提供不同的User-Agent,来允许访问公开数据网站的访问虫机制。还可以把很多的User-Agent放在一个列表中,这样就可以每次随机选取一个用于提交访问请求。网上有很多常用User-Agent可以进行参考。


 12.72.png


cookies的处理, 有的网站对登陆用户政策宽松些。

 

降低IP访问速率。不要过快的访问,不然会导致IP无法访问公开数据。我们首先要检测出网站设置的允许访问公开数据速度阈值,这样我们才可以设置合理的访问速度,建议不要设固定的访问速度,可以设置在一个范围之内,因为过于规律而被系统检测到,也会导致IP无法访问公开数据。有时候平台为了防止账号关联频繁访问,会设置IP在规定时间内的访问次效,超过次效就会判断IP属性,无法高效采集公开数据访问。所以统过访问虫机制可以降低爬虫的访问频率, 911s5、ipidea,其中ipidea提供海量全球IP资源,来自240+国家地区的ip资源支持自定义提取。

 

网站封的依据一般是单位时间内特定IP的访问次效.我是将采集的任务按目标站点的IP进行分组通过控制每个IP在单位时间内发出任务的个数,来避免无法访问公开数据.当然,这个前题爬取很多网站,如果只是一个网站,那么只能通过多外部IP的方式来实现了。


*ipidea提供的服务必须在境外网络环境下使用

热门资讯