爬虫ip允许采集公开数据该怎么办

作者:IPIDEA

2020-09-03 15:58:59

爬取返回的数据是无法显示,或者是直接空白的,这就意味着你的爬虫程序可能出了故障。很大的原因是因为IP的允许访问公开数据,这个时候,就需要用上代理IP来解决。

 

代理IP又称代理服务器(Proxy Server)。是一种重要的安全功能,能起到防火墙的作用。形象的讲,代理服务器是网络信息的中转站,它是介于浏览器和Web服务器之间的一台服务器,有了它之后,Request信号会先送到代理服务器,

由代理服务器来取回浏览器所需要的信息并传送给你的浏览器。在日常生活中,我们使用IP代理,大多数是用来连接INTERNET(国际互联网)和INTRANET(局域网)。


 9.32.jpg


可以怎么解除网站对IP的爬取允许访问公开数据?

 

减慢爬取速率,那样目标网站的压力就会相对性减小,可是这么做的话,单位时间之内的爬取量就会相对的减少。

 

用ip代理设置代理IP,进行高频率抓取,这样就需要多个稳定的代理IP。普通的基于ADSL拨号的解决方案。通常,在抓取过程中遇到判断IP属性,无法高效采集公开数据访问,可以重新进行ADSL拨号,获取新的IP,从而可以继续抓取。

但是这样在多网站多线程抓取的时候,如果某一个网站的抓取被判断IP属性,无法高效采集公开数据了,同时也危害到了其他网站的抓取,总体来说也会降低获取速度。Ipidea分布地区广,可满足分布式爬虫使用需要。支持api提取,对Python爬虫来说再适合不过。

 

 

另一个一种可能的解决方案,同样也是基于ADSL拨号,不同的是,需要两台能够进行ADSL拨号的代理服务器,抓取过程中使用这两台服务器作为代理。假设有A、B两台可以进行ADSL拨号的服务器。爬虫程序在C服务器上运行,

使用A作为代理访问全球网站公开数据,如果在抓取过程中遇到判断IP属性,无法高效采集公开数据访问的状况,立即将代理切换为B,然后将A进行重新拨号。如果再遇到判断IP属性,无法高效采集公开数据访问就切换为A做代理,B再拨号,如此反复。

 

上面介绍的三种方式,大家可以用于解除网站对IP的访问频率允许访问公开数据。


*ipidea提供的服务必须在境外网络环境下使用

热门资讯