爬虫ip允许采集公开数据该怎么办

作者：IPIDEA

2020-09-03 15:58:59

爬取返回的数据是无法显示，或者是直接空白的，这就意味着你的爬虫程序可能出了故障。很大的原因是因为IP的允许访问公开数据，这个时候，就需要用上代理IP来解决。

代理IP又称代理服务器(Proxy Server)。是一种重要的安全功能，能起到防火墙的作用。形象的讲，代理服务器是网络信息的中转站，它是介于浏览器和Web服务器之间的一台服务器，有了它之后，Request信号会先送到代理服务器，

由代理服务器来取回浏览器所需要的信息并传送给你的浏览器。在日常生活中，我们使用IP代理，大多数是用来连接INTERNET(国际互联网)和INTRANET(局域网)。

9.32.jpg

可以怎么解除网站对IP的爬取允许访问公开数据?

减慢爬取速率，那样目标网站的压力就会相对性减小，可是这么做的话，单位时间之内的爬取量就会相对的减少。

用ip代理设置代理IP，进行高频率抓取，这样就需要多个稳定的代理IP。普通的基于ADSL拨号的解决方案。通常，在抓取过程中遇到判断IP属性，无法高效采集公开数据访问，可以重新进行ADSL拨号，获取新的IP，从而可以继续抓取。

但是这样在多网站多线程抓取的时候，如果某一个网站的抓取被判断IP属性，无法高效采集公开数据了，同时也危害到了其他网站的抓取，总体来说也会降低获取速度。Ipidea分布地区广，可满足分布式爬虫使用需要。支持api提取，对Python爬虫来说再适合不过。

另一个一种可能的解决方案，同样也是基于ADSL拨号，不同的是，需要两台能够进行ADSL拨号的代理服务器，抓取过程中使用这两台服务器作为代理。假设有A、B两台可以进行ADSL拨号的服务器。爬虫程序在C服务器上运行，

使用A作为代理访问全球网站公开数据，如果在抓取过程中遇到判断IP属性，无法高效采集公开数据访问的状况，立即将代理切换为B，然后将A进行重新拨号。如果再遇到判断IP属性，无法高效采集公开数据访问就切换为A做代理，B再拨号，如此反复。

上面介绍的三种方式，大家可以用于解除网站对IP的访问频率允许访问公开数据。

*ipidea提供的服务必须在境外网络环境下使用

热门资讯