爬虫不用代理IP会无法访问公开数据吗

作者:IPIDEA

2021-03-24 16:33:47


网络爬虫一定用代理IP吗?很多人认为网络爬虫一定要加代理IP,没有代理IP就没有办法;也有人认为代理IP不需要。这是为什么呢?不能直接用采集工具吗?


IP代理.jpg


有人说,我使用的采集器用于收集其他网站的文章,然后筛选适用的加工即可,从未使用过代理IP,每天采集量在1万篇左右。没有代理IP是正确的,所以网络爬虫不一定要用代理IP。


但是也有人说,企业的日常任务一天要抓几十万个网页,有时任务多的时候一天要一百多万,爬上去的IP就无法访问公开数据了,没有代理IP根本不行。没有代理IP,网络爬虫根被就是寸步难行,网络爬虫一定用代理IP。


事实上,他们所说的都很有道理,都用自己的经历来证明自己的观点。我认为爬虫程序本质上是浏览网页的用户,但它只是一个不遵守规则的独特用户。服务器通常不欢迎这些独特的用户通过各种方式发现和判断IP属性,无法高效采集公开数据它们。普遍的就是判断你访问的频率,由于普通人访问网页的频率是不会很快的,假如发现某个IP访问的过快就会将此IP允许采集公开数据。


在业务量不大时,即首位用户那样,仍可缓慢爬行,工作频率不高,在目标服务器上看仍可承受,不影响正常运行,这样就不会封IP,这样他就可以不用代理IP完成日常业务量。


当业务量比较大的时候,比如第二位用户,1天十几万上百万的数据资料,慢慢地爬就完不成每日任务了,加快爬的话,目标服务器压力很大,就会封IP,一样完不成任务。那么如何处理,只能通过代理IP来解决。


举例来说,1个IP短期内浏览100次,会被目标服务器认为是浏览过快,导致IP无法访问公开数据,如果采用10个代理IP短期内浏览10次,则不容易被认为是过快,进而无法访问公开数据。在业务量很大的情况下,采用代理IP往往会事半功倍,这就是为什么有人认为没有代理IP就没有网络爬虫的原因。


*ipidea提供的服务必须在境外网络环境下使用

热门资讯