爬虫避免被限制的几种方法
发布日期:2020-08-01

目前爬虫技术已经可以被我们充分发挥,海量收集数据。爬虫行动往往会受到很多限制,以致最终被完全封锁掉。有什么方法能避免呢?

 

验证码我们在很多网站会遇到,如果请求量大了之后就会遇到验证码的情况。最让人诟病的12306,其实也是一定程度上的防止非正当请求的产生。对于验证码,可以通过OCR来识别图片,Github上面有很多大神分享的代码可以用,可以去看看。

 10.png

 

减少返回的信息最基本的隐藏真实的数据量,只有不断加载才能刷新信息。还有的就更变态,会只给你展示一部分信息,人都看不到,爬虫也无能为力。比如CNKI,你每次搜索能够得到的内容就是非常有限的。这个貌似没有很好的解决办法,但是这么干的网站毕竟是少数,因为这种方式,其实在某种程度上是牺牲了一部分真实用户的体验。

 

IP限制限制IP也是很多网站反爬虫的初衷,但是我们可以通过HTTP更换IP的形式来绕过这种限制,比如搭配使用IPIDEA每天有着9000w的全球资源,保证IP的纯净度,有效提高爬虫工作的效率。


标签: 稳定的HTTP代理 动态IP代理 国外http
上一篇 HTTP工作的基本原理