用代理IP后爬虫遇到问题如何解决

作者:IPIDEA

2020-09-12 15:24:48

很多进行爬虫业务的会常遇见使用了稳定的代理IP,也控制访问速度和次数,发现爬虫工作有时还会遇到各种问题你,工作总是无法顺利进行。那么,用代理IP后爬虫遇到问题如何解决呢?

 

1.分布式爬虫。我们在进行爬虫的时候可以采用分布式的方法,这种方法有一定几率起到访问虫的作用,还能提高抓取量。


 8.201.jpg


2.保存cookies。在模拟登陆比较麻烦的时候,可以直接在web上登陆取下cookie并保存,然后带上cookie做爬虫,但这不是长久的办法,cookie一段时间也可能会失效。

 

3.多账号访问。很多网站会通过固定时间内一个帐号访问的频率来判断是否为机器人。这种情况可以测试单账号的固定时间值,然后在快要到达时间时切换高匿名IP,比如IPIDEA这样循环进行抓取。

 

4.验证码问题。爬虫时间久了经常会遇到验证码问题,这是为了验证你是否为机器人,并不是识别到了你是爬虫机器人。第一种解决办法:出现这种情况可以把验证码down到本地,手动输入验证码进行验证,这种方法就是成本较高,

不能完全自动抓取,需要人为干预。第二种解决办法:可以图像识别验证码,自动填写验证码,但是现在的大部分验证码比较复杂,图像识别不是很熟悉的就无法识别出正确的验证码。

 

不同网站都有不同的访问虫方式,一套爬虫策略不会任何网站都适用。所以要根据具体情况进行分析,分析的过程不断测试,弄清楚访问虫策略,才会事半功倍。


*ipidea提供的服务必须在境外网络环境下使用

热门资讯