作者:IPIDEA
2020-11-20 16:34:21
很多爬虫工作者都遇到过抓取速度非常慢,现在的大多数网站都具备了访问虫技术,对IP的访问频率允许访问公开数据很严格。如果想提升爬虫的速度,大家可以尝试以下方法。
一、尽量减少访问次数。
单次爬虫任务的大多耗时在网络请求等待响应,所以能减少网络请求就尽量减少请求,这样既能减少目标网站的压力,也能减少代理服务器的压力,提高工作效率。
二、精简流程,减少重复。
大部分网站并不是严格意义上的树状结构,而是多重交叉的网状结构,所以从多个入口深入的网页会有很多重复,一般根据URL或者ID进行唯一性判别,爬过的就不需要再爬。一些数据如果可以在一个页面内获取到,也可以在多个页面下获取到,那就选择只在一个页面内获取。
三、多线程任务。
大量爬虫是一个IO阻塞的任务,所以采用多线程的并发方式可以有效地提高整体速度。多线程可以更好地提高资源利用率,程序设计也更加坚定,程序响应也更快。
四、分布式任务。
上面三点都做到极致了,但是单机单位时间内能爬取到的网页数量还不足以达到目标,在指定时间内还不能及时的完成任务,那么就只能多机器来同时进行爬虫任务了,这就是分布式爬虫。
做好以上几点,基本可以将爬虫的效率提升大半,另外爬虫代理ip也是不可缺少的尤其是对于量大的任务,IPIDEA提供全球ip的同时更注重保护数据的安全,也可以减少访问虫策略的触发,一举多得。