常见的爬虫对策有什么

作者:IPIDEA

2020-08-08 14:58:29

通用网络爬虫的结构大体能够分为网页页面爬行模块、网页页面分析模块、链接过滤模块、网页页面数据库、URL队列、初始URL集合几个部分。为提升工作效率,通用网络爬虫会采取相应的爬行对策。

 

常见的爬行对策有:广度优先对策、深度优先对策。


 8.85.png


广度优先对策:此对策根据网页内容目录层次深浅来爬行网页页面,处于较浅目录层次的网页页面首先被爬行。当同一层次中的网页页面爬行完毕后,爬虫再深入下一层继续爬行。


这种对策能够有效控制网页页面的爬行深度,防止遇到一个无穷深层分支时不能结束爬行的问题,实现方便,不用存储大量中间节点,存在的不足在于需长时间才能爬行到目录层次较深的网页页面。

 

深度优先对策:其基本方法是根据深度由低到高的顺序,先后访问下一级网页链接,直至不能再深入为止。爬虫在完成一个爬行分支后回到到上一链接节点进一步搜索其他链接。


当所有链接遍历完后,爬行任务结束。这种对策比较适合垂直搜索或站内搜索,但爬行网页页面内容层次较深的站点时会导致资源的极大浪费。高质量稳定的http,ipidea覆盖了全球IP资源的服务商,

拥有ip 9000w数量很庞大,避免因为池小而重复,对提高爬虫的抓取效率提供帮助。


*ipidea提供的服务必须在境外网络环境下使用

热门资讯