IPIDEA:爬虫的基本框架

作者:IPIDEA

2020-08-26 15:35:24

IPIDEA为大家介绍基本爬虫的基本框架:


 8.263.png


爬虫调度器负责统筹其他四个模块协调工作。

 

HTML解析器用于解析HTML下载器下载的HTML网页,获取URL链接交给URL管理器,提取要获取的数据交给数据存储器。

 

数据存储器用于将HTML解析器解析出来的数据存储到数据库或文件。

 

HTML下载器用于从URL管理器中获取未爬取的链接并下载其HTML网页。

 

URL管理器负责管理URL链接,包括已爬取的链接和未爬取的链接。


*ipidea提供的服务必须在境外网络环境下使用

热门资讯