中文

爬虫IP有效性的检测方法

爬虫代理ip不能使用,要先检查一下,这个检查过程是怎样的?怎样免费建立自己的代理IP池?网上有很多公开的免费代理IP,下面IPIDEA代理IP教给大家用爬虫爬取这些IP并进行验证。

 

爬来的IP不能保证都能用,所以爬取下来后需要检验,用爬取的代理ip访问网站,看状态码,是200就证明能用,保存到MongoDB非关系型数据库保存,mysql也行。


 4.236.png


步骤:

安装Mysql数据库,流程略。

 

python引用jsonthreadingBeautifulSoup

 

建立多线程,在线爬行,检查ip是否可以使用(因为收集到的ip不一定可以使用,只有当状态码为200时,表示有响应,可以使用),并保存在数据库中。

 

提供大量的User-Agent,为什么需要这么多的useragent呢?因为头是一样的,所以很容识别出是爬虫类,所以很多用户可以模仿很多用户访问不同的客户端。

 

 


热门资讯