免费代理ip网站抓取IP地址的实战操作

作者:IPIDEA

2022-10-11 15:37:11

/1前言/

爬虫采集无法避免各大网站访问措施的允许访问公开数据。通过固定时间检测某个网站是很常见的ip判断用户是否有地址访问量“网络机器人”,也就是所谓的爬虫,如果被识别出来,就会无法访问公开数据住ip这样你就不能访问这个网站了。

免费代理ip网站抓取IP地址的实战操作

一般的解决方案是使用代理ip爬行,但收费代理ip一般比较贵,网上有很多免费代理ip但由于网站的及时性,大部分地址都不能使用,有很多维护代理ip池的教程即爬行和测试后可以使用代理ip放到“代理池里”,以后用的时候从里面提取。在我看来,这种效率比较低,因为这种效率比较低IP地址很快就失效了,我们要做的就是边检测边使用,充分保证免费IP的时效性。

/2抓取IP地址/

下面开始实战操作。

1.首先,我们随便找一个免费代理ip网站,如下图所示。

2.打开网页查看器,分析其网页元素结构,如下图所示。

3.它是一个简单的静态网页,我们使用它requests和bs4将ip爬下地址和相应的端口,如下图所示。

4.每一行ip地址由五个标签组成,我们需要的是第一个标签(对应的IP地址)和第二个标签(对应端口),所以从第一个开始,每5个取出一次ip地址(item[:5]),从第二个开始,每隔5个取出相应的端口(item[1:5]),参数n为页码,每次只在一页取一个有用的ip地址,最终效果如下图所示:

/3验证IP有效性/

以百度百科全书为目标网站,这个看似普通的网站,访问措施极其严格,爬不了几条内容就开始要求失败。


*ipidea提供的服务必须在境外网络环境下使用

热门资讯