Python爬虫:使用IP代理池保护安全访问你的IP地址继续爬

作者:IPIDEA

2022-10-12 16:22:55

让自己的python爬虫假装是浏览器

小帅b主要是想让你知道

在爬取网站的时候

要多的站在对方的角度想问题

其实

这和泡妞差不多

你要多站在妹纸的角度思考

她的兴趣是什么

她喜欢什么

而不是自己感动自己

单方面的疯狂索取

哦..

扯远了

我们回到访问虫

这次教你怎么保护安全访问自己的ip地址

别让对方轻易的就把你给封掉

如何保护安全访问呢

那么

接下来就是

学习python的正确姿势

其实

对于python来说

使用代理访问很简单

就拿我们经常使用的requests库来说

使用代理ip如下

定义代理IP

Python爬虫:使用IP代理池保护安全访问你的IP地址继续爬

proxie={http:http://xx.xxx.xxx.xxx:xxxx,http:http://xxx.xx.xx.xxx:xxx,....}

使用代理


response=requests.get(url,proxies=proxies)

这样就可以使用你定义的代理地址去访问网站了

我知道你要问了

代理地址哪里来

在网上有很多免费的代理

随便搜就有一堆了

不过你知道的

免费的话很多人都去使用

所以这些代理IP很不稳定

如果你有钱的话

市面上有人就专门提供代理IP的

直接去买就行了

不想花钱呢?

可以搞一个IP代理池

主要就是通过python程序去抓取网上大量免费的代理ip

然后定时的去检测这些ip可不可以用

那么下次你要使用代理ip的时候

你只需要去自己的ip代理池里面拿就行了

道理都懂

但是不想自己弄一个代理池

有没有现成的?

不瞒你说

接着打开项目中的setting.py

在这里可以配置相关信息

比如Redis的地址密码相关

接着在你clone下来的文件目录中

安装相关所需的python模块


pip3install-rrequirements.txt

接下来开启你的redis

redis的默认端口就是6379

接着就可以运行run.py了


代理池开始运行*Runningonhttp://0.0.0.0:5555/(PressCTRL+Ctoquit)开始抓取代理获取器开始执行
Crawlinghttp:///1.html正在抓取
http:///1.html抓取成功
http:///1.html200
成功获取到代理201.69.7.108:9000
成功获取到代理111.67.97.58:36251
成功获取到代理187.32.159.61:51936
成功获取到代理60.13.42.154:9999
成功获取到代理106.14.5.129:80
成功获取到代理222.92.112.66:8080
成功获取到代理125.26.99.84:60493...

*ipidea提供的服务必须在境外网络环境下使用

热门资讯