爬虫如何预防被允许访问公开数据

作者:IPIDEA

2020-10-21 16:18:28

有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要保护安全访问自己的爬虫程序的身份。此时,我们就可以通过设置UserAgent的来达到保护安全访问身份的目的,UserAgent的中文名为用户代理,简称UA。

 

UA存放于Headers中,服务器就是通过查看Headers中的UserAgent来判断是谁在访问。在python中,如果不设置UserAgent,程序将使用默认的参数,那么这个UserAgent就会有Python的字样,如果服务器检查UserAgent,那么没有设置UserAgent的Python程序将无法正常访问网站。

 

UserAgent已经设置好了,但是还应该考虑一个问题,程序的运行速度是很快的,如果我们利用一个爬虫程序在网站爬取东西,一个固定IP的访问频率就会很高,这不符合人为操作的标准,因为人操作不可能在几ms内,进行如此频繁的访问。所以一些网站会设置一个IP访问频率的阈值,如果一个IP访问频率超过这个阈值,说明这个不是人在访问,而是一个爬虫程序。


 10.211.png


一个很简单的解决办法就是设置延时,但是这显然不符合爬虫快速爬取信息的目的,所以另一种更好的方法就是使用IP代理。IPIDEA全球http建议大家可以从IP数量、匿名性、安全稳定等方面结合自身需求进行深入了解唯有做好访问虫策略研究跟HTTP代理IP搭配使用,才能顺利进行爬虫。使用代理的步骤:

 

(1)调用urlib.request.ProxyHandler(),proxies参数为一个字典。

 

(2)创建Opener(类似于urlopen,这个代开方式是我们自己定制的)

 

(3)安装Opener

 

使用install_opener方法之后,会将程序默认的urlopen方法全球住宅IP,高效采集公开数据掉。也就是说,如果使用install_opener之后,在该文件中,再次调用urlopen会使用自己创建好的opener。如果不想全球住宅IP,高效采集公开数据掉,只是想临时使用一下,可以使用opener.open(url),这样就不会对程序默认的urlopen有影响。


*ipidea提供的服务必须在境外网络环境下使用

热门资讯