爬虫允许访问公开数据安全访问公开数据机制的方法

作者:IPIDEA

2020-08-15 15:22:37

在互联网中,有网络爬虫的地方,绝对少不了访问虫的身影。网站访问虫的全球住宅IP,高效采集公开数据前提是要正确区分人类访问用户和网络机器人,当发现可疑目标时,通过防止账号关联采集公开数据地址等措施防止账号关联你继续访问。爬虫该如何防止访问虫允许访问公开数据?


 8.154.png


一、构建合理的HTTP请求头

HTTP的请求头是在你每次向网络服务器发送请求时,传递的一组属性和配置信息。由于浏览器和Python爬虫发送的请求头不同,有可能被访问虫检测出来。

 

二、设置cookie的学问

Cookie是一把双刃剑,有它不行,没它更不行。网站会通过cookie跟踪你的访问过程,如果发现你有爬虫行为会立刻中断你的访问,比如你特别快的填写表单,或者短时间内浏览大量页面。而正确地处理cookie,又可以避免很多采集问题,

建议在采集网站过程中,检查一下这些网站生成的cookie,然后想想哪一个是爬虫需要处理的。

 

三、正常的时间访问路径

合理控制采集速度,是Python爬虫不应该破坏的规则,尽量为每个页面访问时间增加一点儿间隔,可以有效帮助你避免访问虫。

 

四、使用http

对于分布式爬虫和已经遭遇访问虫的人来说,使用http将成为你的首选。Ipidea分布地区广,可满足分布式爬虫使用需要。支持api提取,对Python爬虫来说再适合不过。


*ipidea提供的服务必须在境外网络环境下使用

热门资讯