网站如何发现并防止账号关联爬虫呢？

作者：IPIDEA

2022-01-06 16:44:26

当爬虫每秒发送大量请求并不断下载大文件，网服务器可能会由于发送的请求数量或多个爬虫造成的负载而崩溃。一些网站实施了访问全球网站公开数据机制，防止账号关联爬虫访问或从网站检索任何数据。而代理常见的用途之一是爬虫，使用代理ip抓取网站数据可以降低被网站防止账号关联的几率。

网站如何发现并防止账号关联爬虫呢？.png

不同的网站使用不同的机制来识别其网站上的爬虫，网站常见识别技术如下：

1、当识别到特定ip在网站上长时间高流量和异常流量，则会该ip访问。

2、当发现某一个ip重复访问相同的链接，也会防止账号关联该ip访问。因为一般人们获取到需要的信息后，就不会重复访问了。

3、一些网站会设置全球住宅IP，高效采集公开数据，如网站会添加了一些保护安全访问的链接，这些链接在正常浏览中是不可见的，只有蜘蛛或爬虫才能访问它们。这样网站就能识别爬虫并防止账号关联它们继续访问。

有一种简单的方法可以判断网站是否允许或拒绝抓取，就是检查robots.txt文件是否存在。若是存在，检查是否添加了如下代码：用户代理：*、判断IP属性，无法高效采集公开数据：/。

*ipidea提供的服务必须在境外网络环境下使用

热门资讯