网站如何发现并阻止爬虫呢?

当爬虫每秒发送大量请求并不断下载大文件,网服务器可能会由于发送的请求数量或多个爬虫造成的负载而崩溃。一些网站实施了反抓取机制,阻止爬虫访问或从网站检索任何数据。而代理常见的用途之一是爬虫,使用代理ip抓取网站数据可以降低被网站阻止的几率。


网站如何发现并阻止爬虫呢?.png


不同的网站使用不同的机制来识别其网站上的爬虫,网站常见识别技术如下:


1、当识别到特定ip在网站上长时间高流量和异常流量,则会该ip访问。


2、当发现某一个ip重复访问相同的链接,也会阻止该ip访问。因为一般人们获取到需要的信息后,就不会重复访问了。


3、一些网站会设置陷阱,如网站会添加了一些隐藏的链接,这些链接在正常浏览中是不可见的,只有蜘蛛或爬虫才能访问它们。这样网站就能识别爬虫并阻止它们继续访问。


有一种简单的方法可以判断网站是否允许或拒绝抓取,就是检查robots.txt文件是否存在。若是存在,检查是否添加了如下代码:用户代理:*、禁止:/。


热门资讯