如何从技术上“绞杀”盗链者?
作者 | 阿文
责编 | 郭芮
很多站长都会遇到一个很头疼的问题,那就是自己网站的资源经常被盗用,有文字、图片、视频、和二进制或压缩文件,这些资源被盗用后除了导致网站流量丢失之外、还会带来一些经济上的损失。
除了相关法律,例如《中华人民共和国著作权法》可以使版权或著作权所有者通过法律途径来约束和限制一些未经授权非法使用网站多媒体资源,我们还可以通过一些技术手段来约束访问者,使其无法随意盗取相关资源,下面我们就介绍下网站常用的防盗措施和其优势和劣势。
User-agent 防盗
User-Agent 首部包含了一个特征字符串,用来让网络协议的对端来识别发起请求的用户代理软件的应用类型、操作系统、软件开发商以及版本号。不同的浏览器客户端都会携带自己的 user-agent,例如 Chrome 浏览器的 user-agent 是:
user-agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36
在比如 curl 命令去访问一个 url,其带的 user-agent 如下:
User-Agent: curl/7.54.0
亦或者使用一些编程语言的库,例如 Python 的 request 库,其 user-agent 为:
r.request.headers {'User-Agent': 'python-requests/2.18.4',……}
既然如此,我们可以限制一些 user-agent 的请求,以 nginx 为例,我们判断 httpuseragent 来禁止其访问资源。例如下面的,如果 user-agent 等于 Java|python-urllib 等就返回 403,从而来拒绝这些客户端访问资源。
if ($http_user_agent ~ "Mozilla/4.0$|Mozilla/5.0$|Java|ApacheBench|Python-urllib|^$") { return 403; }
但是这种办法并不能完全禁止掉一些请求,因为 user-agent 是客户定义的,以 curl 为例,如下所示。通过 -H 指定 user-agent 的请求头信息,如果对方恰好指定你的黑名单规则,则可以很轻松的绕过限制。
curl -H "User-Agent:xxxx"
referer 防盗链
Referer 首部包含了当前请求页面的来源页面的地址,即表示当前页面是通过此来源页面里的链接进入的。如下所示的 request headers 中,其 referer 为https://www.google.com/ 则说明其来源是谷歌。
:authority: developer.mozilla.org :method: GET :path: /zh-CN/docs/Web/HTTP/Headers/Referer :scheme: https accept: text/html,application/xhtml xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3 accept-encoding: gzip, deflate, br accept-language: zh-CN,zh;q=0.9,en;q=0.8 cookie: dwf_sg_task_completion=False dnt: 1 referer: https://www.google.com/ upgrade-insecure-requests: 1 user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36
以 nginx 为例,我们可以对指定域名的 referer 进行限制:
if ($http_referer ~* www. xxx.com ) { return 403; }
但是这种办法也并不能完全禁止掉一些域名请求,因为 referer 客户也是可以自定义的。以 curl 为例,如下所示,通过 -H 指定 referer:XXXXX 的请求头信息,就可以很轻松的绕过限制。
curl -H "referer:http://www.baidu.com"
IP 防盗链
顾名思义,即对指定 IP 或 IP 段进行限制访问。例如一些爬虫经常频繁爬取网站资源,我们可以对其 IP 进行限制。
以 nginx 为例,nginx 的ngxhttpaccess_module 模块可以用来设置允许/禁止哪些IP或IP段访问:
allow 1.1.1.1/24 # 允许IP段访问
deny all # 禁止所有 IP 访问
token 防盗链
上述的三种原生 HTTP 首部字段都能防止用户随意盗取资源,但是其劣势相当明显,比如都极容易被伪造。
以 nginx 为例安装secure_link模块,默认是没有安装的,要使用这个模块必须在编译时指定下列编译参数:
--with-http_secure_link_module
secure link 防盗链原理:
-
用户访问资源;
-
服务器根据secret密钥、过期时间、文件uri生成加密串;
-
将加密串与过期时间作为参数跟到文件下载地址的后面;
-
nginx下载服务器接收到了过期时间,也使用过期时间、配置里密钥、文件uri生成加密串;
-
将用户传进来的加密串与自己生成的加密串进行对比,一致允许下载,不一致403。
具体的配置和使用可以参考 https://nginx.org/en/docs/http/ngxhttpsecurelinkmodule.html。
当然除了这种方式,你也可以使用 nginx lua 来自行实现一些自定义的防盗链措施。
【End】