今天明月碰到了一次 Nginx 的“500 Internal Server Error”故障,依惯例必须发文水一篇,算是一次记录吧!最后排查出来的故障原因虽然很奇葩但也算是一次经验积累了,所以也可以当做一次经验分享给大家。
今天下午抽时间研究了一下 Nginx 的 Lua 模块 ngx_lua_waf 防火墙的规则文件,想着看看在不使用 CSP 规则的情况下完全依赖 ngx_lua_waf 提升一下屏蔽效能,理论上这些操作是不会影响到 Nginx 的正常运行的,并且每次需要重启 Nginx 服务的时候都要通过nginx -t命令来检查验证配置无误的(有关 ngx_lua_waf 可参考『LNMP 1.5 测试版体验之 ngx_lua_waf 初体验!』一文)。没有想到就是这个验证配置无误的疏忽造成了服务器长达半个小时的“500 Internal Server Error”错误状态。
刚开始明月都还没有发觉出现 500 错误了,还在 QQ 群好友的提醒下才知道的,这时候发现这个服务器上所有的站点都是“500 Internal Server Error”错误状态了,无论是重启 Nginx、重启 LNMP 甚至重启服务器后重新编译 Nginx 都无济于事,所有的站点都是“500 Internal Server Error”错误状态,无论是 WordPress、Typecho 还是 Hexo 博客都是这样,很明显问题出在 Nginx 上,可以是 Nginx 的配置以及站点配置文件都排查了没有任何问题,Nginx 的 error.log 里也是没有任何有价值的提示线索。理论上来说“500 Internal Server Error”错误状态就是指 Web 服务器内部错误,所以 Nginx 这个锅必须背了,但就是不知道问题出在哪里了?
说实话,随着时间的推移明月有点儿“急”了,眼看快下班了都,故障原因竟然都找不到,郁闷呀!强迫自己回忆了一下自己在控制台终端的最后一次修改配置的文件应该是编辑保存了一下/usr/local/nginx/conf/waf/waf.lua 文件,虽然记得是没有动过任何字符,但最后用 Vim 打开这个文件的时候是使用:wq退出的 Vim 的,难道问题出在这里?Nginx 的 nginx.conf 文件里倒是确实有引用到这个文件,还是通配符式的引用,在『LNMP 1.5 测试版体验之 ngx_lua_waf 初体验!』一文里可以知道这是为了给 Nginx 部署 ngx_lua_waf 防火墙的,于是打开/usr/local/nginx/conf/waf/waf.lua 文件仔细的查看下发现是Vim 操作的时候不小心碰到回车键让首行的"local ……”弄成“ocal ……”了,修复这个误操作保存退出,Nginx 的“500 Internal Server Error”消失了,所有的站点都恢复正常了。
问题解决了,事后分析竟然是 Nginx 并不支持 Lua 模块.lua 文件的语法错误的输出提示,nginx -t检查更是不会涉及到引用的.lua 文件,自然也就不会提示配置文件有问题了,可以说这个“坑”要不是明月回忆起最后的操作还真的不易发现,唉!真是一次小小的失误就会造成一个不小的“坑”呀!