记一次df -Th与du -sh空间大小不一致磁盘爆满问题的处理过程
问题场景:
在日常运维中,经常遇到磁盘空间满,发现占用磁盘空间大的文件已经被删除了,但df -Th查看磁盘空间还是满,没有释放出来
但du -sh 查看时发现空间已经腾出来了
通常这种情况都是文件被删除,但是还被进程占用,造成du与df结果不一致。
du -sh * 和df -Th显示大小不一样,一般而言,df显示的使用空间要大于du
因为:当一个文件被删除的时候,在文件系统的目录中已经不可见了,所以du就不会再统计它了。
然而如果此时还有运行的进程持有这个已经被删除了的文件的句柄,那么这个文件就不会真正在磁盘中被删除,分区超级块中的信息也就不会更改。这样df仍旧会统计这个被删除了的文件。
查看方法:
代码语言:javascript复制lsof |grep delete
列出来的这些文件,表示已经删除,但实际上进程还在使用。
处理办法通常是停止占用文件的进程。
但是如果进程不能被停止呢?业务在使用,无法重启进程或服务 另一个处理办法就是通过清空文件释放空间。
处理办法如下:
通过lsof | grep deleted 找到未能删除掉的文件,确定占用的进程号;
代码语言:javascript复制#若没有lsof命令
yum install lsof -y
代码语言:javascript复制然后通过 ls -l /proc/PID/fd/* | grep 文件名,找到相应文件句柄;
清除文件内容 echo > /proc/PID/fd/FD_NUM
这个操作不会将文件删除,而是通过将文档内容清空的方法释放空间,文件还是存在的。
实践示例
问题现象:磁盘爆满由100%已经清理到91%,前面已有运维人员处理了,但是发现
1、问题现象截图
如下图所示
(图片可点击放大查看)
df -PTh查看/api目录占用85G
但是du -sh /api目录只有35G
接手问题,通过百度搜索查证相关的解决方法后,开始进行处理
2、lsof |grep delete查看
代码语言:javascript复制lsof |grep delete
(图片点击放大查看)
发现java进程id 28283 这个程序还占用这个catalina.2022-04-28.out文件未释放,文件大小约为50多G
与df -PTh和du -sh 的差值基本一致
3、不重启进程的处理过程
代码语言:javascript复制ls -l /proc/PID/fd/* | grep catalina
找到相应文件句柄,并使用echo > 方式清除
echo > /proc/28283/fd/1
echo > /proc/28283/fd/2
(图片可点击放大查看)
这时再df -PTh查看可以看到已经与du -sh大小基本一致,问题解决