【配额】
HDFS中,配额用于限制目录的使用空间,具体可分为名称配额和空间配额。
空间配额指的是单个目录中所有文件总的大小限制,文件副本的大小也计算在内。
名称配额指的是根目录树中的文件和目录的最大数量,即递归计算子目录,孙子目录下的文件和目录数。
通过如下命令可以对具体目录设置其配额:
代码语言:javascript复制# 设置名称配额
# max_number 为最大文件/目录数
# dirname 为指定的目录
hdfs dfsadmin -setQuota <max_number> <dirname>
# 设置空间配额
# bytes 为最大存储字节数
hdfs dfsadmin -setSpaceQuota <bytes> <dirname>
通过如下命令可以查看目录的配额情况:
代码语言:javascript复制hdfs dfs -count -q /tmp/hncscwc
# 显示结果
# 名称配额大小 名称配额剩余大小 空间配额大小 空间配额剩余大小 目录数 文件数 文件大小 目录的路径
none inf 536870912 536870912 1 0 0 /tmp/hncscwc
通过如下命令可以清除配额:
代码语言:javascript复制# 清除名称配额
hdfs dfsadmin -clrQuota <dirname>
# 清除空间配额额
hdfs dfsadmin -clrSpaceQuota <dirname>
【内部实现】
- 配额在内存中的保存 配额在内存中是跟随目录信息一并存储的。 在NN的内部实现中,INodeDirectory类记录目录的相关信息,每个目录都有一个具体的实例对象,该类继承自抽象类INodeWithAdditionalFields,在父类中有一个features的成员变量,保存了该inode上的所有特性,包括ACL,配额,快照,附加属性等等。其中配额属性就记录了该inode的空间配额,名称配额以及当前的使用情况。 具体数据结构如下图所示:
- 配额的持久化保存 设置的配额信息最后会作为一个操作持久化到editlog中,具体记录目录的路径、对应的空间配额、名称配额。 随着checkpoint的执行,editlog中的操作信息最终会记录到fsiamge中保存。
- 配额的使用 NN在处理创建文件、目录、或者写新的文件,append已有的文件等请求时,会进行对应目录配额的校验判断(包括当前目录的配额,逐级往上父目录的配额,祖父目录的配额等),如果未超过设置的配额,则允许其操作,并在内存中更新当前目录的使用情况。
【能否针对用户进行配额的设置】
在HDFS中有用户、用户组的概念,即每个文件/目录属于指定用户、用户组。同时可以通过开启ACL,为文件/目录设置访问权限。这样HDFS也就支持多用户了。
在多用户的真实场景中,通常是以用户为单位来设置配额,即某个用户能使用多大的空间。对照HDFS的配额,可能就需要指定某个用户能写哪些目录,然后为这些目录分别设置配额,来实现用户配额的功能。
那么,HDFS能否支持直接按照用户来进行配额呢?或者说,如果要支持按照用户来进行配额,HDFS需要做哪些改动呢?
首先要考虑到的就是,用户的配额信息需要进行持久化的存储,因此需要添加对应的editlog操作,同时fsiamge中也需要进行对应的存储(即改变fsiamge的存储信息),然后每个文件进行写操作,文件拷贝,快照等操作时,需要判断是否超过用户的配额。此外在联邦的场景中,考虑的情况会更复杂。
到目前为止,官方的版本中是不支持对用户进行配额的设置的。
在社区中,看到有类似的问题讨论,但没有实际结论或计划进行相应的设计开发。
(详见HDFS-8575:https://issues.apache.org/jira/browse/HDFS-8575)
【FAQ】
对某个目录设置了配额,如果将该目录改名会怎样?
从上面的内部实现中可以知道,配额是目录属性的一部分,通过mv将目录改名,在HDFS中,该目录对应的inode没有变化,因此配额信息仍旧是跟随该目录一起的。
代码语言:javascript复制hdfs dfsadmin -setSpaceQuota 536870912 /tmp/hncscwc
hdfs dfs -count -q /tmp/hncscwc
none inf 536870912 536870912 1 0 0 /tmp/hncscwc
hdfs dfs -mv /tmp/hncscwc /tmp/spurs
hdfs dfs -count -q /tmp/hncscwc
none inf 536870912 536870912 1 0 0 /tmp/spurs
子目录的配额能否大于父目录的配额?
子目录的配额可以大于父目录的配额,也就是说,HDFS的实现中,设置配额时,并没有逐级往上去判断父目录的配额情况。
但是,在真正进行文件存储的时候,就会逐级往上判断是否超过父目录,祖父目录等的配额,如果超过则写入失败。
代码语言:javascript复制hdfs dfs -count -q /tmp/hncscwc /tmp/hncscwc/hadoop
none inf 536870912 536870912 2 0 0 /tmp/hncscwc
none inf 1073741824 1073741824 1 0 0 /tmp/hncscwc/hadoop
- 如果查看当前目录已使用的空间? 通过"dfs -count"可以看到具体目录的配额和已经剩余空间,这样可以推断出实际的使用空间。但是对于未设置配额的目录,配额显示为none,剩余空间显示为inf,这样就无法推断出目录实际的使用空间。 查看源码发现,可以通过客户端的getQuotaUsage接口获取到具体目录的配额与实际已使用空间大小。 实际上,"dfs -count"命令也就是调用了该接口拿到相关信息,只是增加了判断,如果配额为空,则不进行剩余空间的计算。
【总结】
本文简单总结了HDFS配额相关的原理,欢迎指正交流。