1.1 HDFS 产出背景 及 定义
1 )HDFS 产生背景
随着数据量越来越大, 在一个操作系统存不下所有的数据, 那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。
2 )HDFS 定义
HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
HDFS 的使用场景:适合一次写入,多次读出的场景。 一个文件经过创建、写入和关闭之后就不需要改变。
通俗的讲,HDFS就是多台服务器做同一件事情。如:如数据的存储、计算。
大数据总共做三件事情:海量数据都收集、存储和计算。hadoop就干了其中的两件,可见hadoop的强大之处。
1.2 HDFS的优缺点
优点:
缺点:
1)不适合延时数据访问
2)无法高效对大量小文件进行存储
1.3 HDFS组成架构
HDFS具有主/从架构。HDFS集群由单个NameNode,和多个datanode构成。
NameNode:管理文件系统命名空间的主服务器和管理客户端对文件的访问组成,如打开,关闭和重命名文件和目录。负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系,维护目录树,接管用户的请求。如下图所示:
1、将文件的元数据保存在一个文件目录树中
2、在磁盘上保存为:fsimage 和 edits
3、保存datanode的数据信息的文件,在系统启动的时候读入内存。
DataNode:(数据节点)管理连接到它们运行的节点的存储,负责处理来自文件系统客户端的读写请求。DataNodes还执行块创建,删除
Client:(客户端)代表用户通过与nameNode和datanode交互来访问整个文件系统,HDFS对外开放文件命名空间并允许用户数据以文件形式存储。用户通过客户端(Client)与HDFS进行通讯交互。
【小结】
1.HDFS的架构及其工作原理有点小复杂,需要慢慢揣摩了
2.很多技术本身是具有哲学意义的,只要我们去发掘它。无论你是否相信,它都客观存在。