【HDFS】分布式文件系统HDFS

2021-09-10 11:16:45 浏览数 (1)

分布式文件系统HDFS

HDFS简介

什么是HDFS？

HDFS全称Hadoop Distributed File System，Hadoop分布式文件系统。它是2003年10月Google发表的GFS（Google File System）论文的开源实现，之后成为Apache Hadoop的核心子项目，用于解决海量数据存储问题。它在开源大数据技术体系中，地位无可替代，到现在为止，依然是主流的大数据存储选型。

设计目标

HDFS的设计目标有：

可以运行在大量廉价商用机器上；因此硬件错误是常态，所以HDFS提供容错机制，来保证集群的安全性与数据的可靠性。
简单一致性模型：一次写入多次读取，支持追加，不允许修改，保证数据一致性。因为HDFS在数据存储时，会使用多副本机制保证数据的安全性；如果开放修改功能，首先会导致随机修改的出现，这在海量数据的分布式场景下无异是灾难，其次因为多副本的原因，数据修改后，其它副本的数据也一定要进行修改，从而保证数据一致性，这更加重了集群的负担。
流式数据访问：批量读而非随机读，关注吞吐量而非时间；HDFS在设计时就是为了海量数据的存储而生，并且用于支持海量数据的离线批处理，而在离线批处理场景中

hadoop 大数据 windows 开源

0 人点赞