概览
Apache™Hadoop®项目开发可靠、可扩展的分布式计算的开源软件。
Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群进行分布式处理大型数据集。 它被设计成从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。 与依赖硬件提供高可用性不同,库本身的设计目的是检测和处理应用层的故障,因此在计算机集群上提供高可用性服务,而每台计算机都可能发生故障。
其包括如下模块:
- Hadoop Common:支持其他Hadoop模块的通用工具。
- Hadoop Distributed File System (HDFS™):分布式文件系统,提供对应用数据的高吞吐量访问。
- Hadoop YARN:一个用于作业调度和集群资源管理的框架。
- Hadoop MapReduce:基于yarn的大数据集并行处理系统。
本文为从大数据到人工智能博主「xiaozhch5」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://cloud.tencent.com/developer/article/1936533