大数据入门:Hadoop核心设计思想

2021-06-25 18:08:49 浏览数 (1)

在面对大批量的数据处理任务的时候,Hadoop已经成为稳定高效的平台框架选择,Hadoop在大数据处理上得到重用,那么就代表着想要从事大数据行业的我们,也需要对于Hadoop有足够充分的认识和掌握,今天的Hadoop入门学习,为大家分享Hadoop的核心设计思想。

大数据来临的时候,海量的数据规模是令人头疼的第一个问题,为了解决大规模的数据处理,分布式架构应运而生,这也就是Hadoop的核心设计思想。

Hadoop的分布式架构,对于大规模数据处理任务,简单来说,就是将这些数据处理任务进行“分组合并”,大任务分成若干个小任务,小任务各自完成计算处理,然后再进行结果合并输出。

举个简单的例子,有一个数据处理任务过来,分布式计算就将这个数据处理任务按照算法分成若干份,每一份都存在一台计算机上,各自在计算机上进行任务计算,若干台计算机都在执行一部分的计算任务,那么本来很大的计算处理任务,就实现了分而治之。

在Hadoop框架当中,这个分而治之的过程,就涉及到分布式存储和分布式计算。分布式存储,主要是基于HDFS,分布式计算,主要是基于MapReduce。

Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成,其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统HDFS(Hadoop Distributed File System)来执行MapReduce程序的MapReduce引擎。

HDFS作为分布式文件系统,具有高度容错性,以流式访问模式访问应用程序的数据,这大大提高了整个系统的数据吞吐量,也为数据计算处理提供了更好的底层支持。

MapReduce,分为Map(映射)和Reduce(化简)两个阶段,先把任务分发到集群多个节点上,并行计算,然后再把计算结果合并,从而得到最终计算结果。

以上就是为大家带来的Hadoop核心设计思想的介绍,在Hadoop系统框架当中,HDFS和MapReduce毫无疑问起着最为关键的作用,掌握了核心思想,那么其他的学习也就不难了。

0 人点赞