大数据入门:Hadoop是如何工作的?

2021-07-06 18:18:42 浏览数 (1)

海量数据价值的挖掘,需要大数据技术框架的支持,在目前的大数据平台搭建上,Hadoop是主流的选择之一,而精通Hadoop的大数据人才,也是企业竞相争取的专业技术人才。大数据技术Hadoop所得到的重视,也带来了大家对Hadoop的学习热情。今天我们就从大数据入门的角度,来分享一下Hadoop是如何工作的。

Hadoop最初由雅虎的Doug Cutting创建,其核心的灵感,就是MapReduce,当然,到现在MapReduce也是Hadoop的核心组件。

MapReduce最初被设计用来处理分布在多个并行节点的PB级和EB级数据,在廉价的服务器集群上,就能实现快速准确的数据处理,将大数据分成多个部分,每个部分都可以被同时处理和分析,数据处理的效率和规模都得到了提升。

而在Hadoop系统框架当中,MapReduce仍然负责关键性的分布式计算,对于结构化、非结构化的数据,都能实现很好的处理。而进行分布式计算的前提,是先将数据进行分布式存储。

这就是Hadoop的分布式文件系统HDFS。HDFS将大数据打碎成“部分”,载入到PC硬件的多个节点当中,各“部分”被复制多次,并加载到文件系统。这样,如果一个节点失效,另一个节点包含失效节点数据的副本,大大提升了数据存储的可靠性。

一旦数据被加载到集群中,它就准备好通过MapReduce框架进行分析。

当客户提交一个“匹配”的任务,HDFS给到一个被称为作业跟踪器的节点。该作业跟踪器引用名称节点,以确定完成工作需要访问哪些数据,以及所需的数据在集群的存储位置。MapReduce在每个节点同时、并行处理数据,当每个节点处理完指定的作业,它会存储结果。

客户通过任务追踪器启动“Reduce”任务,总map阶段存储在各个节点上的结果数据,然后得到最终数据结果,对整体结果进行输出。

总体来说,大数据技术Hadoop在面对大规模数据处理任务时,尤其是不要求高时效性的数据处理任务上,是完全能够满足需求的,并且不会给企业带来更大的成本压力。

0 人点赞