Hadoop和spark:兼容才是可靠的解决方案

2021-07-05 18:07:43 浏览数 (1)

说起大数据计算框架,Hadoop和Spark这两者之间,一直都是存在着争议的,甚至一度还出现了Spark会替代Hadoop的声音,但是随着这两年的发展,事实告诉大家,Hadoop和Spark这两者之间,谁也没有消灭谁,都好好地存在着。

那些一定要在Hadoop和Spark之间分隔孰优孰劣的人,其实忽视了很重要的一点就是,设计人员最初的初衷,其实是需要Hadoop和Spark实现在一个系统当中的协同运行,共同提供更高效的大数据处理解决方案。

Hadoop和Spark,兼容合作才是目前大数据处理的最佳解决方案。Hadoop和Spark各有所长,并且各自的长处并不互相重叠。

举个很明显的例子,Spark的优势在于实时数据计算,而Hadoop的优势在于离线数据计算,如果完全依靠Spark的实时计算,当数据规模增长到一定的量级的时候,Spark的系统也会扛不住,所以如果将Hadoop和Spark结合起来,Hadoop处理时效性要求不高的数据,而Spark处理时效性要求高的数据,两相结合才是更优化的选择。

再比如说,Spark没有文件管理功能,必须依靠于其他的分布式文件系统才能进行工作,而Hadoop的HDFS文件系统就能提供这样的帮助。Spark拿来和Hadoop做比较,本身是没有可比性的,Spark更倾向于是数据计算引擎,而非是完善的数据处理平台。

关于Hadoop和Spark,需要记住的一点就是,这两者之间,不是非此即彼的关系,不是说一方要成为另一方的替代者,而是两者彼此兼容,提供更强大的数据处理解决方案。Spark真正擅长的是处理流工作负载、交互式查询和基于机器的学习等,而Hadoop作为一个完备的大数据处理平台兼容Spark,也能实现各方面的性能提升。

在现阶段的趋势来看,Hadoop和Spark都在大数据领域内占有自己的地位,并且也各自在数据处理上发挥所长,作为技术人员,更应该思考的是,如何实现两者之间更好的兼容和性能的提升。

0 人点赞