不可否认,大数据在这些年的发展当中,实现大数据处理的核心技术,始终是分布式。基于分布式技术架构,有分布式存储、分布式计算等相应的技术框架组件,形成了完善的技术生态,为大数据处理需求任务提供相应的解决方案。今天我们就从大数据平台架构的角度,来聊聊分布式技术架构。
分布式架构,本身就是为了解决存储量和计算量等超过单机容量而提出的解决方案。进入大数据时代,数据规模达到TB、PB级别之后,依靠传统的数据仓库基本上很难满足实际的需求了。
分布式的核心思想
分布式的核心思想,其实就是分而治之,将单台机器无法解决的问题,扩展到一组机器组成的集群当中,大家共同负担这些数据,各自处理一部分,最后再进行数据的整合。
企业搭建大数据系统平台,多是采取分布式架构的开源实现,以低成本的方式来实现大数据业务的落地。以Hadoop为例,Hadoop作为基础架构,形成了Hadoop技术生态圈,通过不同的功能组件,来共同满足个性化的企业数据需求。
比如说,HDFS等分布式文件系统解决存储容量问题;Tachyon等解决内存容量问题;HBase、OceanBase等解决数据库容量问题;Kafka等解决队列容量和性能问题;Zookeeper解决分布式锁问题;Hadoop、Strom、Spark等分布式计算系统解决计算量问题,基本上都是提出计算范式,框架解决通讯、调度等问题。
主流分布式技术框架
从行业发展现状来说,Hadoop、Storm、Spark、Flink等开源分布式计算框架各有优势,也适用于不同的场景。
- Hadoop主要解决数据量问题,在处理大数据量的存储和简单计算问题上有优势;
- Storm主要解决实时数据处理问题,在数据处理延时方面有优势;
- Spark主要解决迭代计算等复杂计算问题,在处理复杂数据和计算问题方面有优势;
- Flink引入了有界流和无界流的概念,对数据流进行有状态的计算,受到阿里推崇。
而基于实际的需求去选择相应的技术框架,就是大数据开发工程师们需要去完成的工作之一。对于大数据开发工程师而言,掌握这些基础框架及其应用场景,是基本的技能要求之一。
关于大数据平台架构,分布式技术架构,以上就为大家做了一个简单的入门介绍。企业基于大数据,需要引进大数据专业人才,熟悉通用的大数据平台架构,掌握主流技术框架是大数据人才的基本技能门槛。