在大数据处理的各项技术当中,Hadoop的地位无疑是得到充分肯定的,做大数据,避不开Hadoop,学大数据,当然也必学Hadoop。而对于很多零基础学习者,学Hadoop不知道该从何着手,那么今天的大数据入门到及进阶,我们来分享一下Hadoop学习路线规划。
大数据的核心支持思想,就是分布式技术,面对大规模数据处理任务,通过分布式架构才能真正实现对大批量数据的有序处理,而大数据处理技术成熟的标志,也是因为分布式技术架构的成熟。
Hadoop作为分布式技术架构的典型代表,是学习当中必须掌握的重点,理解和掌握分布式理念是入门学习的第一步。
Hadoop框架集存储(hdfs)、计算(mr计算模型)、资源管理(yarn)等于一体,可以实现分布式存储和分布式计算。
分布式系统当中,其实还有一个隐含的问题是要计算必须有数据,必然涉及到存储,所以存储才是根本。
那么如何使用分布式存储系统(hdfs)就必须了解其的组成部分(如什么是块、文件系统、分布式文件系统)、使用方式(读写HDFS),但由于大部分同学都是相对熟悉关系型数据库及它的使用方式SQL,这些都是应用层面的事情具体底层的各种情况并不了解,或者没有参与数据库软件的开发、对于文件类的学习工作经验相对较少,对其中提到的文件IO操作、序列化、压缩、内置或自定义文件读写格式、读写方式有种陌生,因为hdfs本质是文件系统。
数据仓库,重点主要是面向分析,会产生大量的查询,一般很少涉及增删改操作,MapReduce计算模型的map操作和reduce操作是我们经常遇到的需求,map操作负责数据清洗、转换,reduce操作负责数据聚合,同时sql里的select子句和group by子句也对应了这类实际需求,只是方式方法不同而已。
了解了理论框架,建议以分布式系统的角度来看待大数据中的各类框架,了解下分布式理论如CAP理论、主从架构方式等等。
技术架构:
数据采集:flume、logstash
数据存储:hdfs、hbase、alluxio、es、neo4j、janusGraph、redis、mongodb、tidb
数据计算:hive、impala、spark、flink、druid
数据通道:kafka、pulsar
任务调度:azkaban、airflow
多维数据模型:kylin
数据同步:sqoop、datax、canal
数据格式:parquet、orc、csv、json
协调服务:zookeeper
监控:zabbix、prometheus
关于大数据入门到进阶,以上就是今天为大家分享的Hadoop学习路线规划,Hadoop在大数据处理框架当中仍然占据着重要地位,所以学习大数据,Hadoop仍然是不能忽视的一部分。