大数据中有多种岗位,有的偏向开发,有的偏向运维,有的偏向数据分析与挖掘。
必备技能11条
Linux 基本操作
Java/Python
Hadoop(HDFS MapReduce Yarn )
HBase(JavaAPI操作 Phoenix )
Hive(Hql基本操作和原理理解)
Kafka
Storm/JStorm
Scala
Spark (Core sparksql Spark streaming )
辅助小工具(Sqoop/Flume/Oozie/Hue等)
大数据核心知识
Hadoop
推荐书籍:《Hadoop 权威指南》
HDFS:
HDFS的概念和特性
HDFS的shell操作
HDFS的工作机制
HDFS的Java应用开发
MapReduce:
MapReduce程序运行流程解析
MapTask并发数的决定机制
MapReduce中的combiner组件应用
MapReduce中的序列化框架及应用
MapReduce中的排序
MapReduce中的自定义分区实现
MapReduce的shuffle机制
MapReduce利用数据压缩进行优化
MapReduce程序与YARN之间的关系
MapReduce参数优化
运行WordCount示例程序
了解MapReduce内部的运行机制
MapReduce的Java应用开发
官网:
http://hadoop.apache.org/
中文文档:
http://hadoop.apache.org/docs/r1.0.4/cn/
Hive
推荐书籍:《Hive开发指南》
Hive 基本概念:
Hive 应用场景
Hive 与hadoop的关系
Hive 与传统数据库对比
Hive 的数据存储机制
Hive 基本操作:
Hive 中的DDL操作
在Hive 中如何实现高效的JOIN查询
Hive 的内置函数应用
Hive shell的高级使用方式
Hive 常用参数配置
Hive 自定义函数和Transform的使用技巧
Hive UDF/UDAF开发实例
Hive 执行过程分析及优化策略
官网:
https://hive.apache.org/
中文入门文档:
http://www.aboutyun.com/thread-11873-1-1.html
HBase
推荐书籍:《HBase权威指南》
hbase简介
habse安装
hbase数据模型
hbase命令
hbase开发
hbase原理
官网:
http://hbase.apache.org/
中文文档:
http://abloz.com/hbase/book.html