成为大数据工程师必备的技能有哪些?(上)

2020-05-09 15:42:39 浏览数 (1)

大数据中有多种岗位,有的偏向开发,有的偏向运维,有的偏向数据分析与挖掘。

必备技能11条

Linux 基本操作

Java/Python

Hadoop(HDFS MapReduce Yarn )

HBase(JavaAPI操作 Phoenix )

Hive(Hql基本操作和原理理解)

Kafka

Storm/JStorm

Scala

Spark (Core sparksql Spark streaming )

辅助小工具(Sqoop/Flume/Oozie/Hue等)

大数据核心知识

Hadoop

推荐书籍:《Hadoop 权威指南》

HDFS:

HDFS的概念和特性

HDFS的shell操作

HDFS的工作机制

HDFS的Java应用开发

MapReduce:

MapReduce程序运行流程解析

MapTask并发数的决定机制

MapReduce中的combiner组件应用

MapReduce中的序列化框架及应用

MapReduce中的排序

MapReduce中的自定义分区实现

MapReduce的shuffle机制

MapReduce利用数据压缩进行优化

MapReduce程序与YARN之间的关系

MapReduce参数优化

运行WordCount示例程序

了解MapReduce内部的运行机制

MapReduce的Java应用开发

官网:

http://hadoop.apache.org/

中文文档:

http://hadoop.apache.org/docs/r1.0.4/cn/

Hive

推荐书籍:《Hive开发指南》

Hive 基本概念:

Hive 应用场景

Hive 与hadoop的关系

Hive 与传统数据库对比

Hive 的数据存储机制

Hive 基本操作:

Hive 中的DDL操作

在Hive 中如何实现高效的JOIN查询

Hive 的内置函数应用

Hive shell的高级使用方式

Hive 常用参数配置

Hive 自定义函数和Transform的使用技巧

Hive UDF/UDAF开发实例

Hive 执行过程分析及优化策略

官网:

https://hive.apache.org/

中文入门文档:

http://www.aboutyun.com/thread-11873-1-1.html

HBase

推荐书籍:《HBase权威指南》

hbase简介

habse安装

hbase数据模型

hbase命令

hbase开发

hbase原理

官网:

http://hbase.apache.org/

中文文档:

http://abloz.com/hbase/book.html

0 人点赞