大数据面试题

Linux部分

①列举你使用的常用指令？ ②怎么查看服务是否开启？后面的参数都是什么意思？ ③怎么查看服务器内存使用情况？ ④日志查看指令？ ⑤跨机房怎么传输文件？

Hadoop部分

①怎么搭建一个Hadoop集群？ ②Hadoop的Shuffer机制？ ③切片概念？文件256M时，几个切片？ ④Mr任务提交到yarn流程？ ⑤数据倾斜概念？

Hive部分

①hive本质？ ②group by、sort by、oreder by、distribute by、cluster by、partition by区别？ ③开窗函数理解？ ④UDF实现过程？ ⑤有出现过HQL执行出现OOM的现象吗？ ⑥hive导入数据和到处数据的方式？

HBase部分

①集群角色以及作用？ ②client写过程和读过程？ ③布隆过滤器？ ④Hbase存储特点、与mysql相比？ ⑤rowkey的设计？ ⑥cell组成？ ⑦compact触发时间？作用？

Kafka部分

①为什么要使用Kafka？好处？ ②集群角色？ ③kafka中数据写入过程？Follwer与leader如何实现数据同步？ ④kafka消费者组概念？

Flume部分

①Flume组件成员以及含义？ ②Flume传输数据方式？ ③Flume传输数据会丢失吗？怎样避免丢失

Flink部分

①Flink最小计算单元？ ②Flink任务提交至yarn流程？ ③Flink时间语义几种、含义？ ④Flink窗口类型？ ⑤Flink状态后端类型？一般使用哪种类型？ ⑥watermark水位线机制？如何设置数据延迟？ ⑦checkpoint和savepoint区别？有什么好处？ ⑧怎么理解Flink是保证数据不丢失的？端到端一致性含义？ ⑨Flink提供了几层api？分别都适用哪些场景？

Spark部分

①角色组成与作用？ ②spark提交任务至yarn流程？ ③RDD含义及其特性？ ④宽依赖与窄依赖？

flink 大数据 yarn hadoop node.js

0 人点赞