300万字!全网最全大数据学习面试社区等你来!
这是之前一个同学的面经,经过3个月的面试,最终成功上岸某新能源头部车企,面经还热乎!
第一轮
代码语言:javascript复制1.介绍项目,项目中的重点难点
2.hive的优化,这个好几家公司都问了
3.hive sql的执行计
4.hive和mysql的区别
5.Sort by 和order by的区别
6.数据倾斜的场景,如何解决的
7.sql题
字段:订单id,时间,用户id
计算10分钟内连续下单大于100次的用户
第二轮
代码语言:javascript复制1.介绍项目,项目中的重点难点
2.数仓建模理论
3.冷热数据如何处理
4.数据治理从哪几个方面进行
5.数据质量的衡量标准,数据质量的效果,如何验收,项目流程
6.用的星型还是雪花模型,区别是什么?
第三轮
代码语言:javascript复制1.介绍项目,项目中的重点难点
2.linux命令 查找文件,awk命令
3.kafka分区,ack机制
4.spark的执行原理
5.解析下spark的DAG
6.mr的执行原理
7.大小表join的优化
8.Spark常用算子reduceByKey与groupByKey的区别,哪一种更具优势?
9.Spark任务执行模式,提交任务,资源也够的情况下,还是不能跑,啥原因
10.spark和MR的区别
第四轮
代码语言:javascript复制1.介绍项目,项目中的重点难点
2.项目中遇到啥问题
3.kafka丢失数据,怎么解决
4.kafka的核心组件介绍 topic,broker,partition,consumer,producer
5.clickhouse的各类引擎,怎么用的,啥原理,你们咋用的
6.Flink checkpoint执行流程
7.flink和spark 对比
第五轮
代码语言:javascript复制1.介绍项目,项目中的重点难点
2.数据中台oneid,oneservice
3.遇到啥问题,项目进度把控,资源协调
4.数据的安全,权限的管理
5.数仓重构,数仓模型的建设,遇到啥问题,什么样的周期,如何安排的,效率咋样
整体感受
市面上岗位没有去年多,但是还是拿到了多家公司的面试邀请,有的面试感觉还不错,但是没下文了(可能是横向比较挂了)。
主要还是数仓建模,实时和离线框架,个人简历上的的项目(面试核心哦)等大方向,再加上数据质量,数据治理等。
项目是核心中的核心,所有面试都问,占比很高。
技术框架集中在Flink,Spark,Kafka、Hive等。
以及工作习惯,风险把控,资源协调,跨部门沟通等软技能。
如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!