四、学习过程
学习时间:加米谷大数据开发周末班学习 学习资料:加米谷大数据提供的教程资料
下面主要说明一下自己的学习历程。
环境准备:本地弄了五台虚拟机,开始搭建 Hadoop 集群,版本的话老师建议我们选择的 Hadoop 2.6.5(企业要的比较多的)
Linux 学习、网站架构学习:
Linux 这一部分过的比较块,主要是找感觉。网站架构学习,我根据老师的课程大纲学习,包含了网站架构的演变之路、突破架构瓶颈该如何让做...等等一系列引人思考的案例。
Hadoop 生态:Hadoop 生态是自己投入时间最多的一部分,打基础比较重要。
HDFS:API 操作、命令行操作、权限管理、原理(文件上传、读取)、NameNode HA 、架构、文件压缩等
Yarn:架构、任务提交流程、队列
MR2:架构、任务执行流程
ZK:架构、应用场景、paxos 算法、ZK 在Hadoop 中的作用、Znode 操作
Hbase:API操作、架构、rowkey、读写流程
Hive 以及数仓基础知识:Hive DML、DDL操作、数仓建模基础知识、Hive 参数调优、HiveServer2
Spark 部分:Core、Spark SQL、Streaming 、MLlib(了解)
项目实战:我们主要参与的项目有2个,一个是新疆采矿项目和电商大数据项目。因为涉及到加米谷真实项目,而我们又签了保密协议的,就不详细描述了。感兴趣的同学可以找加米谷的老师进行探讨。
我的目标是找工作,所以学习过程比较粗糙。本着先入行的原则,还好思路比较清晰,整个过程没有走偏。2019年底,整个知识点都学完了。
五、找工作
开始面试。2019年年底开始找工作,美化了个人简历,开始投简历。目标不是大企业(想积累一段时间再头大企业),瞄准了中小型互联网公司。年底招聘需求较少,加上自己面试经验不足,投了半个月简历都没有回复。跟老师一遍又一遍的模拟面试场景。
过年遇到新冠,不能走亲访友,大家都宅在家里。闲着无事,我又把自己学习过的内容拿出来复习了一遍。老师也在线上给我们指导,特殊时期应该怎么样投递简历,怎么样面试。说实话,当时自己还是有一点担心的,疫情导致很多企业的招聘需求都缩减了,我担心自己学完后不能及时转行。我们的主讲老师李老师和招生就业陈老师一直在不停的给我打气。基本上他们每周都会跟我进行一次通话,了解我求职的情况。
幸运的是,老东家年后开工通知我们在家办公,这也为我求职投简历带来了便捷,让我有更多时间进行简历投递和电话面试。终于功夫不负有心人,我在2月底的时候收到了新公司的录用通知书。成功入职一家大型互联网公司。
面试经历不是很多,除了问一些 Java、算法等基础的东西,就是聊项目了。加米谷学习都是理论 项目相结合的学习方式。项目都是真实项目,所以在面试过程中为我增加了不少的加分。
六、工作中
工作内容离线和实时都有涉及。离线的指标都是日活、监控类数据。离线部分使用 Hive 做常规任务,presto 做一些简单的查询工作。实时的主要分为广告类、算法效果类、控量类业务。实时的技术栈还在使用 Spark(虽然 Flink 很火),但是 Spark 的生态更加完善,图计算、机器学习方面更加出色。
七、总结
1.找靠谱的培训机构真的很重要,一定要多方对比后再做选择。
2.有一个负责任的老师,会让你少走很多弯路。
3.学习过程都是很艰苦的,需要持之以恒不懈努力!