大数据快速入门(02):选择大数据,我该往哪个方向发展

2020-09-29 10:36:38 浏览数 (1)

一枚正在杭州奋斗的有志青年

图 by:wk@雾蒙蒙的杭州城

关于作者:一枚固执的大数据从业者。欢迎关注,交流和指导!

我从业的两段经历

大数据的方向有很多的,即使没有真正经历过,平时也会耳濡目染,在各大杂志公众号新闻上听说过,什么大数据人工智能,大数据分析挖掘,大数据架构师等职位。

我以我的两段从业经历来说明一下大数据的方向吧。

我的前公司是一家互联网企业,大数据部门是从0开始起步的。

我们的数据总监是来自百度的资深专家。

一开始是从0开始搭建 CDH 集群,接着采集服务器日志,采集关系型数据库数据到 hadoop 上。

等数据渐渐多了起来,我们开始着手做一个企业数据仓库,整合各个业务线的数据,最终产出各种报表和分析数据给老板和各个业务线的产品经理。此时产生了第一个小组,数据仓库组。

然后数据越来越多,需求也越来越多,我们便开始招数据分析人员,去接第三方的数据分析需求,并产出各条业务线生产运营分析报告。此时产生了第二个小组,数据分析组。

当时我们也有社交的场景,会员在平台上会发文章,写评论,当然必不可少的会打广告。打广告的方式也是五花八门,玩文字梗的,谐音梗的,图片上打广告的。此时需要专门从事 NLP 和图形识别的小组,去拦截平台广告。由此成立了第三个小组,AI组。

随着社交场景的持续发展,平台内容也在逐渐增多,此时需要做一个推荐系统去构建用户的画像,给用户推荐他们喜欢的内容,维持用户的黏性。此时产生了第四个小组,推荐组。

后面数据越来越多,老板也看到了其中的价值,需要从海量的数据中挖掘有意义的东西,比如从海量的球赛数据,赔率数据中去分析球赛结果,提高平台的整体返奖率。由此有了第五个小组,数据挖掘组。

这便是我的第一份大数据经历,可以大致看到大数据的几个大方向,数据开发,数据分析和挖掘,人工智能和机器学习,推荐系统。

第二份工作,是做一个大数据平台,供大数据开发在平台上开发大数据任务。这个大数据平台一方面对接底层的离线计算组件,实时计算组件,离线同步组件,一方面对接调度系统,另一方面还要提供基本的开发功能。相当于第一段经历中,最后要做的事情,就是做一个平台。

所以也算圆满了。

如果你真的要从事大数据,那么大概有下面几个方向,你可以去选择

大数据架构方向

大数据架构方向,更多注重的是Hadoop、Spark、Flink 等大数据框架的实现原理、部署、调优和稳定性问题,以及它们与Flume、Kafka、DataX等数据流工具以及可视化工具的结合技巧。

再有就是一些工具的商业应用问题,如Hive、Cassandra、HBase、Elasticsearch、ClickHouse等。

能够将这些概念理解清楚,并能够用辩证的技术观点进行组合使用,达到软/硬件资源利用的最大化,服务提供的稳定化,这是大数据架构人才的目标。

以下是大数据架构方向研究的主要方面。

(1)架构理论:关键词有高并发、高可用、并行计算、MapReduce、Spark 等。

(2)数据流应用:关键词有Flume、Kafka、Flink,Druid等。

(3)存储应用:关键词有HDFS、ES,ClickHouse等。

(4)软件应用:关键词有Hive、HBase、Spark等。

(5)微服务应用:构建平台各种业务系统,如平台系统,调度系统,数据权限系统,api 系统等

大数据分析方向

大数据分析方向的人才更多注重的是数据指标的建立,数据的统计,数据之间的联系,数据的深度挖掘和机器学习,并利用探索性数据分析的方式得到更多的规律、知识,或者对未来事物预测和预判的手段。

以下是大数据分析方向研究的主要方面。

(1)数据库应用:关键词有RDBMS、NoSQL、MySQL、Hive等。

(2)数据加工:关键词有ETL、Python等。

(3)数据统计:关键词有统计、概率等。

(4)数据分析:关键词有数据建模、数据挖掘、机器学习、回归分析、聚类、分类、协同过滤等。

此外还有一个方面是业务知识。

其中,数据库应用、数据加工是通用的技术技巧或者工具性的能力,主要是为了帮助分析师调用或提取自己需要的数据,毕竟这些技巧的学习成本相对较低,而且在工作场景中不可或缺,而每次都求人去取数据很可能会消耗过多的时间成本。

数据统计、数据分析是分析师的重头戏,一般来说这两个部分是分析师的主业,要有比较好的数学素养或者思维方式,而且一般来说数学专业出身的人会有相当的优势。

最后的业务知识方面就是千姿百态了,毕竟每家行业甚至每家公司的业务形态都是千差万别的,只有对这些业务形态和业务流程有了充分的理解才能对数据分析做到融会贯通,才有可能正确地建立模型和解读数据。

大数据开发方向

大数据开发方向的人才更多注重的是服务器端开发,数据库开发,呈现与可视化,人机交互等衔接数据载体和数据加工各个单元以及用户的功能落地与实现。

以下是大数据开发研究的主要方面。

(1)数据仓库开发:关键词有RDBMS、NoSQL、MySQL、Hive等。

(2)数据流工具开发:关键词有Flume、Heka、Fluentd、Kafka、ZMQ等。

(3)数据前端开发:关键词有HightCharts、ECharts、JavaScript、D3、HTML5、CSS3等。

(4)数据获取开发:关键词有爬虫、分词、自然语言学习、文本分类等。

那么有没有对未来的方向更加明确一点?

种一棵树最好的时间是十年前,其次是现在。

0 人点赞