一直以来有人问:“ 数据分析 VS 数据挖掘 VS 数据科学家,它们到底有什么不同?入行大数据的话该怎么选?” 估计 90% 程序员,包括一些数据相关工作的⼩伙伴,都给不出准确回答。最近整理了这张对比长图,来回答这个问题!PS. 被问次数太多了,实属无奈
概括一下,逼格满满的数据科学家人群最少,要求和限制因素也最多。适合人群更广的数据分析和数据挖掘,这两个工种的差异如下。
从要求来讲:数据挖掘偏技术,数据分析偏业务;
从能力来讲:数据挖掘需要专精技术,数据分析要求综合素质。 下面这张图清晰展示了它们发展方向间的关系。
那么入行大数据,该选数据挖掘还是数据分析呢?(这两个职业同样为公司创造价值)最重要的一个因素是:看哪个职位与自己的性格、喜好比较匹配。如果对业务、商业模式感兴趣,强项在为人处事方面,数据分析显然是优先选择。
对于多数程序员来说,数据挖掘则是更优选。因为自身性格相对内敛,喜欢钻研技术,不太喜欢天天和业务打交道,做数据挖掘是在擅长的方面发力会更顺畅。当然,下面这些情况的人做技术向的数据挖掘更有优势:
研发部⻔谋求转型的开发⼈员; 计算机相关专业以及数统相关专业毕业⼈员; 专注于从事数据相关⼯作、谋求技能提升、岗位晋升以及跨⽅向发展的人。
从目前的市场来看,数据挖掘的薪资比数据分析高一些。原因很简单,数据挖掘工程师或算法工程师有较高技术门槛,不懂模型和编程,简历关都过不了,某些情况下还需要项目和学术背景。加上大多数互联网企业都是 “先工程后分析” 的流程,数据挖掘工程师的需求更迫切,薪资也最舍得给。
较高技术门槛,也意味着入门数据挖掘并不轻松。不仅要掌握一门编程语言,如 Python /Java、C / C ,还需要会 Hadoop,HIVE,SQL数据库操作,掌握数据挖掘和机器学习的基础知识和算法、特征工程的基础知识,了解统计学的时间序列模型,变量的相关系数,ROC和AUC曲线,交叉验证,主成分分析......想想就是个大的学习工程。
对急于了解大数据挖掘的你,这套硬核课程也许是及时雨。开课吧的《数据挖掘算法精讲》专题课,48 h 内免费领( 领了之后有效学习期限 7 天,抓紧看!这也为了筛选伸手党~)专题课细致解析了大厂算法工程师/数据挖掘工程师 必知必会的高频算法,知识点如下:
《数据挖掘高频算法精讲》
Part 1 数据挖掘概论与实践
1. 数据挖掘概念与技术
2. 数据挖掘算法类型
3. 密度聚类案例实践之中国城市群划分
Part 2 特征工程与模型选择 / 文本分类
1. 如何对文本数据进行预处理
2. 如何对文本统计,生成词云图
3. 如何对文本数据进行特征选择
4. 如何根据文本内容进行分类
Part 3 逻辑回归算法
1. 逻辑回归的算法原理是怎样的
2. 如何绘制逻辑回归的决策边界
3. 逻辑回归的局限,以及如何解决
4. 逻辑回归如何进行多分类
5. 怎样解决样本不均衡问题
Part 4 数据挖掘之 Decision Tree 算法 1. 《信息论》熵、联合熵和条件熵的推导
熵与 Log、概率的关系;
《信息论》— 香农;
条件熵、联合熵的推导过程; 2. 决策树算法的树流程的构造
决策树算法的树结构生长过程与特征选择
决策树算法的叶子节点个数与权重系数 3. ID 3 ( 信息增益 )
推导DT的目标函数信息增益(ID3)
g(D,A) = H(D) - H(D|A) 本质上是互信息 4. 由 ID 3 推广出来的 C4.5 和 Gini 系数
由 ID3 推广出的 C4.5 系数
由 ID3 推广出的基尼系数
5. 案例实战:利用 Python 的Scikit - learn 的 5 步建模过程(伪代码)