CDA数据分析师 出品
作者:Benjamin Obi Tayo
编译:Mika
对数据分析相关技能的掌握程度大致可以分为3个级别:基础水平,进阶水平和高级水平。
今天我们就来探讨一下,掌握这三个阶段所需的技能分别需要多少时间。
通常情况下,具有物理、数学、科学、工程、会计或计算机科学等学科背景的人,需要的时间相对更少。具体所需的时间取决于你的专业背景以及个人能够投入多少的精力和时间。
基础水平(所需时间:6-12个月)
首先是基础水平,希望从事数据分析领域的人群应该能够处理一般以逗号分隔值(CSV)文件格式呈现的数据集。并且应具备数据基础知识、数据可视化和线性回归方面的能力。
1.1 数据基础知识
能够对数据进行操作、清理、结构化、扩展和工程化。并且应该熟练使用pandas和NumPy库,应具备以下能力:
- 知道如何导入和导出以CSV文件格式存储的数据
- 能够清理、处理和组织数据,以便进一步分析或建立模型
- 能够处理数据集中的缺失值
- 理解并能够应用数据归因技术,如平均数或中位数归因。
- 能够处理分类数据
- 知道如何将数据集划分为训练集和测试集
- 能够使用缩放技术(如归一化和标准化)来缩放数据
- 能够通过主成分分析(PC)等降维技术压缩数据
1.2. 数据可视化
能够理解数据可视化的基本组成部分。能够使用数据可视化工具,包括Python的matplotlib和seaborn包;和R的ggplot2包。
具体需要掌握以下几个能力:
- 数据组件 进行数据可视化的第一步在于区分并了解数据类型,例如,分类数据,离散数据,连续数据,时间序列数据等。
- 几何成分 决定哪种可视化方式更适合数据,例如,散点图、线形图、条形图、直方图、Q-Q图、平滑密度图、boxplots、配对图、热图等。
- 映射成分 决定用什么变量作为X变量,用什么作为Y变量。这一点很重要,特别是当数据集是多维的、有多个特征的时候。
- 尺度组件 决定使用什么样的尺度,例如,线性尺度、对数尺度等。
- 标签组件 了解像坐标轴标签、标题、图例、使用的字体大小等内容。
- 道德操守 确保可视化描述的内容是真实的。在清理、总结、处理和制作数据可视化时,要确保没有利用可视化来误导或操纵观众。
1.3 监督学习(预测连续目标变量)
熟悉线性回归和其他高级回归方法。能够使用scikit-learn和caret等软件包来建立线性回归模型。
具体需要具备以下能力:
- 能够使用NumPy或Pylab进行简单的回归分析
- 能够使用scikit-learn进行多元回归分析
- 了解正则化回归方法,如Lasso、Ridge和Elastic Net
- 了解其他非参数化回归方法,如KNeighbors回归(KNR)和支持向量回归(SVR)。
- 了解评估回归模型的各种指标,如MSE(平均平方误差)、MAE(平均绝对误差)和R2得分
- 能够比较不同的回归模型
2. 进阶水平(所需时间:7-18个月)
下面我们看到更进阶的需要掌握哪些技能:
2.1 监督学习(预测离散目标变量)
熟悉二元分类算法,例如:
- 感知器分类器
- 逻辑回归分类器
- 支持向量机(SVM)
- 能够使用核SVM解决非线性分类问题
- 决策树分类器
- K-nearest分类器
- Naive Bayes分类器
- 了解分类算法质量的几个指标,如准确率、精确度、灵敏度、特异性、召回率、F-L评分、混淆矩阵、ROC曲线。
- 能够使用scikit-learn来建立模型
2.2 模型评估和超参数调整
- 能够在管道中组合变压器和估计器
- 能够使用k-折交叉验证(k-fold cross-validation)来评估模型性能
- 了解如何使用学习和验证曲线调试分类算法
- 能够通过学习曲线诊断偏差和方差问题
- 能够通过验证曲线解决过拟合和欠拟合问题
- 了解如何通过网格搜索微调机器学习模型
- 了解如何通过网格搜索调整超参数
- 能够阅读和解释混淆矩阵
- 能够绘制和解释接收器工作特性(ROC)曲线
2.3 结合不同的模型进行集合学习
- 能够使用不同分类器的集合方法
- 能够结合不同的算法进行分类
- 知道如何评估和调整集合分类器
3. 高级水平(所需时间:18-48个月)
接下来是更高级的阶段,这需要数据人能够处理高级数据集,如文本、图像、语音和视频。除基本和进阶技能外,具体应具备以下能力:
- 聚类算法(无监督学习)
- K-means
- 深度学习
- 神经网络
- Keras
- TensorFlow
- PyTorch
- Theano
- 云系统(AWS,Azure)
结语:
综上所述,我们已经讨论了数据科学的3个级别。第一个级别的能力可以在6到12个月内实现。第2级能力可以在7到18个月内实现。第3级能力可以在18至48个月内实现。这一切都取决于所投入的努力和每个人的专业背景。
好,以上就是今天的分享。如果大家还有数据分析方面相关的疑问,就在评论区留言。