【导读】大家好,我是泳鱼。本文通过12张思维导图,涵盖了包含机器学习算法、特征工程、机器学习实战项目、深度学习等知识,带领大家系统了解及掌握机器学习的主要知识内容!
1. 思维导图总览
本导图涵盖了机器学习的主要核心知识,具体包括:基本模型(回归、决策树与随机森林、SVM、最大熵与EM算法)、特征工程、工业实战(Skearn与机器学习实战、高级工具库xgboost/lightGBM与建模实战、推荐系统原理及应用、聚类算法)、深入机器学习(贝叶斯网络、隐马可夫链HMM、主题模型)、迈入深度学习(深度学习模型与应用、循环神经网络与应用、卷积神经网络与计算机视觉)等。(公众号中回复关键字“思维导图”可下载查看全图)
2. 特征工程
特征工程目的是最大限度地从原始数据中提取特征以供算法和模型使用。本特征工程思维导图涵盖的知识点包括:特征工程的意义、数据的采集、数据的处理(数据的清洗和采样)、数值型、类别型、时间型、文本型、统计型、组合型特征的处理、特征的选择和降维。
3.多算法组合与模型最优
多算法组合和模型调优也是模型选择重要的一部分。本多算法组合与模型调优思维导图包含:模型选择(模型选择的准备工作、模型参数和超参数的选择)、模型效果的优化(模型状态分析、线性模型的权重分析、Bad-case分析、模型融合)。
4.多算法组合与模型最优Skearn与机器学习实战
我们知道sklearn是一个Python第三方提供的非常强力的机器学习库,它包含了从数据预处理到训练模型的各个方面。本导图从skearn的基本概念出发再到完整的实战项目,为大家介绍了当面对实际机器学习项目时,如何分析项目、划定问题,如何对数据集分类、进行数据分析、数据处理,最后如何去选择模型、进行模型的评估和优化。
5.高级工具库xgboost LightGBM与建模实战
XGBoost 是boosting算法的其中之一,是处理标准表格类数据的主要模型,在目前的许多Kaggle比赛中占据主导地位。而LightGBM则是针对XGboost训练耗时很长,内存占用比较大的缺点,通过使用基于分布式学习算法的决策树,比xgboost训练更快、内存占用更低,还支持并行学习。本思维导图为大家详细的介绍了xgboost和LightGBM的特点、参数、用法、实战等内容。
6.推荐系统原理与应用
推荐系统是一个相当火热的研究方向,在工业界和学术界都得到了大家的广泛关注。本导图为大家详细介绍了推荐系统的概述与评估、经典的推荐系统案例:Netflix、推荐算法精讲(基于内容推荐、协同过滤推荐、隐语义模型、用户行为序列与Word2vector),最后是一些关于推荐系统的细节知识。
7.聚类算法
聚类算法是把距离作为特征,通过自下而上的迭代方式(距离对比),快速地把一群样本分成几个类别的过程。本导图为大家介绍了K-means、层次聚类、GMM三种聚类算法。
8.贝叶斯网络
贝叶斯网络是一种信念网,基于有向无环图来刻画属性之间的依赖关系的一种网络结构,并使用条件概率表(CPT)来描述联合概率分布。本导图从网络的概念讲起,为大家介绍了贝叶斯网络的优点、例子(朴素贝叶斯和隐马尔科夫模型),最后又为大家补充了有关条件独立和有向分割的知识点。
9.隐马可夫链(HMM)
马尔可夫链是指数学中具有马尔可夫性质的离散事件随机过程,而隐马可夫模型是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程,并在自然语言处理和语音识别中都有着极其广泛的应用。具体内容如下所示:
10.主题模型LDA
主题模型是一种无监督的贝叶斯模型,常用来做文本分类,在机器学习领域占有重要的地位。本导图介绍了LDA的概念、从三个方面帮大家深入理解了LDA,最后是一个有趣的实战:一眼帮助看穿希拉里的邮件。具体内容如下:
11.深度学习初步
主要包括:深度学习的应用(图像方面和NLP方面)、深度学习基础知识(线性分类器、通用学习框架)以及神经网络的基础知识。具体的思维导图如下所示:
12.卷积神经网络与计算机视觉
本导图详细的讲解了CNN层级结构(数据输入层、卷积计算层、激励层、池化层、全连接层)、训练算法、如何防止过拟合、训练调优和模型评价,最后为大家介绍了七种典型的模型结构:Lenet 、ALexnet 、ZF Net、 GoogleLeNet、VGG 、ResNet和DenseNet。