【磐创AI导读】本文以思维导图的方式,为大家介绍了机器学习的主要知识内容,涵盖了包含机器学习算法、特征工程、机器学习实战项目、深度学习等知识。本文的主要知识内容源于七月在线的《机器学习第九期》课程,另感谢学员海阔天空同学的学习笔记。想了解更多关于该机器学习课程的信息,请点击文末阅读原文,了解获取100G机器学习干货资源。公众号后台回复关键字“0621”获取已经打包好的全部导图文件。
1. 思维导图总览
本知识导图涵盖了机器学习的主要核心知识,具体包括:基本模型(回归、决策树与随机森林、SVM、最大熵与EM算法)、特征工程、工业实战(Skearn与机器学习实战、高级工具库xgboost/lightGBM与建模实战、推荐系统原理及应用、聚类算法)、深入机器学习(贝叶斯网络、隐马可夫链HMM、主题模型)、迈入深度学习(深度学习模型与应用、循环神经网络与应用、卷积神经网络与计算机视觉)等。(公众号中回复关键字“0621”获取为大家打包好的全部清晰导图文件)
2. 特征工程
特征工程其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。本特征工程思维导图涵盖的知识点包括:特征工程的意义、数据的采集、数据的处理(数据的清洗和采样)、数值型、类别型、时间型、文本型、统计型、组合型特征的处理、特征的选择和降维。
3.多算法组合与模型最优
多算法组合和模型调优也是特征工程重要的一部分。本多算法组合与模型调优思维导图包含:模型选择(模型选择的准备工作、模型参数和超参数的选择)、模型效果的优化(模型状态分析、线性模型的权重分析、Bad-case分析、模型融合)。
4.多算法组合与模型最优Skearn与机器学习实战
我们知道sklearn是一个Python第三方提供的非常强力的机器学习库,它包含了从数据预处理到训练模型的各个方面。本导图从skearn的基本概念出发再到完整的实战项目,为大家介绍了当面对实际机器学习项目时,如何分析项目、划定问题,如何对数据集分类、进行数据分析、数据处理,最后如何去选择模型、进行模型的评估和优化。
5.高级工具库xgboost LightGBM与建模实战
XGBoost 是boosting算法的其中之一,是处理标准表格类数据的主要模型,在目前的许多Kaggle比赛中占据主导地位。而LightGBM则是针对XGboost训练耗时很长,内存占用比较大的缺点,通过使用基于分布式学习算法的决策树,比xgboost训练更快、内存占用更低,还支持并行学习。本思维导图为大家详细的介绍了xgboost和LightGBM的特点、参数、用法、实战等内容。
6.推荐系统原理与应用
推荐系统是一个相当火热的研究方向,在工业界和学术界都得到了大家的广泛关注。本导图为大家详细介绍了推荐系统的概述与评估、经典的推荐系统案例:Netflix、推荐算法精讲(基于内容推荐、协同过滤推荐、隐语义模型、用户行为序列与Word2vector),最后是一些关于推荐系统的细节知识。
7.聚类算法
聚类算法是把距离作为特征,通过自下而上的迭代方式(距离对比),快速地把一群样本分成几个类别的过程。本导图为大家介绍了K-means、层次聚类、GMM三种聚类算法。
8.贝叶斯网络
贝叶斯网络是一种信念网,基于有向无环图来刻画属性之间的依赖关系的一种网络结构,并使用条件概率表(CPT)来描述联合概率分布。本导图从网络的概念讲起,为大家介绍了贝叶斯网络的优点、例子(朴素贝叶斯和隐马尔科夫模型),最后又为大家补充了有关条件独立和有向分割的知识点。
9.隐马可夫链(HMM)
马尔可夫链是指数学中具有马尔可夫性质的离散事件随机过程,而隐马可夫模型是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程,并在自然语言处理和语音识别中都有着极其广泛的应用。具体内容如下所示:
10.主题模型LDA
主题模型是一种无监督的贝叶斯模型,常用来做文本分类,在机器学习领域占有重要的地位。本导图介绍了LDA的概念、从三个方面帮大家深入理解了LDA,最后是一个有趣的实战:一眼帮助看穿希拉里的邮件。具体内容如下:
11.深度学习初步
主要包括:深度学习的应用(图像方面和NLP方面)、深度学习基础知识(线性分类器、通用学习框架)以及神经网络的基础知识。具体的思维导图如下所示:
12.卷积神经网络与计算机视觉
本导图详细的讲解了CNN层级结构(数据输入层、卷积计算层、激励层、池化层、全连接层)、训练算法、如何防止过拟合、训练调优和模型评价,最后为大家介绍了七种典型的模型结构:
Lenet ALexnet ZF Net GoogleLeNet VGG ResNet和DenseNet。