随着人工智能的火热,机器学习和深度学习技术再一次进入了大众的视野。python的scikit-learn模块专注于机器学习领域,提供了数据集构建,数据预处理,模型算法,效果评估等各个环节的接口,是入门机器学习的最佳模块。
数据决定机器学习模型的上限,该模块支持使用公共数据集和模拟数据集,对数据预处理阶段的各种操作也进行了详细的介绍,相关推文如下
- 机器学习简介
- 使用scikit-learn构建数据集
- 使用scikit-learn填充缺失值
- 使用scikit-learn对数据进行预处理
- 异常点检测算法
回归和分类作为监督学习的两大类任务,其常用算法必须做到耳熟能详。首先是回归相关算法
- 线性回归与最小二乘法
- 基于正则化的回归:岭回归和套索回归
- 使用局部加权线性回归解决非线性数据的拟合问题
- 逻辑回归:建立在回归基础上的一种分类模型
分类相关算法
- KNN:最容易理解的分类算法
- 使用支持向量机SVM进行分类
- 决策树:最清晰明了的分类模型
- 朴素贝叶斯:基于概率论的分类模型
- 随机森林:基于决策树的集成学习算法
- Adaboost算法:基于集成学习的又一经典分类算法
- GBDT:梯度提升树算法
对于非监督学习而言,聚类和降维是最常见的两种场景,聚类相关的算法如下
- K-means聚类:原理简单的聚类算法
- 层次聚类Hierarchical Clustering解析
- BIRCH聚类算法详解
- DBSCAN聚类算法详解
- OPTICS聚类算法详解
- Affinity Propagation聚类算法详解
- spectral-cluster聚类算法详解
降维相关的算法如下
- 使用PCA算法对原始数据降维
- 奇异值分解SVD
- 非负矩阵分解NMF
- LDA线性判别分析
- 使用t-SNE算法进行可视化
- isomap降维算法
- LLE降维算法
- 核密度估计KDE
特征工程作为机器学习中最重要的部分,常用的策略如下
- 特征选择三板斧
模型评估,顾名思义,用来评估模型效果,不同任务有不同的评估指标
- 回归模型评估指标
- 分类模型评估指标
- 聚类模型评估指标之内部方法
- 聚类模型评估指标之外部方法
- 交叉验证的3种方法
以上只是机器学习的大概框架和部分学习内容,更多的算法和细节可以进一步阅读scikit-learn的官方文档。
·end·
—如果喜欢,快分享给你的朋友们吧—
原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!
本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。