机器学习专题

2021-07-06 16:25:58 浏览数 (1)

随着人工智能的火热,机器学习和深度学习技术再一次进入了大众的视野。python的scikit-learn模块专注于机器学习领域,提供了数据集构建,数据预处理,模型算法,效果评估等各个环节的接口,是入门机器学习的最佳模块。

数据决定机器学习模型的上限,该模块支持使用公共数据集和模拟数据集,对数据预处理阶段的各种操作也进行了详细的介绍,相关推文如下

  • 机器学习简介
  • 使用scikit-learn构建数据集
  • 使用scikit-learn填充缺失值
  • 使用scikit-learn对数据进行预处理
  • 异常点检测算法

回归和分类作为监督学习的两大类任务,其常用算法必须做到耳熟能详。首先是回归相关算法

  • 线性回归与最小二乘法
  • 基于正则化的回归:岭回归和套索回归
  • 使用局部加权线性回归解决非线性数据的拟合问题
  • 逻辑回归:建立在回归基础上的一种分类模型

分类相关算法

  • KNN:最容易理解的分类算法
  • 使用支持向量机SVM进行分类
  • 决策树:最清晰明了的分类模型
  • 朴素贝叶斯:基于概率论的分类模型
  • 随机森林:基于决策树的集成学习算法
  • Adaboost算法:基于集成学习的又一经典分类算法
  • GBDT:梯度提升树算法

对于非监督学习而言,聚类和降维是最常见的两种场景,聚类相关的算法如下

  • K-means聚类:原理简单的聚类算法
  • 层次聚类Hierarchical Clustering解析
  • BIRCH聚类算法详解
  • DBSCAN聚类算法详解
  • OPTICS聚类算法详解
  • Affinity Propagation聚类算法详解
  • spectral-cluster聚类算法详解

降维相关的算法如下

  • 使用PCA算法对原始数据降维
  • 奇异值分解SVD
  • 非负矩阵分解NMF
  • LDA线性判别分析
  • 使用t-SNE算法进行可视化
  • isomap降维算法
  • LLE降维算法
  • 核密度估计KDE

特征工程作为机器学习中最重要的部分,常用的策略如下

  • 特征选择三板斧

模型评估,顾名思义,用来评估模型效果,不同任务有不同的评估指标

  • 回归模型评估指标
  • 分类模型评估指标
  • 聚类模型评估指标之内部方法
  • 聚类模型评估指标之外部方法
  • 交叉验证的3种方法

以上只是机器学习的大概框架和部分学习内容,更多的算法和细节可以进一步阅读scikit-learn的官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

0 人点赞