最新 最热

scRNA plus||单细胞结合传统测序技术之路

单细胞即是在单个细胞水平上来考察组织生物学信息,在单细胞时代之前,人们获得组织生物学信息有两个层面:组织水平和分子水平,单细胞技术弥补了这两者之间的鸿沟。众所周知,细胞是生物的基本构成单位,不管之前的组织水平还是...

2021-03-25
3

使用遗传交叉算子进行过采样处理数据不平衡

除了随机过采样,SMOTE及其变体之外,还有许多方法可以对不平衡数据进行过采样。 在使用scikit-learn的make_classification默认设置生成的分类数据集中,使用交叉操作生成的样本在最相关的指标上胜过SMOTE和随机过采样。...

2021-01-12
2

K最近邻算法(KNN)介绍及实现

KNN,即K nearest neighbor,K近邻算法。KNN的思想非常简单,所需的数学知识较少。比如下图,星星是一个新的样本,要判断星星是属于蓝色的还是黄色的样本分类,就要看它周围的邻居是什么分类。假设K=3,就是看周围三个点的分类,如图...

knn
2020-11-12
1

机器学习中处理缺失值的9种方法

数据集中缺少值的原因有很多。例如,在数据集的身高和年龄,会有更多年龄列中缺失值,因为女孩通常隐藏他们的年龄相同的如果我们准备工资的数据和经验,我们将有更多的薪水中的遗漏值因为大多数男人不喜欢分享他们的薪水...

2020-11-09
2

GridSearchCV (scikit learn) 确定超参数

在我们建立模型的时候需要(尽量)确定最优的参数,比如以下KNN的例子,如果直接实现,我们可以用for-loop来寻找最大的score,从而确定对应的参数:

2020-10-10
1

闵可夫斯基距离

这个距离其实就是闵可夫斯基距离(Minkowski distance)。应用广泛,可以比较相似度,比如在scikit learn中的KNN算法中,计算距离的参数就默认为欧氏距离(闵可夫斯基距离p=2)。...

2020-10-10
1

从单词嵌入到文档距离 :WMD一种有效的文档分类方法

文档分类和文档检索已显示出广泛的应用。文档分类的重要部分是正确生成文档表示。马特·库斯纳(Matt J. Kusner)等人在2015年提出了Word Mover’s Distance(WMD)[1],其中将词嵌入技术用于计算两个文档之间的距离。使用给定...

2020-09-29
1

如何用R语言在机器学习中建立集成模型?

在本文中,我将向您介绍集成建模的基础知识。另外,为了向您提供有关集合建模的实践经验,我们将使用R对hackathon问题进行集成。

2020-09-04
3

《图解算法》第10章 K最近邻算法

橙子还是柚子如何判断水果是橙子还是柚子呢?一种办法是看它的邻居。来看看离它最近的三个邻居在这三个邻居中,橙子比柚子多,因此这个水果很可能是橙子。你刚才就是使用K最近邻(k-nearest neig...

2020-08-13
1

机器学习|KNN

之前一段时间我们了解到的算法中,可以说是一个比一个复杂,本文呢,我们不再增加难度,来说一个最基础、最简单的监督学习算法KNN。

knn
2020-07-21
1