: 研究者指定的正数。 K 表示最接近特定观测的观测数,它定义了“邻域”。 例如,K = 2意味着每个观测都有一个邻域,包含最接近它的另外两个观测。
表示两者之间的交互。使用 scikit-learn 的PolynomialFeatures,来为所有特征组合创建交互术项会很有用。 然后,我们可以使用模型选择策略,来识别产生最佳模型的特征和交互项的组合。...
scikit-learn 的LogisticRegressionCV方法包含一个参数C。 如果提供了一个列表,C是可供选择的候选超参数值。 如果提供了一个整数,C的这么多个候选值,将从 0.0001 和 10000 之间的对数标度(C的合理值范围)中提取。...
在本教程中,我们将使用着名的鸢尾花数据集。鸢尾花数据包含 150 种鸢尾花的四个测量值,以及它的品种。 我们将使用支持向量分类器来预测鸢尾花的品种。...
波士顿住房数据集 是 20 世纪 70 年代的着名数据集。 它包含506个关于波士顿周边房价的观测。 它通常用于回归示例,包含 15 个特征。
机器学习是自动从数据中提取知识的过程,通常是为了预测新的,看不见的数据。一个典型的例子是垃圾邮件过滤器,用户将传入的邮件标记为垃圾邮件或非垃圾邮件。然后,机器学习算法从数据“学习”预测模型,数据区分垃圾邮件和普...
之前,我们深入研究了简单的生成分类器(见朴素贝叶斯分类)和强大的辨别分类器(参见支持向量机)。 这里我们来看看另一个强大的算法的动机 - 一种称为随机森林的非参数算法。 随机森林是组合方法的一个例子,这意味着它依赖于...
支持向量机(SVM)是一种特别强大且灵活的监督算法,用于分类和回归。 在本节中,我们将探索支持向量机背后的直觉,及其在分类问题中的应用。
就像朴素贝叶斯(之前在朴素贝叶斯分类中讨论)是分类任务的一个很好的起点,线性回归模型是回归任务的一个很好的起点。 这些模型受欢迎,因为它们可以快速拟合,并且非常可解释。 你可能熟悉线性回归模型的最简单形式(即使用直...
有几个 Python 库提供一系列机器学习算法的实现。最著名的是 Scikit-Learn,一个提供大量常见算法的高效版本的软件包。 Scikit-Learn 的特点是简洁,统一,流线型的 API,以及非常实用和完整的在线文档。这种一致性的好处是,...