一.机器学习简介
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论,统计学,逼近论,凸分析、算法复杂度理论等多门学科。专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。目前,世界上共有几百种不同的机器学习算法。
二.类别
1.分类
给定一堆样本数据,以及这些数据所属的类别标签,通过算法来对预测新数据的类别。有先验知识。
常用分类算法:k-最近邻法(k-nearest neighbor,kNN),决策树分类法,朴素贝叶斯分类算法(native Bayesian classifier)、支持向量机(SVM)的分类器,神经网络法,模糊分类法等等。
2.聚类
事先并不知道一堆数据可以被划分到哪些类,通过算法来发现数据之间的相似性,从而将相似的数据划入相应的类,简单地说就是把相似的东西分到一组。没有先验知识。
常用聚类算法: K均值(K-means clustering)聚类算法、K-MEDOIDS算法、CLARANS算法;BIRCH算法、CURE算法、CHAMELEON算法等;基于密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法等;基于网格的方法:STING算法、CLIQUE算法、WAVE-CLUSTER算法;
3.监督学习与无监督学习
监督学习,无监督学习,半监督学习。
监督式学习技术需要关于结果的先验知识。
无监督学习技术不需要先验知识。
三.KNN分类算法
K最近邻(k-Nearest Neighbor,KNN),由你的邻居来推断出你的类别。
机器学习,算法本身不是最难的,最难的是:1.数学建模:把业务中的特性抽象成向量的过程;2.选取适合模型得数据样本。
要点:
步骤:
1.距离:计算它与训练集中每个对象的距离
二维距离