机器学习基本概念

2019-05-23 14:31:27 浏览数 (1)

1. 机器学习 (Machine Learning, ML)

1.1 概念:

多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

1.2 学科定位:

人工智能(Artificial Intelligence, AI)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

1.3 定义:

探究和开发一系列算法来如何使计算机不需要通过外部明显的指示,而可以自己通过数据来学习,建模,并且利用建好的模型和新的输入来进行预测的学科。

Arthur Samuel (1959): 一门不需要通过外部程序指示而让计算机有能力自我学习的学科

Langley(1996) : “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”

Tom Michell (1997): “机器学习是对能通过经验自动改进的计算机算法的研究”

2. 机器学习的应用:

语音识别

自动驾驶

语言翻译

计算机视觉

推荐系统

无人机

识别垃圾邮件

3. 深度学习(Deep Learning)

3.1 什么是深度学习?

深度学习是基于机器学习延伸出来的一个新的领域,由以人大脑结构为启发的神经网络算法为起源加之模型结构深度的增加发展,并伴随大数据和计算能力的提高而产生的一系列新的算法。

3.2 深度学习什么时间段发展起来的?

其概念由著名科学家Geoffrey Hinton等人在2006年和2007年在《Sciences》等上发表的文章被提出和兴起。

4. 机器学习中分类和预测算法的评估:

  • 准确率
  • 速度
  • 强壮行
  • 可规模性
  • 可解释性

5.基本概念

训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归

  • 概念学习: 概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数
  • 训练集(training set/data)/训练样例(training examples): 用来进行训练,也就是产生模型或者算法的数据集
  • 测试集(testing set/data)/测试样例 (testing examples): 用来专门进行测试已经学习好的模型或者算法的数据集
  • 特征向量(features/feature vector): 属性的集合,通常用一个向量来表示,附属于一个实例
  • 标记(label): c(x), 实例类别的标记
  • 正例(positive example)
  • 反例(negative example)
  • 分类 (classification): 目标标记为类别型数据(category)
  • 回归(regression): 目标标记为连续性数值 (continuous numeric value)
  • 有监督学习(supervised learning): 训练集有类别标记(class label)
  • 无监督学习(unsupervised learning): 无类别标记(class label)
  • 半监督学习(semi-supervised learning): 有类别标记的训练集 无标记的训练集
  • 机器学习步骤框架
    • 把数据拆分为训练集和测试集
    • 用训练集和训练集的特征向量来训练算法
    • 用学习来的算法运用在测试集上来评估算法 (可能要设计到调整参数(parameter tuning), 用验证集(validation set)

            【注】:本文为麦子学院机器学习课程的学习笔记

0 人点赞