导语:数据决定了任务的上限,模型方法决定达到上限的能力。在机器学习三要素里面,经验数据是极其重要的一环,直接决定了该机器学习任务的最终能达到的效果。尤其是在进入大数据时代,数据获取上面会比以往容易许多,选取数据集...
搜索排序:在一次会话中,用户在交互界面输入需要查询的query,系统给返回其排好序的doc例表的过程。
GBDT是常用的机器学习算法之一,因其出色的特征自动组合能力和高效的运算大受欢迎。
Spark的核心概念是RDD,而RDD的关键特性之一是其不可变性,来规避分布式环境下复杂的各种并行问题。这个抽象,在数据分析的领域是没有问题的,它能最大化的解决分布式问题,简化各种算子的复杂度,并提供高性能的分布式数据处理...
导语:本文先介绍了凸优化的满足条件,然后用一个通用模型详细地推导出原始问题,再解释了为什么要引入对偶问题,以及原始问题和对偶问题的关系,之后推导了两者等价的条件,最后以SVM最大间隔问题的求解来说明其可行性。...
导语:本文用一些简单的例子来解释了SVM是什么,然后通过SVM中最大间隔、核函数、软间隔、SMO四个关键部分,依次进行数学推导和解释。
导语:本文在上篇线性回归的基础上,延伸到广义线性模型,并把广义线性模型目的、假设条件来源,指数族分布、连接函数等各个函数的关系都进行详细地解释。最后用两个常见的GLM特例Logistics回归、Softmax模型进行了推导。...
导语:高中的时候,班主任让我们每学完一个章节,整理出这个章节的关键词和一份问题列表。现在回想起来,其实是很有用的,这让我们可以从另外一个视角来审视所学习的内容,而不是单纯的填鸭式的记忆;最近在复习机器学习相关内容,也...
导语:本文用了从数学层面和代码层面,再结合一些通俗易懂的例子,详细地描述了回归主要涉及的原理和知识,希望对于机器学习的初学者或者有兴趣研究模型具体实现的同学带来一点帮助。...
导语:本文详细的解释了机器学习中,经常会用到数据清洗与特征提取的方法PCA,从理论、数据、代码三个层次予以分析。