项目流程
- 明确定义问题
- 考虑非机器学习的方法
- 进行系统设计
- 选择算法
- 确定特征,训练数据和日志
- 执行前处理
- 学习与参数调整
- 系统实现
项目基础
- 微积分
- 矩阵计算
- 概率计算
项目算法
- 分类:利用正确解答的离散类别与输入数据的组合进行学习,从未知数据预测类别
- 回归:利用正确的数值和输入数据的组合进行学习,从未知数据预测连续值
- 聚类:以某种基准对数据进行分组
- 降维:将高维数据映射为低维数据以便可视化或减少计算量。
分类算法(离散值)
- 二元分类(二值分类)
- 感知机
- 逻辑回归
- svm(支持向量机)
- 神经网络
- k-NN(k近邻法)
- 决策树
- 随机森林
- 梯度提升决策树(G BDT)
相似度
- 皮尔逊积矩相关系数 是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间
- 余弦相似度 余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。这结果是与向量的长度无关的,仅仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为-1到1之间。
- 杰卡德指数(杰卡德相似系数) 用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元素个数。