为具体问题选择最合适的ML算法。
作者:Sukanya Bag 编译:McGL
当我开始走上数据科学的职业道路,我经常面临的问题是为我的具体问题选择最合适的算法。如果你像我一样,当你打开一些关于机器学习算法的文章,你会看到许多详细的描述。矛盾的是,他们并没有减轻选择的压力。
好吧,为了跟上节奏,我建议你对一些监督和非监督式学习算法背后的实现和数学直觉有一个很好的理解,比如-
- 线性回归(Linear regression)
- 逻辑回归(Logistic regression)
- 决策树(Decision tree)
- 朴素贝叶斯(Naive Bayes )
- 支持向量机(Support vector machine)
- 随机森林(Random forest)
- AdaBoost
- 梯度提升树(Gradient-boosting trees)
- 简单神经网络(Simple neural network)
- 层次聚类(Hierarchical clustering)
- 高斯混合模型(Gaussian mixture model)
- 卷积神经网络(Convolutional neural network)
- 循环神经网络(Recurrent neural network)
- 推荐系统(Recommender system)
记住,我提到的机器学习算法列表是必须要有很好的了解的,而你还只是机器学习/深度学习的初学者!
现在我们已经对机器学习任务的类型有了一些直觉,让我们基于问题陈述来探索现实生活中最流行的算法及其应用!
在看完这篇文章后,可以尝试处理这些问题!我可以保证你会学到很多,非常多!
问题陈述1 -
预测房价
解决该问题的机器学习算法——
- 先进的回归技术,如随机森林和梯度提升(gradient boosting)
问题陈述2 -
探索客户人口统计数据,以找到模式
解决该问题的机器学习算法——
- 聚类(elbow方法)
问题陈述3 -
预测贷款偿还
解决该问题的机器学习算法——
- 不均衡数据集的分类算法
问题陈述4 -
根据皮肤病变的特征(大小、形状、颜色等)判断其是良性还是恶性
解决该问题的机器学习算法——
- 卷积神经网络网络(U-Net 是分割东西的最佳选择)
问题陈述5 -
预测客户流失
解决该问题的机器学习算法——
- 线性判别分析(LDA)或二次判别分析(QDA)
(尤其受欢迎,因为它既是一种分类器,又是一种降维技术)
问题陈述6 -
为雇佣新员工提供一个决策框架
解决该问题的机器学习算法——
- 决策树是一个专业的玩家
问题陈述7 -
理解和预测使产品最有可能被购买的产品属性
解决该问题的机器学习算法——
- 逻辑回归
- 决策树
问题陈述8 -
分析市场情绪来评估产品感知。
解决该问题的机器学习算法——
- 朴素贝叶斯-支持向量机(NBSVM)
问题陈述9 -
创建垃圾邮件过滤分类系统
解决该问题的机器学习算法——
- 分类算法ー
建议朴素贝叶斯、支持向量机、多层感知机神经网络(MLPNNs)和径向基函数神经网络(RBFNN)。
问题陈述10 -
预测某人点击在线广告的可能性
解决该问题的机器学习算法——
- 逻辑回归
- 支持向量机
问题陈述11 -
检测信用卡交易中的欺诈行为
解决该问题的机器学习算法——
- Adaboost
- 孤立森林
- 随机森林
问题陈述12 -
根据汽车的特性来预测汽车的价格
解决该问题的机器学习算法——
- 梯度提升树在这方面做得最好
问题陈述13 -
预测病人加入医保计划的可能性
解决该问题的机器学习算法—
- 简单的神经网络
问题陈述14 -
预测注册用户是否愿意为产品支付特定的价格
解决该问题的机器学习算法—
- 神经网络
问题陈述15 -
根据不同的特点(例如年龄组)将客户分成不同的组
解决该问题的机器学习算法——
- K-means 聚类
问题陈述16 -
用于语音识别系统的语音数据特征提取
解决该问题的机器学习算法——
- 高斯混合模型
问题陈述17 -
多个目标的目标跟踪,其中混合成分的数量及其中值在视频序列的每一帧预测目标位置
解决该问题的机器学习算法——
- 高斯混合模型
问题陈述18 -
从一组微阵列(microarray)实验中组织基因和样本,以揭示生物学上有趣的模式
解决该问题的机器学习算法——
- 层次聚类算法
问题陈述19 -
根据具有类似属性的其他客户的偏好推荐消费者应该观看的电影
解决该问题的机器学习算法——
- 推荐系统
问题陈述20 -
根据读者正在阅读的文章推荐读者可能想读的新闻文章
解决该问题的机器学习算法——
- 推荐系统
问题陈述22 -
无人驾驶汽车驾驶行为的优化
解决该问题的机器学习算法——
- 强化学习
问题陈述23 -
通过医学扫描图诊断疾病
解决该问题的机器学习算法——
- 卷积神经网络
问题陈述24 -
在不同的需求周期中平衡电网的负荷
解决该问题的机器学习算法——
- 强化学习
问题陈述25 -
当你正在处理时序数据或序列(例如,音频记录或文本)
解决该问题的机器学习算法——
- 循环神经网络
- LSTM
问题陈述26 -
提供语言翻译
解决该问题的机器学习算法——
- 循环神经网络
问题陈述27 -
为图片生成标题
解决该问题的机器学习算法——
- 循环神经网络
问题陈述28 -
聊天机器人,可以解决更细微的客户需求和查询
解决该问题的机器学习算法——
- 循环神经网络
希望我已经解释清楚了最常用的机器学习算法的普遍看法,并告诉了你们如何为具体问题选择一种最合适的算法。
快乐机器学习! :)
下次见... !
原文:https://medium.com/analytics-vidhya/which-machine-learning-algorithm-should-you-use-by-problem-type-a53967326566