如何构建一个好的数据挖掘模型?
1 首先要保证数据质量,特征值需要选择好,其次需要弄明白业务需求,确立你的分析目标是分类还是预测
2 根据需求来确定模型,然后根据模型的要求确定输入参数和输出参数,最后对数据进行清洗处理。
基本的流程思路为:数据清洗、根据业务需求寻找特征变量、分析不同模型的优缺点、选择使用模型、根据模型拟合结果调整参数以及特征变量
要完整的实现一个模型一般要历时多久?
1 每个模型都有优缺点和适用范围,单纯说建模周期还是要看需求,如果数据质量较高一个星期,如果数据质量较低可能需要一个多月
2 实际建模过程中,选择模型的过程还是需要不断学习了解模型背后的理论框架
3 有建模需求的情况下应该根据需要来确定模型,如果没有明确的建模需求,那我们可以根据业务先形成一个数据闭环,再根据结果以及发展方向不断搭建完善模型
4 建一个模型之前,其实首先应该先问自己一个问题,有必要建这个模型吗?要回答这个问题,就要了解清楚模型产生的背景、业务的痛点、要解决什么问题?也就是需要明确模型的商业目标。其次是要了解数据,是否有足够多的数据去支持你的模型,这里的“足够多的数据”分二个层面,第一是量,就是数据积累的时间范围、数据的维度是否够大。二是质,数据的缺少程度、数据的准确程度。如果这二个条件都具备,那么就可以正式进入建模的阶段了。
建模型时不可避免的几个问题?
1 首先要明确要解决问题的类型,是需要预测还是需要分类,这会涉及选择的模型以及用到的方法论
2 其次需要进行数据探索,需要观察数据的分布、量纲、缺失值以及异常值等等,这会涉及到数据预处理时相关变量的清洗
3 与业务人员沟通非常重要,需要与他们详细的讨论数据应用的场景,例如电商营销时会涉及到性别预测,业务人员会凭借自己的经验和直觉去告诉你不同性别的消费者可能会有什么行为,从而引导你去建立一些相关的数据分析指标,好的设计指标会比优秀的算法更有说服力
4 数据的验证必不可少,这就需要在建模过程把数据分成训练集与验证集,好的模型一定要在实践中建立,测试效果好的模型才可以部署到系统中
建模时是数据适应模型还是模型适应数据?
数据和模型是相互成就的,实际工作中两者是相辅相成的,应该灵活的去看待这个问题。例如同一个指标,模型不同那么数据的预处理方法也会不同,这种情况模型是需要去适应数据的。反过来,例如决策树和logistic一个支持缺失值一个不支持缺失值,这种情况下数据是需要去适应模型的。
建模是为了解决问题,但如果建模效果不好怎么办?
首先去回顾数据清洗的过程,反思数据选择是否正确。如果清洗过程没有问题但是模型效果还是不好就需要去反思模型的选取是否得当,例如如果业务目标是建立预测类模型,那么可以选择决策树、随机森林或者回归去实现,每种实现方法的优劣是否适应你的模型这些都是需要你去反思复盘的
模型可视化这部分有什么建议么?
建模可视化的结果展示,R、SAS、SPSS都会自带一些,R语言可以试试ggplot2包,社交网络这一块有个开源软件gephi不错也可以试试看