前言
本文重在以清晰明了的方式展示利用多元线性回归模型实现预测功能的基本流程。
变量探索
数据读入
异常值处理
类别变量数值分布情况
变量关系探索
方差分析
style 和 neighborhood 与房价 price 是否有关联可以使用方差分析
插播一条样本量和置信水平 α_level 的注意点(置信水平 α 的选择经验)
样本量 | α-level |
---|---|
≤ 100 | 10% |
100 < n ≤ 500 | 5% |
500 < n ≤ 1000 | 1% |
n > 2000 | 千分之一 |
根据 p 值,变量 style 与 neighborhood 都值得放入模型。
statsmodels 建模
模型优化
虚拟变量
关于虚拟变量的原理趣析可参考这篇文章
多元线性回归模型精度提升 -- 虚拟变量
方差膨胀因子
模型末尾提示可能存在多元共线性,需要处理一下,关于方差膨胀因子的原理趣析可参考这篇文章
多元共线性检测 -- 方差膨胀因子
发现精度没变,但实际情况中是否要删减还是需要结合具体业务来分析。
总结
多元线性回归模型作为最基础又最经典的模型之一,用处十分广泛。本文实现了从探索性数据分析到模型建立再到用经典的方法将模型优化的一套通用的流程,具体该添加哪些处理细节和算法,还需要根据实际情况进行考量。至于具体的模型参数和结果该怎么看,本文就不再一一赘述,其中往模型里添加了虚拟变量后该如何对结果进行解释,这一点在文中虚拟变量的链接中已详细地做出了解释。