第十九届五一杯数学建模B题思路,今天上午已经发过了,大家可以简单的看一下。这篇文章就是详细的说下思路。
数据上面:
有缺失
简单的回归了一下,不太行
残差也过不去
说说步骤:
替换
缺失值的处理
时间缺失
温度里面有缺失
不要了,缺的不要了,直接扔了,这样我们就得到了一小时为单位的温度和各个指标的对应数据。
首先对各个变量进行描述性统计,计算平均值:
描述统计
记得做了标准化
归一化后的参数均值为0,方差是1
先做相关性分析
从表中我们可以看到系统I温度和系统II温度与指标ABCD的相关系数绝对值小于0.3,相关性较弱。不能做线性回归。
使用matlab进行一下回归分析:如果没有matlab的话可以点
->Matlab2018b安装 破解(有偿下载)
->Matlab 2021a安装
回归的样子
残差图有趋势这就不好
处理过后的数据
变得好看了许多
协同的趋势更加的明显
归一化,太好看了(温度)
但是参数就不好看了
归一化的数据
这个是温度和参数在一个坐标系内,没有什么好说的
对应的数据指标
我们使用工具箱拟合一下
使用温度一二,对参数一进行拟合
使用多项式拟合都选2次,就很离谱了
参数使用:
SSE(和方差):拟合数据和原始数据对应点的误差的平方和,SSE越接近于0,说明模型选择和拟合更好,数据预测也越成功。
R-square(确定系数):SSR:Sum of squares of the regression,即预测数据与原始数据均值之差的平方和。
SST:Total sum of squares,即原始数据和均值之差的平方和。
R-square(确定系数)是定义为SSR和SST的比值,越接近1,表明方程的变量对y的解释能力越强,这个模型对数据拟合的也较好
决定系数是SSR(回归平方和)/SST(总体平方和),也叫拟合优度,越接近1说明拟合效果越好。该值只能用于拟合函数是线性函数时对拟合结果的评价,一般函数拟合结果的好坏直接看SSE(误差平方和)即可。
这个SSE也过不了
使用插值拟合,最近邻
好看吗?但是无用
你见过这么酷的,残差图吗?
SSE更是酷炫
接着使用SPSS,研究两个自变量系统I温度和系统II温度对四个指标ABCD的影响,
将系统I温度和系统II温度设为x1和x2,四个指标分别设为:
首先研究:
考虑线性关系,利用SPSS里面的多元线性回归功能,
选择
选入
从结果中看出R方0.086,单独的系数系统II温度也没有通过t检验。ANOVA表里面F检验通过。
所以我们试想加入2次项,x1的平方,x2的平方,交叉项 x1x2,然后进行回归
看到R方有提升
结果
从结果中可以看到仍然是系统II温度的检验不通过,显著性为0.851.
所以我们大胆的可以舍掉x2,x2的平方项,因为本身就是一个尝试,保留x1 和x2 的乘积,不能把x2都去掉。
从结果中可以看出F检验和t 检验都通过,而且标准误也比较小。这个结果我们也能接受。那么对于R方比较小0.184,可能因为一些异常情况用多项式我们无法拟合得到。
得到公式(别抄这个)
看看效果,残差图
描述统计
残差分布在 -3到3之间。方差为0.816.
残差图是指以残差为纵坐标,~以任何其他指定的量为横坐标的散点图.
从根本上说,随机性和不可预测性是任何回归模型的关键组成部分}},如果你没有考虑到这两点,那么你的模型就不可信了,甚至说是无效的。
为什么这么说呢?首先,对于一个有效的回归模型来说,可以细分定义出两个基本组成部分:
响应(Response) = 确定性(Deterministic) 随机性(Stochastic)
确定性部分
为了完整,先提一下~Deterministic~这部分。在预测模型中,该部分是由关于预测自变量的函数组成,其中包含了回归模型中所有可解释、可预测的信息。
随机误差
Stochastic 这个词很牛逼,其不仅蕴含着随机性~(random),还有不可预测性~(unpredictable)。这是很重要的两点,往往很多朋友都以为有随机性的特点就够了,其实不然。这两点放在一起,就是在告诉我们回归模型下的预测值和观测值之间的差异必须是随机不可预测的。换句话说,在误差~(error)~中不应该含有任何可解释、可预测的信息。
随机误差到底是什么样子的呢?首先,残差不应该成片的很高或很低,而是在拟合值的范围内,残差应该以~0~为中心。换句话说,模型的拟合应该平均散布在被拟合值点附近。
蓝色是原数据的标准化
这是残差图,已经好很多了