您好,登录后才能下订单哦!
大数据中共线性的解决方法是什么,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。
导语
在进行线性回归分析时,自变量即解释变量很容易出现共线性问题。当出现共线性问题时,可能导致回归系数的符号与实际情况完全相反,本应该显著的自变量不显著,本不显著的自变量却呈现出显著性;共线性问题会导致数据研究出来严重偏差甚至完全相反的结论,因而需要解决此问题。
多重共线性问题就是说一个解释变量的变化引起另一个解释变量地变化。如果各个自变量x之间有很强的线性关系,就无法固定其他变量了,就找不到x和y之间真实的关系了。
通俗地讲共线性是指,自变量X(解释变量)影响因变量Y(被解释变量)的时候,多个X之间本身就存在很强的相关关系,即X之间有着比较强的替代性,因而导致共线性问题。
回归分析时,直接查看VIF值,如果全部小于10(严格是5),则说明模型没有多重共线性问题,模型构建良好;反之若VIF大于10说明模型构建较差。
也可以直接做相关分析,如果某两个自变量X(解释变量)的相关系数值大于0.7,也有可能出现很强的共线性问题。
共线性问题共有以下五种解决办法。
1. 手动移除出共线性的自变量
先做下相关分析,如果发现某两个自变量X(解释变量)的相关系数值大于0.7,则移除掉一个自变量(解释变量),然后再做回归分析。但此种办法有一个小问题,即有的时候根本就不希望把某个自变量从模型中剔除,如果有此类情况,可考虑使用逐步回归让软件自动剔除,同时更优的办法可能是使用岭回归进行分析。
2. 逐步回归法
让软件自动进行自变量的选择剔除,逐步回归会将共线性的自变量自动剔除出去。此种解决办法有个问题是,可能算法会剔除掉本不想剔除的自变量,如果有此类情况产生,此时最好是使用岭回归进行分析。
3. 增加样本容量
增加样本容量是解释共线性问题的一种办法,但在实际操作中可能并不太适合,原因是样本量的收集需要成本时间等。
4. 岭回归
上述第1和第2种解决办法在实际研究中使用较多,但问题在于,如果实际研究中并不想剔除掉某些自变量,某些自变量很重要,不能剔除。此时可能只有岭回归最为适合了。岭回归是当前解决共线性问题最有效的解释办法,但是岭回归的分析相对较为复杂。
5. 利用因子分析合并变量
共线性问题的解释办法是,理论上可以考虑使用因子分析(或者主成分分析),利用数学变换,将数据降维提取成几个成分,即把信息进行浓缩,最后以浓缩后的信息作为自变量(解释变量)进入 模型进行分析。此种解释办法在理论上可行,而且有效。但实际研究中会出现一个问题,即本身研究的X1,X2,X3等,进行了因子分析(或主成分)后,变成成分1,成分2类似这样的了,意义完全与实际研究情况不符合,这导致整个研究的思路也会变换,因而此种办法适用于探索性研究时使用,而不适合实际验证性研究。
1. 多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施,如果VIF值大于10说明共线性很严重,这种情况需要处理,如果VIF值在5以下不需要处理,如果VIF介于5~10之间视情况而定。
2. 严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。如影响系数符号,重要的解释变量t值很低。要根据不同情况采取必要措施。
3. 如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果。
看完上述内容,你们掌握大数据中共线性的解决方法是什么的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注亿速云行业资讯频道,感谢各位的阅读!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。