处理数据缺失的方法

发布时间：2020-05-12 14:01:12 作者：Leah
来源：亿速云阅读：136

处理数据缺失的方法是什么？这个问题可能是我们日常工作经常见到的。通过这个问题，希望你能收获更多。下面是解决这个问题的步骤内容。

数据缺失是数据科学家在处理数据时经常遇到的问题，本文作者基于不同的情境提供了相应的数据插补解决办法。没有完美的数据插补法，但总有一款更适合当下情况。

我在数据清理与探索性分析中遇到的最常见问题之一就是处理缺失数据。首先我们需要明白的是，没有任何方法能够完美解决这个问题。不同问题有不同的数据插补方法——时间序列分析，机器学习，回归模型等等，很难提供通用解决方案。在这篇文章中，我将试着总结最常用的方法，并寻找一个结构化的解决方法。
插补数据vs删除数据

在讨论数据插补方法之前，我们必须了解数据丢失的原因。
1、随机丢失（MAR，Missing at Random）：随机丢失意味着数据丢失的概率与丢失的数据本身无关，而仅与部分已观测到的数据有关。
2、完全随机丢失（MCAR，Missing Completely at Random）：数据丢失的概率与其假设值以及其他变量值都完全无关。
3、非随机丢失（MNAR，Missing not at Random）：有两种可能的情况。缺失值取决于其假设值（例如，高收入人群通常不希望在调查中透露他们的收入）；或者，缺失值取决于其他变量值（假设女性通常不想透露她们的年龄，则这里年龄变量缺失值受性别变量的影响）。