处理数据缺失的结构化解决办法

发布时间：2020-08-11 13:05:55 作者：大快搜索DKH
来源：ITPUB博客阅读：163

数据缺失是数据科学家在处理数据时经常遇到的问题，本文作者基于不同的情境提供了相应的数据插补解决办法。没有完美的数据插补法，但总有一款更适合当下情况。

我在数据清理与探索性分析中遇到的最常见问题之一就是处理缺失数据。首先我们需要明白的是，没有任何方法能够完美解决这个问题。不同问题有不同的数据插补方法 ——时间序列分析，机器学习，回归模型等等，很难提供通用解决方案。在这篇文章中，我将试着总结最常用的方法，并寻找一个结构化的解决方法。
插补数据 vs 删除数据

在讨论数据插补方法之前，我们必须了解数据丢失的原因。
1 、随机丢失（ MAR ， Missing at Random ）：随机丢失意味着数据丢失的概率与丢失的数据本身无关，而仅与部分已观测到的数据有关。
2 、完全随机丢失（ MCAR ， Missing Completely at Random ）：数据丢失的概率与其假设值以及其他变量值都完全无关。
3 、非随机丢失（ MNAR ， Missing not at Random ）：有两种可能的情况。缺失值取决于其假设值（例如，高收入人群通常不希望在调查中透露他们的收入）；或者，缺失值取决于其他变量值（假设女性通常不想透露她们的年龄，则这里年龄变量缺失值受性别变量的影响）。

在前两种情况下可以根据其出现情况删除缺失值的数据，而在第三种情况下，删除包含缺失值的数据可能会导致模型出现偏差。因此我们需要对删除数据非常谨慎。请注意，插补数据并不一定能提供更好的结果。

处理数据缺失的结构化解决办法

删除

列表删除

按列表删除（完整案例分析）会删除一行观测值，只要其包含至少一个缺失数据。你可能只需要直接删除这些观测值，分析就会很好做，尤其是当缺失数据只占总数据很小一部分的时候。然而在大多数情况下，这种删除方法并不好用。因为完全随机缺失（ MCAR ）的假设通常很难被满足。因此本删除方法会造成有偏差的参数与估计。

处理数据缺失的结构化解决办法