如何用R语言和Python进行数据去重与缺失值处理

发布时间：2021-10-11 17:49:31 作者：柒染
来源：亿速云阅读：478

# 如何用R语言和Python进行数据去重与缺失值处理

## 引言

在数据分析和建模过程中，数据质量直接影响结果的可靠性。据统计，数据科学家80%的时间都花费在数据清洗上，其中**数据去重**和**缺失值处理**是最常见的两大任务。本文将系统介绍如何使用R语言和Python两大主流工具完成这两项核心数据预处理操作。

## 一、数据去重操作

### 1.1 重复数据的识别与影响

重复数据通常分为两种：
- **完全重复**：所有字段值完全相同
- **关键字段重复**：唯一标识字段相同但其他字段可能不同

重复数据会导致：
- 统计分析结果偏差
- 机器学习模型过拟合
- 资源浪费和计算效率降低

### 1.2 R语言去重方法

#### 基础函数实现
```r
# 创建示例数据
df <- data.frame(
  id = c(1,2,2,3,4,4,4),
  value = c("A","B","B","C","D","D","E")
)

# 完全去重
unique_df <- unique(df)

# 按特定列去重
distinct_df <- df[!duplicated(df$id), ]

dplyr包方法

library(dplyr)

# 去除完全重复行
distinct_all <- df %>% distinct()

# 按id列去重
distinct_id <- df %>% distinct(id, .keep_all = TRUE)

1.3 Python去重方法

pandas基础操作

import pandas as pd

df = pd.DataFrame({
    'id': [1,2,2,3,4,4,4],
    'value': ['A','B','B','C','D','D','E']
})

# 完全去重
df_drop_duplicates = df.drop_duplicates()

# 按id列去重
df_drop_id = df.drop_duplicates(subset=['id'])

高级去重技巧

# 保留重复项中的最后出现记录
df_keep_last = df.drop_duplicates(subset=['id'], keep='last')

# 标记重复项
df['is_duplicate'] = df.duplicated(subset=['id'])

二、缺失值处理技术

2.1 缺失值类型与识别

常见缺失值类型： - MCAR（完全随机缺失） - MAR（随机缺失） - MNAR（非随机缺失）

2.2 R语言缺失值处理

缺失值检测

# 检测缺失值
colSums(is.na(df))

# 可视化缺失模式
library(mice)
md.pattern(df)

处理方法

# 删除缺失行
df_complete <- na.omit(df)

# 均值填充
df$value[is.na(df$value)] <- mean(df$value, na.rm = TRUE)

# 多重插补法
library(mice)
imputed_data <- mice(df, m=5, method='pmm')
complete_data <- complete(imputed_data)

2.3 Python缺失值处理

缺失值检测

# 检测缺失值
df.isnull().sum()

# 可视化缺失值
import seaborn as sns
sns.heatmap(df.isnull(), cbar=False)

处理方法

# 删除缺失值
df_dropna = df.dropna()

# 前向填充
df_ffill = df.fillna(method='ffill')

# 使用KNN填充
from sklearn.impute import KNNImputer
imputer = KNNImputer(n_neighbors=3)
df_knn = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)

三、实战案例对比

3.1 数据集说明

使用Titanic数据集(kaggle)演示完整处理流程： - 乘客ID（去重关键字段） - 年龄、舱位等字段（含缺失值）

3.2 R语言完整流程

library(tidyverse)
library(mice)

# 数据加载
titanic <- read_csv("titanic.csv")

# 去重处理
clean_data <- titanic %>%
  distinct(PassengerId, .keep_all = TRUE)

# 缺失值处理
imputed_data <- clean_data %>%
  mutate(
    Age = ifelse(is.na(Age), median(Age, na.rm = TRUE), Age),
    Cabin = ifelse(is.na(Cabin), "Unknown", Cabin)
  ) %>%
  mice(method = "rf") %>%
  complete()

3.3 Python完整流程

import pandas as pd
from sklearn.ensemble import RandomForestRegressor

# 数据加载
titanic = pd.read_csv("titanic.csv")

# 去重处理
titanic = titanic.drop_duplicates(subset=['PassengerId'])

# 缺失值处理
titanic['Age'] = titanic['Age'].fillna(titanic['Age'].median())
titanic['Cabin'] = titanic['Cabin'].fillna('Unknown')

# 高级插补
age_imputer = RandomForestRegressor()
known_age = titanic[titanic['Age'].notnull()]
unknown_age = titanic[titanic['Age'].isnull()]
age_imputer.fit(known_age[['Pclass','SibSp']], known_age['Age'])
titanic.loc[titanic['Age'].isnull(), 'Age'] = age_imputer.predict(unknown_age[['Pclass','SibSp']])

四、工具对比与选择建议

特性	R语言优势	Python优势
去重操作	dplyr语法简洁	pandas方法丰富
缺失值可视化	mice/missForest等专业包	seaborn/matplotlib集成度高
机器学习插补	caret集成方便	scikit-learn算法选择多
大数据处理	data.table效率高	Dask/Ray扩展性好

选择建议： 1. 学术研究、统计分析优先考虑R 2. 生产环境、深度学习项目优先Python 3. 混合使用：通过reticulate包在R中调用Python

五、最佳实践与注意事项

去重前务必确认业务规则：
- 保留第一条还是最后一条记录？
- 是否需要合并重复项的信息？
缺失值处理原则：
- 删除不超过5%缺失的列
- 连续变量优先用中位数而非均值填充
- 分类变量考虑”Unknown”类别
验证处理效果：
- 处理前后数据分布对比
- 建立基线模型评估影响
文档记录：
- 记录每个处理步骤的决策原因
- 保存原始数据和处理后数据的版本

结语

数据清洗是数据分析过程中最基础也最关键的环节。掌握R和Python在去重与缺失值处理上的多种方法，能够根据不同的数据特性和项目需求选择最适合的工具与技术路线。建议读者在实际工作中建立标准化的数据清洗流程，并通过自动化脚本提高处理效率。

注意：本文代码示例需要根据实际数据调整参数，完整案例代码可参考作者GitHub仓库。 “`

这篇文章共计约2500字，采用Markdown格式编写，包含： 1. 结构化的小标题体系 2. 代码块展示具体实现 3. 对比表格呈现工具差异 4. 实战案例演示完整流程 5. 最佳实践指导建议

需要扩展或调整任何部分可以随时告知。

如何用R语言和Python进行数据去重与缺失值处理

dplyr包方法

1.3 Python去重方法

pandas基础操作

高级去重技巧

二、缺失值处理技术

2.1 缺失值类型与识别

2.2 R语言缺失值处理

缺失值检测

处理方法

2.3 Python缺失值处理

缺失值检测

处理方法

三、实战案例对比

3.1 数据集说明

3.2 R语言完整流程

3.3 Python完整流程

四、工具对比与选择建议

五、最佳实践与注意事项

结语

相关阅读