Python数据分析中数据预处理怎么做

发布时间：2025-03-31 19:07:38 作者：小樊
来源：亿速云阅读：153

在Python数据分析中，数据预处理是一个非常重要的步骤，它涉及到数据的清洗、转换和准备，以便于后续的分析和建模。以下是一些常见的数据预处理步骤：

导入必要的库：

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder

加载数据：

# 假设数据存储在CSV文件中
df = pd.read_csv('data.csv')

查看数据：

print(df.head())  # 查看前几行数据
print(df.info())  # 查看数据类型和缺失值情况

处理缺失值：

删除含有缺失值的行或列：

df.dropna(inplace=True)  # 删除含有缺失值的行
df.dropna(axis=1, inplace=True)  # 删除含有缺失值的列

填充缺失值：

df.fillna(df.mean(), inplace=True)  # 用均值填充数值型缺失值
df.fillna('Unknown', inplace=True)  # 用'Unknown'填充类别型缺失值

数据类型转换：

df['column_name'] = df['column_name'].astype('float')  # 将列转换为浮点数类型
df['column_name'] = df['column_name'].astype('int')  # 将列转换为整数类型

特征编码：

对于类别型特征，可以使用Label Encoding或One-Hot Encoding：

label_encoder = LabelEncoder()
df['category_column'] = label_encoder.fit_transform(df['category_column'])

# 或者使用One-Hot Encoding
one_hot_encoder = pd.get_dummies(df['category_column'])
df = pd.concat([df, one_hot_encoder], axis=1)

特征缩放：

标准化（Standardization）：

scaler = StandardScaler()
df[['numerical_column']] = scaler.fit_transform(df[['numerical_column']])

归一化（Normalization）：

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df[['numerical_column']] = scaler.fit_transform(df[['numerical_column']])

特征选择：

使用相关性矩阵、特征重要性等方法选择重要特征：

correlation_matrix = df.corr()
important_features = correlation_matrix[correlation_matrix['target_column'] > 0.5]['target_column'].index.tolist()

数据分割：

将数据分为训练集和测试集：

X = df.drop('target_column', axis=1)
y = df['target_column']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

数据保存：

df.to_csv('processed_data.csv', index=False)

这些步骤可以根据具体的数据集和分析需求进行调整。数据预处理是一个迭代的过程，可能需要多次尝试和调整才能得到最佳的结果。

Python数据分析中数据预处理怎么做

相关阅读