如何利用Pandas进行机器学习数据准备

发布时间：2026-01-27 16:02:19 作者：小樊
来源：亿速云阅读：89

使用Pandas进行机器学习数据准备主要包括以下几个步骤：

1. 数据加载

首先，你需要加载数据。Pandas提供了多种读取数据的方法，如read_csv(), read_excel(), read_sql()等。

import pandas as pd

# 加载CSV文件
df = pd.read_csv('data.csv')

# 加载Excel文件
df = pd.read_excel('data.xlsx')

# 加载SQL查询结果
df = pd.read_sql('SELECT * FROM table_name', connection)

2. 数据探索

在开始数据准备之前，了解数据的分布和特征是很重要的。

# 查看数据的前几行
print(df.head())

# 查看数据的统计摘要
print(df.describe())

# 查看缺失值
print(df.isnull().sum())

# 查看数据类型
print(df.dtypes)

3. 数据清洗

数据清洗包括处理缺失值、异常值、重复值等。

处理缺失值

# 删除包含缺失值的行
df = df.dropna()

# 填充缺失值
df = df.fillna(method='ffill')  # 前向填充
df = df.fillna(method='bfill')  # 后向填充
df = df.fillna(df.mean())       # 用均值填充数值型列

处理异常值

# 使用Z-score方法检测异常值
from scipy import stats

z_scores = np.abs(stats.zscore(df.select_dtypes(include=[np.number])))
threshold = 3
df = df[(z_scores < threshold).all(axis=1)]

处理重复值

# 删除重复行
df = df.drop_duplicates()

4. 特征工程

特征工程包括创建新特征、选择重要特征、编码分类变量等。

创建新特征

# 创建新列
df['new_column'] = df['column1'] + df['column2']

编码分类变量

# 使用独热编码
df = pd.get_dummies(df, columns=['categorical_column'])

# 使用标签编码
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
df['categorical_column'] = label_encoder.fit_transform(df['categorical_column'])

5. 数据分割

将数据分割为训练集和测试集。

from sklearn.model_selection import train_test_split

X = df.drop('target_column', axis=1)
y = df['target_column']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

6. 数据标准化/归一化

对特征进行标准化或归一化处理。

from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 归一化
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

7. 数据保存

最后，将准备好的数据保存到文件中。

# 保存为CSV文件
df.to_csv('prepared_data.csv', index=False)

# 保存为Excel文件
df.to_excel('prepared_data.xlsx', index=False)

通过以上步骤，你可以使用Pandas进行机器学习的数据准备工作。每个步骤都可能需要根据具体的数据和任务进行调整。