数据清洗是数据预处理的一个重要步骤,可以使用Python中的pandas库来进行数据清洗。下面是一个简单的数据清洗示例:
import pandas as pd
data = pd.read_csv('data.csv')
print(data.head())
print(data.isnull().sum())
删除缺失值:
data.dropna(inplace=True)
填充缺失值:
data.fillna(data.mean(), inplace=True)
data.drop_duplicates(inplace=True)
data['column'] = data['column'].astype(int)
data = data[(data['column'] >= min_value) & (data['column'] <= max_value)]
data.to_csv('cleaned_data.csv', index=False)
通过以上步骤,可以使用Python进行数据清洗,使数据更加准确和可靠。