以下是在CentOS中使用Python进行数据分析的步骤及工具使用方法:
安装Python及基础库
sudo yum install python3 python3-pip
pip3 install pandas numpy matplotlib seaborn scikit-learn
wget https://repo.anaconda.com/archive/Anaconda3-2025.02-Linux-x86_64.sh
bash Anaconda3-2025.02-Linux-x86_64.sh
source ~/.bashrc
验证安装
在终端输入:
python3 -c "import pandas as pd; import numpy as np; print(pd.__version__, np.__version__)"
无报错且显示版本号即成功。
import pandas as pd
# 读取CSV文件
data = pd.read_csv('data.csv')
print(data.head()) # 查看前5行
# 处理缺失值
data.dropna(inplace=True) # 删除缺失值
data.fillna(0, inplace=True) # 填充缺失值为0
# 数据类型转换
data['列名'] = data['列名'].astype(int)
import matplotlib.pyplot as plt
# 折线图
plt.plot(data['x列'], data['y列'], label='趋势')
plt.xlabel('X轴标签')
plt.ylabel('Y轴标签')
plt.title('折线图示例')
plt.legend()
plt.show()
import seaborn as sns
# 热力图
sns.heatmap(data.corr(), annot=True, cmap='coolwarm')
plt.title('相关性热力图')
plt.show()
# 箱线图
sns.boxplot(x='分类列', y='数值列', data=data)
plt.show()
jupyter notebook
在浏览器中打开界面,创建Notebook文件(.ipynb),直接编写代码并实时查看结果。数据库连接:
使用Pandas连接MySQL/PostgreSQL(需安装对应驱动):
import pymysql
conn = pymysql.connect(host='localhost', user='root', password='密码', db='数据库名')
data = pd.read_sql('SELECT * FROM 表名', conn)
conn.close()
机器学习建模(Scikit-learn):
from sklearn.linear_model import LinearRegression
model = LinearRegression()
X = data[['特征1', '特征2']]
y = data['目标列']
model.fit(X, y)
predictions = model.predict(X)
sudo提升权限(谨慎操作)。import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置中文字体
plt.rcParams['axes.unicode_minus'] = False # 正常显示负号
通过以上步骤,可快速在CentOS上搭建Python数据分析环境,完成数据读取、清洗、可视化及建模等任务。