sudo apt update && sudo apt install python3 python3-pip # 安装Python和pip
pip3 install pandas numpy matplotlib seaborn scikit-learn jupyterlab # 核心数据分析库
pip3 install virtualenv
,避免依赖冲突。jupyter lab
启动)。数据获取与预处理
pd.read_csv('data.csv')
(支持Excel、SQL等格式)。data.fillna(value)
或data.dropna()
。data['列名'] = data['列名'].astype('类型')
。探索性数据分析(EDA)
data.describe()
(均值、标准差等)。plt.bar()
/plt.plot()
(Matplotlib)。sns.heatmap(data.corr(), annot=True)
(Seaborn,分析相关性)。sns.boxplot(x='类别', y='数值', data=data)
(异常值检测)。建模与预测
RandomForestClassifier
)用于预测离散变量(如用户流失)。LinearRegression
)用于预测连续变量(如销售额)。from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
model = RandomForestClassifier()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
print(accuracy_score(y_test, predictions)) # 评估准确率
结果展示
Dask
库替代Pandas,支持并行计算。cron
定时任务。Flask
或FastAPI
将分析模型封装为API,供其他系统调用。通过以上步骤,可在Debian系统上高效完成数据清洗、分析与可视化,满足业务需求。