Ubuntu 下常用的 Python 数据分析库
在 Ubuntu 环境中,Python 数据分析生态通常覆盖数据处理、统计计算、可视化、机器学习、大数据处理与数据库交互等场景。下面按用途梳理常用库,并给出在 Ubuntu 上的简要安装与使用要点。
常用库分类与示例
| 类别 | 代表库 | 主要用途 | 安装示例 |
|---|---|---|---|
| 数值计算 | NumPy | ndarray 多维数组、向量化运算、线性代数 | pip3 install numpy |
| 数据处理与分析 | Pandas | DataFrame 数据清洗、转换、分组聚合、透视表 | pip3 install pandas |
| 科学计算 | SciPy | 优化、积分、插值、稀疏矩阵、统计 | pip3 install scipy |
| 可视化 | Matplotlib | 基础绘图(折线、柱状、散点、子图等) | pip3 install matplotlib |
| 可视化 | Seaborn | 基于 Matplotlib 的高级统计图形(分布、关系、分类) | pip3 install seaborn |
| 机器学习与建模 | Scikit-learn | 分类、回归、聚类、降维、模型选择与评估 | pip3 install scikit-learn |
| 大数据与并行 | Dask | 并行/延迟计算,处理超内存数据集(Dask DataFrame/Array) | pip3 install “dask[complete]” |
| 分布式计算 | PySpark | 基于 Apache Spark 的分布式数据处理 | pip3 install pyspark |
| 交互式开发 | Jupyter Notebook | 交互式笔记本,代码/可视化/文档一体化 | pip3 install notebook |
| 数据库与 SQL | sqlite3(内置)、SQLAlchemy | 轻量数据库、ORM 与数据库连接 | sudo apt install sqlite3 |
| 文本处理 | re(内置) | 正则表达式,清洗非结构化文本 | — |
| 以上库在 Ubuntu 上均可直接使用 pip 安装,搭配虚拟环境更佳。 |
快速上手示例
选型建议