Master上的Spark怎么安装

发布时间：2021-12-16 14:43:13 作者：iii
来源：亿速云阅读：234

# Master上的Spark怎么安装

Apache Spark作为当前最流行的大数据处理框架之一，其分布式计算能力广泛应用于数据分析、机器学习等领域。本文将详细介绍在Master节点上安装Spark的完整流程，涵盖环境准备、依赖安装、配置优化及验证测试等关键步骤。

---

## 一、环境准备

### 1. 系统要求
- **操作系统**：Linux（推荐Ubuntu 20.04/CentOS 7+）
- **Java版本**：JDK 8/11（Spark 3.x+需JDK 11+）
- **内存**：建议至少8GB（生产环境需更高）
- **Python**（可选）：3.6+（如需PySpark）

### 2. 安装依赖
```bash
# Ubuntu/Debian
sudo apt update
sudo apt install -y openjdk-11-jdk scala git python3-pip

# CentOS/RHEL
sudo yum install -y java-11-openjdk-devel scala git python3

3. 配置Java环境变量

编辑~/.bashrc或/etc/profile：

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64  # 路径根据实际调整
export PATH=$JAVA_HOME/bin:$PATH

执行source ~/.bashrc生效。

二、下载与安装Spark

1. 获取Spark安装包

从官网下载预编译版本（如Spark 3.5.0 with Hadoop 3.3）：

wget https://dlcdn.apache.org/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz
tar -xzvf spark-3.5.0-bin-hadoop3.tgz
sudo mv spark-3.5.0-bin-hadoop3 /opt/spark

2. 配置环境变量

追加至~/.bashrc：

export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
export PYSPARK_PYTHON=python3  # 指定Python解释器

执行source ~/.bashrc。

三、Spark基础配置

1. 修改配置文件

进入$SPARK_HOME/conf目录：

cp spark-env.sh.template spark-env.sh
cp slaves.template slaves

编辑spark-env.sh：

# 设置Master节点IP
export SPARK_MASTER_HOST=192.168.1.100
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=4       # Worker核心数
export SPARK_WORKER_MEMORY=8g     # 每个Worker内存

编辑slaves文件添加Worker节点：

worker1
worker2

2. 配置日志级别（可选）

修改log4j2.properties：

rootLogger.level = WARN

四、启动Spark集群

1. 启动Master服务

$SPARK_HOME/sbin/start-master.sh

访问http://<MASTER_IP>:8080查看Web UI。

2. 启动Worker节点

$SPARK_HOME/sbin/start-workers.sh

3. 验证集群状态

$SPARK_HOME/bin/spark-submit --master spark://192.168.1.100:7077 --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-examples_2.12-3.5.0.jar 10

五、高级配置（可选）

1. 集成HDFS

编辑core-site.xml和hdfs-site.xml至$SPARK_HOME/conf目录。

2. 启用历史服务器

$SPARK_HOME/sbin/start-history-server.sh

3. 配置资源管理器

YARN模式：设置HADOOP_CONF_DIR环境变量
Kubernetes模式：需部署Spark Operator

六、常见问题解决

端口冲突：修改spark-env.sh中的SPARK_MASTER_PORT
内存不足：调整spark.executor.memory参数
Java版本错误：通过update-alternatives --config java切换版本

七、总结

通过上述步骤，我们完成了Spark在Master节点上的安装与基础集群部署。实际生产环境中还需根据业务需求调整以下方面： - 安全配置（Kerberos/TLS） - 动态资源分配（spark.dynamicAllocation.enabled=true） - 监控集成（Prometheus + Grafana）

建议参考官方文档获取最新配置参数说明。 “`

注：本文假设为单Master多Worker架构，实际部署时可根据需要调整为高可用模式（ZooKeeper）。