Spark集群怎么部署

发布时间：2021-08-25 10:01:13 作者：chen
来源：亿速云阅读：171

# Spark集群怎么部署

## 一、Spark集群概述

Apache Spark是一个快速、通用的大规模数据处理引擎，以其内存计算和DAG执行引擎著称。Spark集群部署是发挥其分布式计算能力的关键环节，通常由以下核心组件构成：

1. **Driver Program**：运行用户编写的main()方法，负责将用户程序转换为任务
2. **Cluster Manager**：负责资源调度（如YARN、Mesos或Standalone）
3. **Worker Node**：执行具体计算任务的节点
4. **Executor**：Worker节点上的进程，负责执行具体任务并存储数据

## 二、部署前准备

### 2.1 硬件要求

| 组件          | 推荐配置                     | 说明                          |
|---------------|-----------------------------|-----------------------------|
| Master节点    | 16核CPU/32GB内存/500GB存储   | 需高可用配置                  |
| Worker节点    | 32核CPU/64GB内存/1TB SSD     | 根据数据量可横向扩展          |
| 网络          | 10Gbps以太网                | 节点间低延迟通信至关重要      |

### 2.2 软件依赖

- **Java环境**：JDK 8/11（推荐OpenJDK）
- **Scala**（可选）：2.12.x版本
- **Python**（如需PySpark）：3.6+
- **SSH免密登录**：节点间需要配置

```bash
# 示例：配置SSH免密登录
ssh-keygen -t rsa
ssh-copy-id user@worker1

2.3 系统配置优化

文件描述符限制：

echo "* soft nofile 65535" >> /etc/security/limits.conf
echo "* hard nofile 65535" >> /etc/security/limits.conf

关闭交换分区：

swapoff -a
sed -i '/swap/s/^/#/' /etc/fstab

时间同步：

yum install -y ntp
systemctl enable ntpd

三、Standalone模式部署

3.1 安装步骤

下载Spark二进制包：

wget https://archive.apache.org/dist/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.tgz
tar -xzf spark-3.3.1-bin-hadoop3.tgz -C /opt
ln -s /opt/spark-3.3.1-bin-hadoop3 /opt/spark

配置环境变量：

echo 'export SPARK_HOME=/opt/spark' >> /etc/profile
echo 'export PATH=$PATH:$SPARK_HOME/bin' >> /etc/profile
source /etc/profile

关键配置文件：

conf/spark-env.sh（需复制模板）：

export SPARK_MASTER_HOST=master-ip
export SPARK_WORKER_CORES=16
export SPARK_WORKER_MEMORY=32g

conf/workers（添加所有Worker节点）：
```
worker1
worker2
worker3
```

3.2 集群启动与管理

启动集群：
```
$SPARK_HOME/sbin/start-all.sh
```

验证状态：

Web UI：http://master-ip:8080

命令行：


spark-submit --master spark://master-ip:7077 --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-examples_2.12-3.3.1.jar 100

停止集群：
```
$SPARK_HOME/sbin/stop-all.sh
```

四、YARN模式部署

4.1 集成Hadoop YARN

前置条件：
- 已部署Hadoop集群（HDFS+YARN）
- 所有节点配置相同Spark版本

配置调整：

conf/spark-defaults.conf：


spark.master            yarn
spark.eventLog.enabled  true
spark.eventLog.dir      hdfs://namenode:8020/spark-logs

资源分配策略：

spark-submit --master yarn \
 --executor-memory 8G \
 --executor-cores 4 \
 --num-executors 10 \
 --conf spark.dynamicAllocation.enabled=true \
 --conf spark.shuffle.service.enabled=true \
 your_application.jar

4.2 部署验证

查看YARN应用：
```
yarn application -list
```
日志排查：
```
yarn logs -applicationId <app_id>
```

五、Kubernetes模式部署（Spark 3.0+）

5.1 容器化部署流程

构建Spark镜像：

$SPARK_HOME/bin/docker-image-tool.sh -r myrepo -t v3.3.1 build

提交K8s任务：

spark-submit \
 --master k8s://https://k8s-apiserver:6443 \
 --deploy-mode cluster \
 --name spark-pi \
 --conf spark.executor.instances=5 \
 --conf spark.kubernetes.container.image=myrepo/spark:v3.3.1 \
 local:///opt/spark/examples/jars/spark-examples_2.12-3.3.1.jar

5.2 关键配置项

# 示例：K8s Operator配置
apiVersion: "sparkoperator.k8s.io/v1beta2"
kind: SparkApplication
metadata:
  name: spark-sql-job
spec:
  mode: cluster
  image: "gcr.io/spark-operator/spark:v3.3.1"
  sparkVersion: "3.3.1"
  restartPolicy:
    type: OnFailure

六、高可用配置

6.1 Master高可用

基于ZooKeeper的方案：

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=zk1:2181,zk2:2181 -Dspark.deploy.zookeeper.dir=/spark"

故障转移流程：
- 主Master挂掉后，ZooKeeper选举新Master
- Worker和新Master重新注册
- 正在运行的作业需要客户端重新提交

6.2 数据持久化

检查点配置：

spark.sparkContext.setCheckpointDir("hdfs://namenode:8020/checkpoints")

事件日志恢复：

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs:///spark-events
spark.history.fs.logDirectory    hdfs:///spark-events

七、性能调优指南

7.1 核心参数优化

参数	推荐值	说明
spark.executor.memory	Worker内存的75%	需保留部分内存给OS和其他进程
spark.memory.fraction	0.6-0.8	控制执行和存储的内存比例
spark.default.parallelism	总核数的2-3倍	影响shuffle分区数
spark.sql.shuffle.partitions	200-1000	SQL操作的分区数

7.2 数据倾斜处理

// 方法1：加盐处理
val saltedRDD = rdd.map(x => (x._1 + "_" + Random.nextInt(10), x._2))

// 方法2：两阶段聚合
val stage1 = rdd.map(kv => ((kv._1, Random.nextInt(100)), kv._2))
  .reduceByKey(_ + _)
  .map(kv => (kv._1._1, kv._2))
val result = stage1.reduceByKey(_ + _)

八、监控与维护

8.1 监控方案

内置监控：
- Spark UI（4040端口）
- History Server（18080端口）

集成Prometheus：

spark.metrics.conf.*.sink.prometheusServlet.class=org.apache.spark.metrics.sink.PrometheusServlet

8.2 常见问题排查

OOM错误：
- 增加executor内存
- 减少spark.memory.fraction
- 优化数据分区

连接超时：

spark.network.timeout 300s
spark.executor.heartbeatInterval 30s

九、安全配置

认证授权：
- 启用Kerberos（需配置spark.kerberos.keytab）
- 集成Ranger/Sentry

网络加密：

spark.ssl.enabled true
spark.ssl.keyPassword changeme

数据加密：

spark.io.encryption.enabled true
spark.io.encryption.keySizeBits 256

十、版本升级策略

滚动升级步骤：
1. 先升级Driver节点
2. 逐个升级Worker节点
3. 验证兼容性后升级Cluster Manager
降级预案：
- 备份配置文件和历史日志
- 准备旧版本二进制包

最佳实践建议：生产环境推荐使用YARN或K8s模式，配合资源队列管理。开发环境可使用Standalone模式快速部署。定期检查Spark最新版本的安全公告，及时修补漏洞。 “`

注：本文实际约3400字（含代码和配置示例），涵盖了从基础部署到高级配置的全流程。根据实际环境需要，部分参数需调整验证。