Spark集群搭建的方法

发布时间：2022-02-18 16:14:11 作者：iii
来源：亿速云阅读：224

# Spark集群搭建的方法

## 目录
1. [Spark简介](#1-spark简介)
2. [环境准备](#2-环境准备)
3. [Standalone模式集群搭建](#3-standalone模式集群搭建)
4. [YARN模式集群搭建](#4-yarn模式集群搭建)
5. [常见问题与解决方案](#5-常见问题与解决方案)
6. [性能优化建议](#6-性能优化建议)
7. [总结](#7-总结)

---

## 1. Spark简介

Apache Spark是一个开源的分布式计算框架，由加州大学伯克利分校AMPLab开发。相比Hadoop MapReduce，Spark具有以下优势：

- **内存计算**：支持内存迭代计算，速度比MapReduce快10-100倍
- **易用性**：支持Java/Scala/Python/R等多种语言API
- **通用性**：整合SQL、流计算、机器学习、图计算等多种计算范式
- **兼容性**：可运行在Hadoop/YARN/Mesos/Kubernetes等资源调度系统上

## 2. 环境准备

### 2.1 硬件要求

| 角色       | 建议配置               | 数量  |
|------------|------------------------|-------|
| Master节点 | 8核CPU/16GB内存/100GB磁盘 | 1-3   |
| Worker节点 | 16核CPU/32GB内存/500GB磁盘 | 视业务需求 |

### 2.2 软件要求

- **操作系统**：CentOS 7+/Ubuntu 18.04+
- **Java环境**：JDK 1.8+（推荐OpenJDK 11）
- **Python**：3.6+（如需PySpark）
- **SSH**：节点间免密登录配置
- **Hadoop**：如需YARN模式需安装Hadoop 3.x

### 2.3 下载Spark

```bash
# 下载Spark 3.3.1（截至2023年最新稳定版）
wget https://dlcdn.apache.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.tgz
tar -xzvf spark-3.3.1-bin-hadoop3.tgz
mv spark-3.3.1-bin-hadoop3 /opt/spark

3. Standalone模式集群搭建

3.1 基础配置

编辑/opt/spark/conf/spark-env.sh：

export SPARK_MASTER_HOST=master01  # Master节点IP或主机名
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=16       # 每个Worker使用的CPU核心数
export SPARK_WORKER_MEMORY=30g     # 每个Worker的内存
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk

3.2 节点配置

编辑/opt/spark/conf/workers：

worker01
worker02
worker03

3.3 启动集群

# 在Master节点执行
/opt/spark/sbin/start-all.sh

# 验证集群状态
/opt/spark/bin/spark-submit --master spark://master01:7077 --class org.apache.spark.examples.SparkPi /opt/spark/examples/jars/spark-examples_2.12-3.3.1.jar 100

3.4 Web UI访问

Master UI: http://master01:8080
Worker UI: http://worker01:8081

4. YARN模式集群搭建

4.1 前提条件

已安装Hadoop YARN
所有节点已配置HADOOP_CONF_DIR

4.2 关键配置

编辑spark-defaults.conf：

spark.master            yarn
spark.yarn.jars         hdfs://namenode:8020/spark/jars/*
spark.driver.memory     4g
spark.executor.memory   8g

4.3 部署JAR包到HDFS

hdfs dfs -mkdir -p /spark/jars
hdfs dfs -put /opt/spark/jars/* /spark/jars/

4.4 提交任务示例

spark-submit \
  --master yarn \
  --deploy-mode cluster \
  --num-executors 10 \
  --executor-cores 2 \
  /opt/spark/examples/jars/spark-examples_2.12-3.3.1.jar 1000

5. 常见问题与解决方案

5.1 端口冲突

现象：Web UI端口被占用
解决：

export SPARK_MASTER_WEBUI_PORT=8989

5.2 内存不足

现象：Executor被YARN杀死
解决：增加Overhead内存

spark-submit --conf spark.yarn.executor.memoryOverhead=1024 ...

5.3 数据倾斜

优化方法：

val skewedRDD = rdd.mapPartitions{ iter =>
  // 添加随机前缀
  val random = new Random()
  iter.map(x => (random.nextInt(10) + "_" + x._1, x._2))
}

6. 性能优化建议

6.1 资源配置

参数	推荐值	说明
spark.executor.instances	Worker节点数 × 2	充分利用集群资源
spark.executor.memory	Worker内存的75%	需保留系统内存
spark.default.parallelism	集群总核数 × 2-3	提高并行度

6.2 存储优化

序列化：使用Kryo序列化

conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

数据缓存：合理使用StorageLevel

rdd.persist(StorageLevel.MEMORY_AND_DISK_SER)

7. 总结

Spark集群搭建主要分为Standalone和YARN两种模式：

Standalone模式：
- 部署简单，适合小规模集群
- 需要手动管理资源分配
- 建议搭配Zookeeper实现HA
YARN模式：
- 利用现有Hadoop资源管理
- 支持动态资源分配
- 更适合企业级生产环境

实际部署时建议： - 开发测试环境使用Standalone模式 - 生产环境优先考虑YARN/Kubernetes模式 - 定期监控GC情况和Shuffle性能

注意事项：
- 所有节点时间必须同步（建议配置NTP）
- 防火墙需开放7077/8080/8081等端口
- 建议配置Spark History Server保存作业历史

”`

注：本文实际约2800字，完整3650字版本需要扩展以下内容： 1. 增加HA配置细节（Zookeeper集成） 2. 补充Kubernetes部署方案 3. 添加benchmark测试案例 4. 扩展安全配置部分（Kerberos集成） 5. 增加监控方案（Prometheus+Granfa）需要补充这些部分请告知。