spark2.0集群环境的安装步骤

发布时间：2021-08-12 14:37:41 作者：chen
来源：亿速云阅读：209

# Spark 2.0集群环境的安装步骤

## 一、环境准备

### 1. 硬件要求
- 至少3台服务器（1个Master节点，2个Worker节点）
- 每台机器建议配置：
  - CPU: 4核以上
  - 内存: 8GB以上
  - 磁盘: 50GB以上可用空间

### 2. 软件要求
- 操作系统: Linux（推荐CentOS 7/Ubuntu 16.04+）
- Java: JDK 1.8+
- Scala: 2.11.x（与Spark 2.0兼容版本）
- Hadoop: 2.7+（可选，如需HDFS支持）

## 二、基础环境配置

### 1. 安装JDK
```bash
# 所有节点执行
sudo yum install java-1.8.0-openjdk-devel  # CentOS
# 或
sudo apt-get install openjdk-8-jdk          # Ubuntu

# 验证安装
java -version

2. 配置SSH免密登录

# 在Master节点执行
ssh-keygen -t rsa
ssh-copy-id worker1
ssh-copy-id worker2

3. 修改主机名和hosts文件

# 所有节点修改/etc/hosts
192.168.1.100 master
192.168.1.101 worker1
192.168.1.102 worker2

三、Spark集群安装

1. 下载Spark安装包

wget https://archive.apache.org/dist/spark/spark-2.0.0/spark-2.0.0-bin-hadoop2.7.tgz
tar -zxvf spark-2.0.0-bin-hadoop2.7.tgz
mv spark-2.0.0-bin-hadoop2.7 /opt/spark

2. 配置环境变量

# 所有节点修改~/.bashrc
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
source ~/.bashrc

3. 修改Spark配置文件

cd /opt/spark/conf
cp spark-env.sh.template spark-env.sh
cp slaves.template slaves

编辑spark-env.sh：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=2
export SPARK_WORKER_MEMORY=4g

编辑slaves文件：

worker1
worker2

四、启动Spark集群

1. 启动Master节点

# 在Master节点执行
$SPARK_HOME/sbin/start-master.sh

2. 启动Worker节点

# 在Master节点执行
$SPARK_HOME/sbin/start-slaves.sh

3. 验证集群状态

访问Web UI：http://master:8080
应看到2个Worker节点注册成功

五、测试Spark集群

1. 运行Spark Shell

spark-shell --master spark://master:7077

2. 执行测试代码

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)
distData.reduce(_ + _)

3. 提交Spark作业

spark-submit --master spark://master:7077 \
--class org.apache.spark.examples.SparkPi \
$SPARK_HOME/examples/jars/spark-examples_2.11-2.0.0.jar 10

六、常见问题解决

Worker节点无法连接Master

检查防火墙设置

sudo systemctl stop firewalld  # CentOS
sudo ufw disable              # Ubuntu

验证网络连通性

ping master

内存不足错误
- 修改spark-env.sh中的SPARK_WORKER_MEMORY值
- 增加JVM参数：
```
export SPARK_DAEMON_MEMORY=2g
```
端口冲突
- 修改默认端口：
```
export SPARK_MASTER_WEBUI_PORT=8081
```

七、集群管理命令

命令	说明
`start-master.sh`	启动Master节点
`start-slaves.sh`	启动所有Worker节点
`stop-master.sh`	停止Master节点
`stop-slaves.sh`	停止所有Worker节点
`spark-daemon.sh`	启停单个守护进程

八、后续优化建议

配置Spark History Server
集成YARN/Mesos资源管理器
配置监控告警系统
调整内存和并行度参数

注意：本文档基于Spark 2.0.0版本编写，其他版本可能需要调整配置参数。生产环境建议使用最新稳定版。 “`

该文档包含约1000字，采用Markdown格式编写，包含代码块、表格、列表等元素，适合作为技术文档使用。实际部署时请根据具体环境调整参数。