您好,登录后才能下订单哦!
# Master上的Spark怎么安装
Apache Spark作为当前最流行的大数据处理框架之一,其分布式计算能力广泛应用于数据分析、机器学习等领域。本文将详细介绍在Master节点上安装Spark的完整流程,涵盖环境准备、依赖安装、配置优化及验证测试等关键步骤。
---
## 一、环境准备
### 1. 系统要求
- **操作系统**:Linux(推荐Ubuntu 20.04/CentOS 7+)
- **Java版本**:JDK 8/11(Spark 3.x+需JDK 11+)
- **内存**:建议至少8GB(生产环境需更高)
- **Python**(可选):3.6+(如需PySpark)
### 2. 安装依赖
```bash
# Ubuntu/Debian
sudo apt update
sudo apt install -y openjdk-11-jdk scala git python3-pip
# CentOS/RHEL
sudo yum install -y java-11-openjdk-devel scala git python3
编辑~/.bashrc
或/etc/profile
:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 # 路径根据实际调整
export PATH=$JAVA_HOME/bin:$PATH
执行source ~/.bashrc
生效。
从官网下载预编译版本(如Spark 3.5.0 with Hadoop 3.3):
wget https://dlcdn.apache.org/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz
tar -xzvf spark-3.5.0-bin-hadoop3.tgz
sudo mv spark-3.5.0-bin-hadoop3 /opt/spark
追加至~/.bashrc
:
export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
export PYSPARK_PYTHON=python3 # 指定Python解释器
执行source ~/.bashrc
。
进入$SPARK_HOME/conf
目录:
cp spark-env.sh.template spark-env.sh
cp slaves.template slaves
编辑spark-env.sh
:
# 设置Master节点IP
export SPARK_MASTER_HOST=192.168.1.100
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=4 # Worker核心数
export SPARK_WORKER_MEMORY=8g # 每个Worker内存
编辑slaves
文件添加Worker节点:
worker1
worker2
修改log4j2.properties
:
rootLogger.level = WARN
$SPARK_HOME/sbin/start-master.sh
访问http://<MASTER_IP>:8080
查看Web UI。
$SPARK_HOME/sbin/start-workers.sh
$SPARK_HOME/bin/spark-submit --master spark://192.168.1.100:7077 --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-examples_2.12-3.5.0.jar 10
编辑core-site.xml
和hdfs-site.xml
至$SPARK_HOME/conf
目录。
$SPARK_HOME/sbin/start-history-server.sh
HADOOP_CONF_DIR
环境变量spark-env.sh
中的SPARK_MASTER_PORT
spark.executor.memory
参数update-alternatives --config java
切换版本通过上述步骤,我们完成了Spark在Master节点上的安装与基础集群部署。实际生产环境中还需根据业务需求调整以下方面:
- 安全配置(Kerberos/TLS)
- 动态资源分配(spark.dynamicAllocation.enabled=true
)
- 监控集成(Prometheus + Grafana)
建议参考官方文档获取最新配置参数说明。 “`
注:本文假设为单Master多Worker架构,实际部署时可根据需要调整为高可用模式(ZooKeeper)。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。