一键式Linux Spark安装教程

发布时间：2025-03-12 12:47:13 作者：小樊
来源：亿速云阅读：150

在Linux上安装Spark可以分为几个步骤，以下是一个详细的教程：

安装Java环境

首先，你需要安装Java运行时环境。可以通过以下命令来检测Java是否已安装：

java -version

如果没有安装Java，请执行以下命令来安装OpenJDK 11：

sudo apt update
sudo apt install openjdk-11-jre

下载Spark

访问Apache Spark官网，下载你需要的Spark版本。例如，下载Spark 2.4.4版本：

wget https://archive.apache.org/dist/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz

解压Spark

使用以下命令解压Spark文件：

tar -xvf spark-2.4.4-bin-hadoop2.7.tgz

配置环境变量

为了让系统识别Spark，你需要将其添加到环境变量中。首先，打开文件：

nano ~/.bashrc

将以下代码块添加到文件末尾：

export SPARK_HOME=/path/to/spark-2.4.4-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH

保存并退出。接下来，让环境变量生效：

source ~/.bashrc

启动Spark

现在你可以启动Spark了。输入以下命令以打开Spark的交互式Shell：

spark-shell

运行示例程序

在Spark shell中，可以运行以下示例程序：

val data = Seq(1, 2, 3, 4, 5)
val rdd = spark.sparkContext.parallelize(data)
val result = rdd.reduce(_ + _)
println(s"The sum is: $result")

启动集群（可选）

如果你需要启动一个Spark集群，可以按照以下步骤进行：

配置环境变量：

编辑spark-env.sh文件，设置以下变量：

export JAVA_HOME=/usr/local/java/jdk1.8.0_144
export SCALA_HOME=/usr/local/scala-2.11.0
export HADOOP_HOME=/usr/local/hadoop-2.6.0
export HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0/etc/hadoop
export SPARK_MASTER_IP=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8099
export SPARK_WORKER_CORES=3
export SPARK_WORKER_MEMORY=2g
export SPARK_WORKER_PORT=7078
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_WORKER_INSTANCES=1

配置slaves：

复制slaves.template文件为slaves，并修改其中的localhost为其他节点的IP地址或主机名。

启动集群：

在主节点上执行以下命令启动集群：

cd /path/to/spark-2.4.4-bin-hadoop2.7/sbin
./start-master.sh
./start-slaves.sh

查看启动情况：

在主节点上使用以下命令查看启动情况：
```
jps
```
打开Spark Web UI：http://127.0.0.1:8099