Linux Spark如何快速安装

发布时间：2025-04-02 04:52:17 作者：小樊
来源：亿速云阅读：117

在Linux上快速安装Apache Spark的步骤如下：

1. 安装Java环境

首先，确保你的系统上已经安装了Java运行时环境（JRE）。你可以通过以下命令检查Java是否已安装：

java -version

如果没有安装Java，可以使用以下命令进行安装：

sudo apt update
sudo apt install openjdk-11-jre

2. 下载Spark

访问Apache Spark官网，选择适合你Hadoop版本的Spark安装包进行下载。例如，如果你使用的是Hadoop 2.6.x，可以下载spark-2.2.0-bin-hadoop2.6.tgz。

3. 解压Spark

使用以下命令解压下载的Spark安装包：

tar -xvf spark-<version>-bin-hadoop<version>.tgz

例如：

tar -xvf spark-2.2.0-bin-hadoop2.6.tgz

4. 配置环境变量

为了方便使用Spark，需要将其添加到系统的环境变量中。编辑~/.bashrc文件，添加以下内容：

export SPARK_HOME=/path/to/your/spark
export PATH=$SPARK_HOME/bin:$PATH

例如：

export SPARK_HOME=/usr/local/spark-2.2.0-bin-hadoop2.6
export PATH=$SPARK_HOME/bin:$PATH

然后，使环境变量生效：

source ~/.bashrc

5. 配置Spark

进入Spark的conf目录，复制spark-env.sh.template文件并重命名为spark-env.sh，然后编辑该文件，添加以下内容：

export JAVA_HOME=/usr/local/java/jdk1.8.0_161
export SCALA_HOME=/usr/local/scala
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=3
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=5G
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_EXECUTOR_CORES=1
export SPARK_EXECUTOR_MEMORY=1G
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native

6. 配置Slaves

复制slaves.template文件并重命名为slaves，删除其中的localhost，并添加集群中其他服务器的IP地址或主机名，每行一个。

7. 启动Spark集群

进入Spark的sbin目录，执行以下命令启动Spark集群：

./start-all.sh

8. 验证安装

在主节点上使用以下命令查看启动情况：

jps

你应该能看到Master和Worker进程。

9. 运行示例程序

进入Spark的bin目录，执行以下命令启动spark-shell：

./spark-shell

在spark-shell中，你可以运行一些示例程序来验证安装是否成功。例如，运行spark-submit提交一个示例程序：

./spark-submit --class org.apache.spark.examples.SparkPi --master spark://127.0.0.1:7077 /path/to/spark/examples/jars/spark-examples_2.11-2.2.0.jar

如果一切正常，你应该会看到类似以下的输出：

Pi is roughly 3.14716