如何在Linux上安装特定版本的Spark

发布时间：2025-04-02 03:44:01 作者：小樊
来源：亿速云阅读：132

在Linux上安装特定版本的Apache Spark可以通过以下步骤完成。以下是一个基本的指南，假设你已经安装了Java和Scala。

例如，如果你想下载Spark 3.1.2版本，可以使用以下命令：

wget https://www.apache.org/dyn/closer.cgi/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

使用tar命令解压下载的文件：

tar -xzf spark-3.1.2-bin-hadoop3.2.tgz -C /opt

这会将Spark解压到/opt目录下。

为了方便使用Spark，你可以配置一些环境变量。编辑你的~/.bashrc或~/.bash_profile文件，添加以下内容：

export SPARK_HOME=/opt/spark-3.1.2-bin-hadoop3.2
export PATH=$PATH:$SPARK_HOME/bin

然后，使环境变量生效：

source ~/.bashrc

你可以通过运行Spark的spark-shell来验证安装是否成功：

spark-shell

如果一切正常，你应该会看到Spark的启动信息和一个Scala REPL（Read-Eval-Print Loop）界面。

如果你需要进一步配置Spark，可以编辑$SPARK_HOME/conf/spark-defaults.conf文件。例如，你可以设置Spark的主目录、日志级别等。

如果你需要启动一个Spark集群，可以使用start-all.sh脚本（适用于Spark 2.x）或start-master.sh和start-worker.sh脚本（适用于Spark 3.x）。

例如，启动一个单节点的Spark集群：

$SPARK_HOME/sbin/start-master.sh
$SPARK_HOME/sbin/start-worker.sh spark://<master-hostname>:7077

请将<master-hostname>替换为你的主机名或IP地址。

通过以上步骤，你应该能够在Linux上成功安装并运行特定版本的Apache Spark。

相关阅读