如何快速安装Linux Spark

发布时间：2025-04-22 19:16:13 作者：小樊
来源：亿速云阅读：138

在Linux系统上快速安装Apache Spark的步骤如下：

准备工作

安装JDK：确保系统上已经安装了JDK，并且配置了正确的环境变量。
安装Hadoop：如果使用Standalone模式，需要提前安装Hadoop。

下载Spark

访问Spark官网，下载与你的Hadoop版本兼容的Spark预编译包。例如，如果你使用的是Hadoop 3.x，可以下载Spark 3.5.x版本。

解压Spark

将下载的Spark安装包上传到Linux服务器。

在指定目录解压安装包，例如：

tar -zxvf spark-3.5.2-bin-hadoop3-scala2.13.tgz -C /opt/module/

重命名解压后的目录：

mv spark-3.5.2-bin-hadoop3-scala2.13 spark-3.5.2

配置环境变量

编辑/etc/profile文件，添加以下内容：

export JAVA_HOME=/opt/module/jdk-1.8.361
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/opt/module/hadoop-3.3.6
export PATH=$PATH:$HADOOP_HOME/sbin
export PATH=$PATH:$HADOOP_HOME/bin
export SPARK_HOME=/opt/module/spark-3.5.2

使环境变量生效：
```
source /etc/profile
```

启动Spark集群

在Master节点上，进入Spark的sbin目录，执行以下命令启动集群：
```
./start-all.sh
```
在Master节点上，打开浏览器，访问http://<Master-IP>:8080，查看Spark集群的状态。

验证安装

在Master节点上，输入以下命令启动spark-shell，进入交互模式：
```
./bin/spark-shell
```

提交一个简单的Spark应用程序进行测试：

./bin/spark-submit --master spark://<Master-IP>:7077 test.py

注意事项

确保所有节点的时间同步，以避免因时间不同步导致的认证问题。
如果使用Standalone模式，需要在所有节点上配置slaves文件，指定各个Worker节点的主机名。

通过以上步骤，你可以在Linux系统上快速安装并启动Spark集群。根据你的具体需求，可以选择不同的运行模式进行配置。