如何安装spark依赖yarn执行

发布时间：2021-11-26 10:58:42 作者：小新
来源：亿速云阅读：301

如何安装Spark依赖Yarn执行

Apache Spark是一个快速、通用的集群计算系统，广泛应用于大数据处理。Spark可以与多种资源管理器集成，其中Yarn（Yet Another Resource Negotiator）是Hadoop生态系统中的一个重要组件，负责资源管理和作业调度。本文将详细介绍如何安装Spark并配置其依赖Yarn执行。

1. 环境准备

在开始安装之前，确保你的系统满足以下要求：

操作系统：Linux（如Ubuntu、CentOS等）或macOS。
Java：Spark需要Java 8或更高版本。可以通过以下命令检查Java版本：
```
java -version
```
如果未安装Java，可以通过以下命令安装：
```
sudo apt-get install openjdk-8-jdk
```
Hadoop：Yarn是Hadoop的一部分，因此需要安装Hadoop。建议使用Hadoop 2.7或更高版本。
Spark：下载并安装Spark。可以从Spark官网下载预编译的包。

2. 安装Hadoop

2.1 下载Hadoop

从Hadoop官网下载适合的版本。例如，下载Hadoop 3.3.1：

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz

2.2 解压并配置Hadoop

解压下载的Hadoop包：

tar -xzvf hadoop-3.3.1.tar.gz

将解压后的目录移动到合适的位置，例如/usr/local/hadoop：

sudo mv hadoop-3.3.1 /usr/local/hadoop

配置环境变量，编辑~/.bashrc文件，添加以下内容：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使配置生效：

source ~/.bashrc

2.3 配置Hadoop

编辑$HADOOP_HOME/etc/hadoop/core-site.xml，添加以下内容：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

编辑$HADOOP_HOME/etc/hadoop/hdfs-site.xml，添加以下内容：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/data/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/data/datanode</value>
    </property>
</configuration>

编辑$HADOOP_HOME/etc/hadoop/yarn-site.xml，添加以下内容：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

2.4 启动Hadoop

格式化HDFS：

hdfs namenode -format

启动HDFS：

start-dfs.sh

启动Yarn：

start-yarn.sh

3. 安装Spark

3.1 下载Spark

从Spark官网下载适合的版本。例如，下载Spark 3.1.2：

wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

3.2 解压并配置Spark

解压下载的Spark包：

tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz

将解压后的目录移动到合适的位置，例如/usr/local/spark：

sudo mv spark-3.1.2-bin-hadoop3.2 /usr/local/spark

配置环境变量，编辑~/.bashrc文件，添加以下内容：

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin

使配置生效：

source ~/.bashrc

3.3 配置Spark依赖Yarn

编辑$SPARK_HOME/conf/spark-defaults.conf，添加以下内容：

spark.master            yarn
spark.eventLog.enabled  true
spark.eventLog.dir      hdfs://localhost:9000/spark-logs
spark.history.fs.logDirectory hdfs://localhost:9000/spark-logs
spark.yarn.historyServer.address localhost:18080

编辑$SPARK_HOME/conf/spark-env.sh，添加以下内容：

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

4. 验证安装

4.1 启动Spark History Server

启动Spark History Server以查看作业历史：

$SPARK_HOME/sbin/start-history-server.sh

4.2 提交Spark作业

提交一个简单的Spark作业到Yarn：

spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster $SPARK_HOME/examples/jars/spark-examples_2.12-3.1.2.jar 10

4.3 查看作业状态

可以通过Yarn的Web UI查看作业状态，默认地址为http://localhost:8088。

5. 常见问题及解决方案

5.1 作业提交失败

如果作业提交失败，检查Yarn和HDFS的日志文件，通常位于$HADOOP_HOME/logs目录下。

5.2 Spark History Server无法启动

确保HDFS上的日志目录存在，并且Spark History Server有权限访问该目录。

5.3 资源不足

如果作业因资源不足而失败，可以调整Yarn的资源分配参数，例如yarn.scheduler.maximum-allocation-mb和yarn.nodemanager.resource.memory-mb。

6. 总结

通过以上步骤，你已经成功安装并配置了Spark依赖Yarn执行。Spark与Yarn的集成使得资源管理和作业调度更加灵活和高效。希望本文能帮助你顺利搭建Spark on Yarn的环境，并为你的大数据处理任务提供支持。