如何安装spark依赖yarn执行

发布时间:2021-11-26 10:58:42 作者:小新
来源:亿速云 阅读:281

如何安装Spark依赖Yarn执行

Apache Spark是一个快速、通用的集群计算系统,广泛应用于大数据处理。Spark可以与多种资源管理器集成,其中Yarn(Yet Another Resource Negotiator)是Hadoop生态系统中的一个重要组件,负责资源管理和作业调度。本文将详细介绍如何安装Spark并配置其依赖Yarn执行。

1. 环境准备

在开始安装之前,确保你的系统满足以下要求:

2. 安装Hadoop

2.1 下载Hadoop

Hadoop官网下载适合的版本。例如,下载Hadoop 3.3.1:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz

2.2 解压并配置Hadoop

解压下载的Hadoop包:

tar -xzvf hadoop-3.3.1.tar.gz

将解压后的目录移动到合适的位置,例如/usr/local/hadoop

sudo mv hadoop-3.3.1 /usr/local/hadoop

配置环境变量,编辑~/.bashrc文件,添加以下内容:

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使配置生效:

source ~/.bashrc

2.3 配置Hadoop

编辑$HADOOP_HOME/etc/hadoop/core-site.xml,添加以下内容:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

编辑$HADOOP_HOME/etc/hadoop/hdfs-site.xml,添加以下内容:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/data/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/data/datanode</value>
    </property>
</configuration>

编辑$HADOOP_HOME/etc/hadoop/yarn-site.xml,添加以下内容:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

2.4 启动Hadoop

格式化HDFS:

hdfs namenode -format

启动HDFS:

start-dfs.sh

启动Yarn:

start-yarn.sh

3. 安装Spark

3.1 下载Spark

Spark官网下载适合的版本。例如,下载Spark 3.1.2:

wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

3.2 解压并配置Spark

解压下载的Spark包:

tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz

将解压后的目录移动到合适的位置,例如/usr/local/spark

sudo mv spark-3.1.2-bin-hadoop3.2 /usr/local/spark

配置环境变量,编辑~/.bashrc文件,添加以下内容:

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin

使配置生效:

source ~/.bashrc

3.3 配置Spark依赖Yarn

编辑$SPARK_HOME/conf/spark-defaults.conf,添加以下内容:

spark.master            yarn
spark.eventLog.enabled  true
spark.eventLog.dir      hdfs://localhost:9000/spark-logs
spark.history.fs.logDirectory hdfs://localhost:9000/spark-logs
spark.yarn.historyServer.address localhost:18080

编辑$SPARK_HOME/conf/spark-env.sh,添加以下内容:

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

4. 验证安装

4.1 启动Spark History Server

启动Spark History Server以查看作业历史:

$SPARK_HOME/sbin/start-history-server.sh

4.2 提交Spark作业

提交一个简单的Spark作业到Yarn:

spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster $SPARK_HOME/examples/jars/spark-examples_2.12-3.1.2.jar 10

4.3 查看作业状态

可以通过Yarn的Web UI查看作业状态,默认地址为http://localhost:8088

5. 常见问题及解决方案

5.1 作业提交失败

如果作业提交失败,检查Yarn和HDFS的日志文件,通常位于$HADOOP_HOME/logs目录下。

5.2 Spark History Server无法启动

确保HDFS上的日志目录存在,并且Spark History Server有权限访问该目录。

5.3 资源不足

如果作业因资源不足而失败,可以调整Yarn的资源分配参数,例如yarn.scheduler.maximum-allocation-mbyarn.nodemanager.resource.memory-mb

6. 总结

通过以上步骤,你已经成功安装并配置了Spark依赖Yarn执行。Spark与Yarn的集成使得资源管理和作业调度更加灵活和高效。希望本文能帮助你顺利搭建Spark on Yarn的环境,并为你的大数据处理任务提供支持。

推荐阅读:
  1. spark的宽依赖窄依赖
  2. Spark on Yarn 安装配置

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

spark yarn

上一篇:原生javascript中检查对象是否为空的方法是什么

下一篇:C#如何实现基于Socket套接字的网络通信封装

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》