Spark中yarn-site.xml的最小化怎么配置

发布时间:2021-12-16 14:24:35 作者:iii
来源:亿速云 阅读:216
# Spark中yarn-site.xml的最小化怎么配置

## 引言

在Spark on YARN模式下,`yarn-site.xml`是Hadoop YARN框架的核心配置文件之一,它决定了资源调度、任务分配等关键行为。对于生产环境或资源受限的场景,最小化配置可以避免资源浪费并提升稳定性。本文将介绍Spark中`yarn-site.xml`的最小化配置方案。

---

## 一、基础必选参数

### 1. 资源管理器地址
```xml
<property>
  <name>yarn.resourcemanager.address</name>
  <value>resourcemanager-host:8032</value>
</property>

2. 调度器地址

<property>
  <name>yarn.resourcemanager.scheduler.address</name>
  <value>resourcemanager-host:8030</value>
</property>

3. NodeManager本地目录

<property>
  <name>yarn.nodemanager.local-dirs</name>
  <value>/data/yarn/nm-local-dir</value>
</property>

二、资源分配相关配置

1. 容器内存限制

<property>
  <name>yarn.scheduler.minimum-allocation-mb</name>
  <value>1024</value> <!-- 最小1GB -->
</property>

2. 虚拟核数配置

<property>
  <name>yarn.scheduler.minimum-allocation-vcores</name>
  <value>1</value>
</property>

三、Spark专用优化配置

1. 启用Spark的shuffle服务

<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>spark_shuffle</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services.spark_shuffle.class</name>
  <value>org.apache.spark.network.yarn.YarnShuffleService</value>
</property>

2. 容器超时设置

<property>
  <name>yarn.nodemanager.resourcemanager.connect.retry-interval.ms</name>
  <value>2000</value>
</property>

四、安全配置(可选)

如果启用Kerberos认证:

<property>
  <name>yarn.resourcemanager.principal</name>
  <value>yarn/_HOST@REALM</value>
</property>

五、完整最小化配置示例

<configuration>
  <!-- 基础配置 -->
  <property>
    <name>yarn.resourcemanager.address</name>
    <value>rm1:8032</value>
  </property>
  
  <!-- 资源分配 -->
  <property>
    <name>yarn.scheduler.minimum-allocation-mb</name>
    <value>1024</value>
  </property>
  
  <!-- Spark专用 -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>spark_shuffle</value>
  </property>
</configuration>

六、验证配置

  1. 将文件保存到$HADOOP_CONF_DIR/yarn-site.xml
  2. 重启YARN服务:
    
    $HADOOP_HOME/sbin/stop-yarn.sh
    $HADOOP_HOME/sbin/start-yarn.sh
    
  3. 通过Web UI(默认8088端口)检查资源配置

结语

最小化配置的核心原则是: - 保留必要的通信参数 - 设置合理的资源下限 - 根据Spark特性启用辅助服务 - 避免不必要的复杂调度策略

实际部署时建议通过yarn rmadmin -refreshNodes动态加载配置变更,减少服务重启次数。 “`

推荐阅读:
  1. Spark属性的配置方式有哪些
  2. 如何完成spring的最小化XML配置

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

spark

上一篇:怎么启动并验证Hadoop分布式集群

下一篇:Linux sftp命令的用法是怎样的

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》