怎么在Yarn集群中分配Container

发布时间:2021-12-30 09:52:05 作者:iii
来源:亿速云 阅读:246

本篇内容介绍了“怎么在Yarn集群中分配Container”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

YarnAllocator从字面意思来看,也应该知道是在Yarn集群中分配Container的。

private[yarn] class YarnAllocator(
    driverUrl: String,
    driverRef: RpcEndpointRef,
    conf: YarnConfiguration,
    sparkConf: SparkConf,
    amClient: AMRMClient[ContainerRequest],
    appAttemptId: ApplicationAttemptId,
    securityMgr: SecurityManager,
    localResources: Map[String, LocalResource],
    resolver: SparkRackResolver,
    clock: Clock = new SystemClock)

其中driverUrl就是Driver的地址。当用YarnAllocator分配Container来运行Executors时,这些Executors要联系的Driver地址就是构造函数里的driverRef参数。

requestTotalExecutorsWithPreferredLocalities方法是分配多个Executor的,先将分配请求保存在队列里,然后在守护线程中异步的创建Executor。

def requestTotalExecutorsWithPreferredLocalities(
      requestedTotal: Int,
      localityAwareTasks: Int,
      hostToLocalTaskCount: Map[String, Int],
      nodeBlacklist: Set[String]): Boolean = synchronized {
    this.numLocalityAwareTasks = localityAwareTasks
    this.hostToLocalTaskCounts = hostToLocalTaskCount
    if (requestedTotal != targetNumExecutors) {
      logInfo(s"Driver requested a total number of $requestedTotal executor(s).")
      targetNumExecutors = requestedTotal
      allocatorBlacklistTracker.setSchedulerBlacklistedNodes(nodeBlacklist)
      true
    } else {
      false
    }
  }

targetNumExecutors就是说明要申请创建多少个Executor的意思。具体的实际创建动作是在runAllocatedContainers中执行的。

         launcherPool.execute(() => {
            try {
              new ExecutorRunnable(
                Some(container),
                conf,
                sparkConf,
                driverUrl,
                executorId,
                executorHostname,
                executorMemory,
                executorCores,
                appAttemptId.getApplicationId.toString,
                securityMgr,
                localResources
              ).run()
              updateInternalState()
            } catch {
              
            }

这一段就是在分配的Container上创建Executor的过程,用ExecutorRunner来包装的。其中的driverUrl就是构造函数中带过来的driver的地址。

可见每个driver都会创建一个属于自己的单独的YarnAllocator。

顺便说一句,很多人以前Spark是集群,实际上Spark本身只是一种计算方式,可以看成它只是jar包。Spark的driver运行时才会去申请Executor,向Yarn申请或者向Standalone集群申请。Standalone集群是指Master和Worker,不是指Spark core,更不是指SparkContext。

“怎么在Yarn集群中分配Container”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!

推荐阅读:
  1. redis集群分配哈希槽的方式
  2. linux中怎么启动yarn集群

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

container yarn

上一篇:Spring Boot数据访问之Mybatis的示例分析

下一篇:Serverless中如何实现云函数冷热启动

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》