怎么获取CDSW上提交Spark作业的真实用户

发布时间：2021-12-13 10:29:30 作者：小新
来源：亿速云阅读：232

# 怎么获取CDSW上提交Spark作业的真实用户

## 引言

在Cloudera Data Science Workbench (CDSW) 平台上，Spark作业的提交和管理是数据科学家日常工作的重要组成部分。然而，在多用户环境中，管理员或团队成员可能需要追踪Spark作业的真实提交者，以便进行资源分配、审计或故障排查。本文将详细介绍几种有效的方法来获取CDSW上提交Spark作业的真实用户信息。

## 方法一：通过CDSW的Web界面查看

CDSW的Web界面提供了直观的方式来查看作业的提交者信息。

1. **登录CDSW平台**：使用管理员或有权限的账户登录CDSW。
2. **导航到“作业”页面**：在左侧导航栏中，点击“Jobs”或“作业”选项。
3. **查看作业详情**：在作业列表中，找到目标Spark作业，点击进入详情页面。通常，提交者的用户名会显示在作业的详细信息中。

**优点**：
- 操作简单，无需额外配置。
- 适合快速查看少量作业的提交者。

**缺点**：
- 对于大量作业或自动化需求，效率较低。

## 方法二：通过CDSW的API获取

CDSW提供了REST API，可以通过编程方式获取作业信息。

1. **获取API令牌**：
   - 登录CDSW后，进入用户设置页面，生成API令牌。
2. **调用作业API**：
   - 使用以下API端点获取作业列表：
     ```
     GET /api/v1/projects/{projectId}/jobs
     ```
   - 在返回的JSON数据中，查找`submitted_by`字段，该字段通常包含提交者的用户名。
3. **过滤Spark作业**：
   - 根据作业类型或名称过滤出Spark作业。

**示例代码（Python）**：
```python
import requests

api_token = "your_api_token"
project_id = "your_project_id"
headers = {"Authorization": f"Bearer {api_token}"}

response = requests.get(
    f"https://cdsw.example.com/api/v1/projects/{project_id}/jobs",
    headers=headers
)

jobs = response.json()
for job in jobs:
    if job["type"] == "spark":
        print(f"Job: {job['name']}, Submitted by: {job['submitted_by']}")

优点： - 支持自动化处理大量作业。 - 可以与其他工具集成。

缺点： - 需要一定的编程知识。

方法三：通过YARN ResourceManager查看

Spark作业在CDSW上运行时，通常会提交到YARN集群。可以通过YARN ResourceManager的Web界面或API查看作业的提交者。

访问YARN ResourceManager：
- 打开YARN ResourceManager的Web界面（通常是http://<yarn-resourcemanager-host>:8088）。
查找Spark作业：
- 在作业列表中，找到对应的Spark作业。
查看提交者信息：
- 点击作业详情，查找User字段，该字段通常显示CDSW作业的提交者。

优点： - 直接查看集群级别的作业信息。 - 适合跨平台审计。

缺点： - 需要访问YARN集群的权限。

方法四：通过Spark History Server查看

如果启用了Spark History Server，可以通过它来查看历史作业的提交者信息。

访问Spark History Server：
- 打开Spark History Server的Web界面（通常是http://<spark-history-server-host>:18080）。
查找历史作业：
- 在作业列表中，找到目标Spark作业。
查看提交者信息：
- 作业详情中通常会显示User字段。

优点： - 可以查看历史作业的详细信息。 - 适合故障排查和审计。

缺点： - 需要Spark History Server已正确配置。

方法五：通过CDSW的日志文件查看

CDSW的日志文件中可能包含作业提交者的信息。

登录CDSW服务器：
- 使用SSH登录到CDSW的主节点或工作节点。
查看日志文件：
- 日志文件通常位于/var/log/cdsw或类似路径。
- 使用grep命令过滤Spark作业相关的日志：
```
grep "Spark job submitted" /var/log/cdsw/cdsw.log
```
解析日志：
- 日志中可能会包含提交者的用户名。

优点： - 可以获取详细的作业提交记录。 - 适合深入排查问题。

缺点： - 需要服务器访问权限。 - 日志格式可能复杂。

方法六：通过自定义脚本或工具

可以编写自定义脚本或使用第三方工具来收集和分析CDSW上的作业提交信息。

结合CDSW API和YARN API：
- 通过CDSW API获取作业列表，再通过YARN API获取作业的详细资源使用情况。
使用Cloudera Manager：
- 如果CDSW是Cloudera集群的一部分，可以通过Cloudera Manager的界面或API获取作业信息。

优点： - 高度灵活，可以满足特定需求。 - 支持复杂的分析和报表生成。

缺点： - 开发和维护成本较高。

总结

获取CDSW上提交Spark作业的真实用户信息有多种方法，每种方法适用于不同的场景和需求。以下是方法选择的建议：

快速查看少量作业：使用CDSW的Web界面。
自动化或批量处理：使用CDSW API或YARN API。
历史作业审计：使用Spark History Server。
深入排查问题：查看CDSW日志文件。

通过合理选择方法，可以高效地管理和审计CDSW平台上的Spark作业。

参考资料

”`