spark-submit的有用选项有哪些

发布时间：2021-12-16 21:30:06 作者：柒染
来源：亿速云阅读：203

Spark-submit的有用选项有哪些

简介

spark-submit 是 Apache Spark 提供的一个命令行工具，用于提交 Spark 应用程序到集群中运行。它提供了丰富的选项，允许用户灵活地配置应用程序的运行环境、资源分配、依赖管理等。本文将详细介绍 spark-submit 的常用选项，帮助用户更好地理解和使用这些选项来优化 Spark 应用程序的运行。

基本选项

–class

--class 选项用于指定应用程序的主类。对于 Scala 或 Java 应用程序，这是包含 main 方法的类。对于 Python 应用程序，这是包含 Spark 应用程序代码的 Python 文件。

spark-submit --class com.example.MyApp my-app.jar

–master

--master 选项用于指定 Spark 应用程序的运行模式。常见的选项包括：

local: 在本地模式下运行，通常用于测试和开发。
local[K]: 在本地模式下运行，使用 K 个线程。
spark://host:port: 连接到指定的 Spark 独立集群。
yarn: 在 YARN 集群上运行。
mesos://host:port: 在 Mesos 集群上运行。

spark-submit --master yarn --class com.example.MyApp my-app.jar

–deploy-mode

--deploy-mode 选项用于指定应用程序的部署模式。常见的选项包括：

client: 驱动程序在提交应用程序的客户端机器上运行。
cluster: 驱动程序在集群中的一个工作节点上运行。

spark-submit --master yarn --deploy-mode cluster --class com.example.MyApp my-app.jar

–executor-memory

--executor-memory 选项用于指定每个执行器的内存大小。默认单位为 MB，可以使用 G 或 M 后缀来指定 GB 或 MB。

spark-submit --executor-memory 4G --class com.example.MyApp my-app.jar

–total-executor-cores

--total-executor-cores 选项用于指定应用程序使用的总 CPU 核心数。这个选项通常用于限制应用程序的资源使用。

spark-submit --total-executor-cores 8 --class com.example.MyApp my-app.jar

–num-executors

--num-executors 选项用于指定应用程序使用的执行器数量。这个选项通常用于控制应用程序的并行度。

spark-submit --num-executors 4 --class com.example.MyApp my-app.jar

高级选项

–conf

--conf 选项用于设置 Spark 配置属性。可以使用多个 --conf 选项来设置多个属性。

spark-submit --conf spark.some.config.option=value --class com.example.MyApp my-app.jar

–jars

--jars 选项用于指定应用程序依赖的 JAR 文件。多个 JAR 文件可以用逗号分隔。

spark-submit --jars extra1.jar,extra2.jar --class com.example.MyApp my-app.jar

–packages

--packages 选项用于指定应用程序依赖的 Maven 包。多个包可以用逗号分隔。

spark-submit --packages org.example:example-package:1.0.0 --class com.example.MyApp my-app.jar

–repositories

--repositories 选项用于指定 Maven 仓库的 URL。多个仓库可以用逗号分隔。

spark-submit --repositories https://example.com/repo --packages org.example:example-package:1.0.0 --class com.example.MyApp my-app.jar

–files

--files 选项用于指定应用程序需要的文件。这些文件将被分发到每个执行器的工作目录中。

spark-submit --files config.json --class com.example.MyApp my-app.jar

–archives

--archives 选项用于指定应用程序需要的归档文件（如 ZIP 文件）。这些文件将被解压并分发到每个执行器的工作目录中。

spark-submit --archives data.zip --class com.example.MyApp my-app.jar

调试与日志

–driver-java-options

--driver-java-options 选项用于指定驱动程序 JVM 的额外选项。例如，可以用于设置堆大小或启用调试。

spark-submit --driver-java-options "-Xmx4g -Xdebug" --class com.example.MyApp my-app.jar

–driver-library-path

--driver-library-path 选项用于指定驱动程序使用的本地库路径。

spark-submit --driver-library-path /path/to/libs --class com.example.MyApp my-app.jar

–driver-class-path

--driver-class-path 选项用于指定驱动程序的类路径。可以用于添加额外的 JAR 文件或目录。

spark-submit --driver-class-path /path/to/extra.jar --class com.example.MyApp my-app.jar

–verbose

--verbose 选项用于启用详细日志输出。这可以帮助调试应用程序的启动和运行过程。

spark-submit --verbose --class com.example.MyApp my-app.jar

资源管理

–executor-cores

--executor-cores 选项用于指定每个执行器使用的 CPU 核心数。

spark-submit --executor-cores 2 --class com.example.MyApp my-app.jar

–queue

--queue 选项用于指定应用程序在 YARN 集群中使用的资源队列。

spark-submit --queue production --class com.example.MyApp my-app.jar

–proxy-user

--proxy-user 选项用于指定代理用户。这个选项通常用于在 YARN 集群中以其他用户的身份提交应用程序。

spark-submit --proxy-user alice --class com.example.MyApp my-app.jar

安全选项

–keytab

--keytab 选项用于指定 Kerberos keytab 文件的路径。这个选项通常用于在安全集群中提交应用程序。

spark-submit --keytab /path/to/keytab --principal alice@EXAMPLE.COM --class com.example.MyApp my-app.jar

–principal

--principal 选项用于指定 Kerberos 主体。这个选项通常与 --keytab 选项一起使用。

spark-submit --keytab /path/to/keytab --principal alice@EXAMPLE.COM --class com.example.MyApp my-app.jar

其他选项

–name

--name 选项用于指定应用程序的名称。这个名称将显示在 Spark UI 和日志中。

spark-submit --name "My Spark App" --class com.example.MyApp my-app.jar

–supervise

--supervise 选项用于在驱动程序失败时自动重启驱动程序。这个选项通常用于长时间运行的应用程序。

spark-submit --supervise --class com.example.MyApp my-app.jar

–kill

--kill 选项用于终止正在运行的应用程序。需要指定应用程序的 ID。

spark-submit --kill application_1234567890_0001

–status

--status 选项用于查询应用程序的状态。需要指定应用程序的 ID。

spark-submit --status application_1234567890_0001

总结

spark-submit 提供了丰富的选项，允许用户灵活地配置 Spark 应用程序的运行环境、资源分配、依赖管理等。通过合理使用这些选项，用户可以优化应用程序的性能、调试问题、管理资源，并确保应用程序在集群中稳定运行。希望本文的介绍能够帮助读者更好地理解和使用 spark-submit 的选项，从而更高效地开发和运行 Spark 应用程序。