Apache Spark Standalone 是一种简单的分布式计算框架,用于在多台机器上运行 Spark 应用程序。要配置 Spark Standalone 集群,请按照以下步骤操作:
准备环境: 确保所有节点(Master 和 Worker)上都安装了 Java Development Kit (JDK) 和 Apache Spark。你还需要在每个节点上安装一个 SSH 服务器,以便 Master 可以访问 Worker。
配置 Spark:
在每个节点上创建一个名为 spark-env.sh
的 shell 脚本,用于设置 Spark 环境变量。在每个节点上执行以下命令:
touch spark-env.sh
chmod +x spark-env.sh
编辑 spark-env.sh
文件,添加以下内容(根据你的环境进行修改):
export SPARK_MASTER_HOST=<master-ip>
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=<worker-cores>
export SPARK_WORKER_MEMORY=<worker-memory>
export SPARK_WORKER_INSTANCES=<worker-instances>
export SPARK_LOG_DIR=<log-directory>
export SPARK_HOME=<spark-home>
$SPARK_HOME/sbin/start-master.sh
这将在 Master 节点上启动一个 Web UI,你可以在浏览器中访问 http://<master-ip>:7077
以查看 Spark Web UI。
$SPARK_HOME/sbin/start-slave.sh spark://<master-ip>:7077
这将使 Worker 注册到 Master,并开始在指定的核心和内存上运行任务。
$SPARK_HOME/bin/spark-submit --master spark://<master-ip>:7077 --deploy-mode cluster examples/src/main/python/wordcount.py
如果一切正常,你应该能在 Web UI 中看到作业的执行情况,以及各个 Task 的状态。
现在你已经成功配置了一个 Spark Standalone 集群。你可以开始在这个集群上运行你的 Spark 应用程序了。