您好,登录后才能下订单哦!
在Linux上安装Spark可以分为几个步骤,以下是一个详细的教程:
首先,你需要安装Java运行时环境。可以通过以下命令来检测Java是否已安装:
java -version
如果没有安装Java,请执行以下命令来安装OpenJDK 11:
sudo apt update
sudo apt install openjdk-11-jre
访问Apache Spark官网,下载你需要的Spark版本。例如,下载Spark 2.4.4版本:
wget https://archive.apache.org/dist/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz
使用以下命令解压Spark文件:
tar -xvf spark-2.4.4-bin-hadoop2.7.tgz
为了让系统识别Spark,你需要将其添加到环境变量中。首先,打开文件:
nano ~/.bashrc
将以下代码块添加到文件末尾:
export SPARK_HOME=/path/to/spark-2.4.4-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH
保存并退出。接下来,让环境变量生效:
source ~/.bashrc
现在你可以启动Spark了。输入以下命令以打开Spark的交互式Shell:
spark-shell
在Spark shell中,可以运行以下示例程序:
val data = Seq(1, 2, 3, 4, 5)
val rdd = spark.sparkContext.parallelize(data)
val result = rdd.reduce(_ + _)
println(s"The sum is: $result")
如果你需要启动一个Spark集群,可以按照以下步骤进行:
配置环境变量:
编辑spark-env.sh
文件,设置以下变量:
export JAVA_HOME=/usr/local/java/jdk1.8.0_144
export SCALA_HOME=/usr/local/scala-2.11.0
export HADOOP_HOME=/usr/local/hadoop-2.6.0
export HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0/etc/hadoop
export SPARK_MASTER_IP=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8099
export SPARK_WORKER_CORES=3
export SPARK_WORKER_MEMORY=2g
export SPARK_WORKER_PORT=7078
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_WORKER_INSTANCES=1
配置slaves:
复制slaves.template
文件为slaves
,并修改其中的localhost为其他节点的IP地址或主机名。
启动集群:
在主节点上执行以下命令启动集群:
cd /path/to/spark-2.4.4-bin-hadoop2.7/sbin
./start-master.sh
./start-slaves.sh
查看启动情况:
在主节点上使用以下命令查看启动情况:
jps
打开Spark Web UI:http://127.0.0.1:8099
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。