您好,登录后才能下订单哦!
在Linux上快速安装Apache Spark的步骤如下:
首先,确保你的系统上已经安装了Java运行时环境(JRE)。你可以通过以下命令检查Java是否已安装:
java -version
如果没有安装Java,可以使用以下命令进行安装:
sudo apt update
sudo apt install openjdk-11-jre
访问Apache Spark官网,选择适合你Hadoop版本的Spark安装包进行下载。例如,如果你使用的是Hadoop 2.6.x,可以下载spark-2.2.0-bin-hadoop2.6.tgz
。
使用以下命令解压下载的Spark安装包:
tar -xvf spark-<version>-bin-hadoop<version>.tgz
例如:
tar -xvf spark-2.2.0-bin-hadoop2.6.tgz
为了方便使用Spark,需要将其添加到系统的环境变量中。编辑~/.bashrc
文件,添加以下内容:
export SPARK_HOME=/path/to/your/spark
export PATH=$SPARK_HOME/bin:$PATH
例如:
export SPARK_HOME=/usr/local/spark-2.2.0-bin-hadoop2.6
export PATH=$SPARK_HOME/bin:$PATH
然后,使环境变量生效:
source ~/.bashrc
进入Spark的conf
目录,复制spark-env.sh.template
文件并重命名为spark-env.sh
,然后编辑该文件,添加以下内容:
export JAVA_HOME=/usr/local/java/jdk1.8.0_161
export SCALA_HOME=/usr/local/scala
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=3
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=5G
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_EXECUTOR_CORES=1
export SPARK_EXECUTOR_MEMORY=1G
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native
复制slaves.template
文件并重命名为slaves
,删除其中的localhost
,并添加集群中其他服务器的IP地址或主机名,每行一个。
进入Spark的sbin
目录,执行以下命令启动Spark集群:
./start-all.sh
在主节点上使用以下命令查看启动情况:
jps
你应该能看到Master
和Worker
进程。
进入Spark的bin
目录,执行以下命令启动spark-shell
:
./spark-shell
在spark-shell
中,你可以运行一些示例程序来验证安装是否成功。例如,运行spark-submit
提交一个示例程序:
./spark-submit --class org.apache.spark.examples.SparkPi --master spark://127.0.0.1:7077 /path/to/spark/examples/jars/spark-examples_2.11-2.2.0.jar
如果一切正常,你应该会看到类似以下的输出:
Pi is roughly 3.14716
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。