配置 Ubuntu 上的 Hadoop 环境变量是确保 Hadoop 能够正常运行的关键步骤。以下是详细的步骤指南:
首先,你需要下载并解压 Hadoop 到你的 Ubuntu 系统上。
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/
编辑 ~/.bashrc 文件来设置环境变量。
nano ~/.bashrc
在文件的末尾添加以下内容:
# Hadoop environment variables
export HADOOP_HOME=/usr/local/hadoop-3.3.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存并关闭文件。
运行以下命令使环境变量生效:
source ~/.bashrc
验证 Hadoop 是否正确配置。运行以下命令检查 Hadoop 版本:
hadoop version
如果显示了 Hadoop 的版本信息,说明配置成功。
如果你需要更详细的配置,可以编辑 Hadoop 的配置文件。
hadoop-env.sh编辑 HADOOP_HOME/etc/hadoop/hadoop-env.sh 文件:
nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
确保以下行存在并且正确:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
core-site.xml编辑 HADOOP_HOME/etc/hadoop/core-site.xml 文件:
nano $HADOOP_HOME/etc/hadoop/core-site.xml
添加以下配置:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xml编辑 HADOOP_HOME/etc/hadoop/hdfs-site.xml 文件:
nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
添加以下配置:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapred-site.xml编辑 HADOOP_HOME/etc/hadoop/mapred-site.xml 文件:
nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
添加以下配置:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml编辑 HADOOP_HOME/etc/hadoop/yarn-site.xml 文件:
nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
添加以下配置:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
在首次启动 Hadoop 之前,需要格式化 HDFS。
hdfs namenode -format
启动 Hadoop 的各个服务:
start-dfs.sh
start-yarn.sh
访问 Hadoop 的 Web 界面来验证集群是否正常运行:
http://localhost:50070http://localhost:8088通过以上步骤,你应该能够成功配置 Ubuntu 上的 Hadoop 环境变量并启动 Hadoop 集群。