在Debian上搭建Hadoop开发环境需要以下几个步骤:
首先,需要在Debian系统上安装Java开发环境。可以通过以下命令安装OpenJDK:
sudo apt update
sudo apt install openjdk-11-jdk -y
安装完成后,设置JAVA_HOME环境变量:
sudo nano /etc/environment
在文件末尾添加以下行(请根据你安装的JDK版本调整路径):
JAVA_HOME="/usr/lib/jvm/java-11-openjdk-amd64"
保存文件并退出,然后刷新环境变量:
source /etc/environment
验证Java是否安装成功:
java -version
下载适合Debian的Hadoop版本。例如,下载Hadoop 3.3.6:
wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.6/hadoop-3.3.6-src.tar.gz
通过验证SHA-256校验和确保下载未损坏:
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6-src.tar.gz.sha512
sha256sum -c hadoop-3.3.6-src.tar.gz.sha512
为Hadoop创建一个目录并提取下载的存档:
sudo mkdir /opt/hadoops
sudo tar -xzvf hadoop-3.3.6-src.tar.gz -C /opt/hadoops --strip-components 1
编辑/etc/profile
文件,添加以下内容:
export HADOOP_HOME="/opt/hadoops/hadoop-3.3.6"
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
刷新profile变量:
source /etc/profile
编辑core-site.xml
文件:
sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml
添加以下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
编辑hdfs-site.xml
文件:
sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
添加以下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/hadoops/hdfs/namenode</value>
</property>
</configuration>
编辑mapred-site.xml
文件:
sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
添加以下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
编辑yarn-site.xml
文件:
sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
添加以下内容:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
为Hadoop用户生成SSH密钥:
sudo su - hadoop
ssh-keygen -t rsa -P ""
将公钥复制到authorized_keys
文件:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
测试与本地主机和其他节点的SSH连接:
ssh localhost
在启动Hadoop服务之前,需要格式化NameNode:
hdfs namenode -format
启动Hadoop NameNode和DataNode:
start-dfs.sh
start-yarn.sh
使用以下命令检查Hadoop集群的状态:
hdfs dfsadmin -report
访问NameNode Web界面:
http://localhost:9870
至此,Debian上的Hadoop开发环境搭建完成。