debian

Debian上Hadoop开发环境如何搭建

小樊
41
2025-03-25 09:34:34
栏目: 智能运维

在Debian上搭建Hadoop开发环境需要以下几个步骤:

1. 安装Java开发环境(JDK)

首先,需要在Debian系统上安装Java开发环境。可以通过以下命令安装OpenJDK:

sudo apt update
sudo apt install openjdk-11-jdk -y

安装完成后,设置JAVA_HOME环境变量:

sudo nano /etc/environment

在文件末尾添加以下行(请根据你安装的JDK版本调整路径):

JAVA_HOME="/usr/lib/jvm/java-11-openjdk-amd64"

保存文件并退出,然后刷新环境变量:

source /etc/environment

验证Java是否安装成功:

java -version

2. 安装Hadoop

下载适合Debian的Hadoop版本。例如,下载Hadoop 3.3.6:

wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.6/hadoop-3.3.6-src.tar.gz

通过验证SHA-256校验和确保下载未损坏:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6-src.tar.gz.sha512
sha256sum -c hadoop-3.3.6-src.tar.gz.sha512

为Hadoop创建一个目录并提取下载的存档:

sudo mkdir /opt/hadoops
sudo tar -xzvf hadoop-3.3.6-src.tar.gz -C /opt/hadoops --strip-components 1

3. 配置Hadoop环境变量

编辑/etc/profile文件,添加以下内容:

export HADOOP_HOME="/opt/hadoops/hadoop-3.3.6"
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

刷新profile变量:

source /etc/profile

4. 配置Hadoop核心配置文件

编辑core-site.xml文件:

sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml

添加以下内容:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

编辑hdfs-site.xml文件:

sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

添加以下内容:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/opt/hadoops/hdfs/namenode</value>
    </property>
</configuration>

编辑mapred-site.xml文件:

sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

添加以下内容:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

编辑yarn-site.xml文件:

sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

添加以下内容:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

5. 设置SSH无密码登录

为Hadoop用户生成SSH密钥:

sudo su - hadoop
ssh-keygen -t rsa -P ""

将公钥复制到authorized_keys文件:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

测试与本地主机和其他节点的SSH连接:

ssh localhost

6. 格式化NameNode

在启动Hadoop服务之前,需要格式化NameNode:

hdfs namenode -format

7. 启动Hadoop服务

启动Hadoop NameNode和DataNode:

start-dfs.sh
start-yarn.sh

8. 验证Hadoop安装

使用以下命令检查Hadoop集群的状态:

hdfs dfsadmin -report

访问NameNode Web界面:

http://localhost:9870

至此,Debian上的Hadoop开发环境搭建完成。

0
看了该问题的人还看了