Hadoop在Ubuntu上的配置步骤 - 问答

在Ubuntu上配置Hadoop的步骤如下：

1. 安装JDK

首先，需要安装Java开发工具包（JDK）。可以通过以下命令安装OpenJDK：

sudo apt update
sudo apt install openjdk-11-jdk

安装完成后，设置JAVA_HOME环境变量：

echo "export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64" >> ~/.bashrc
source ~/.bashrc
java -version

2. 安装SSH

安装并配置SSH服务以实现无密码登录：

sudo apt install openssh-server
sudo systemctl enable ssh
sudo systemctl start ssh

在每个节点上生成SSH密钥对，并将公钥复制到其他节点的authorized_keys文件中：

ssh-keygen -t rsa
ssh-copy-id master
ssh-copy-id slave1
ssh-copy-id slave2

3. 下载并解压Hadoop

从Apache Hadoop官网下载对应版本的Hadoop压缩包，并解压到指定目录：

wget http://path/to/hadoop-3.3.1.tar.gz
tar -xzf hadoop-3.3.1.tar.gz -C /opt

4. 配置Hadoop环境变量

编辑~/.bashrc文件，添加Hadoop环境变量：

echo "export HADOOP_HOME=/opt/hadoop-3.3.1" >> ~/.bashrc
echo "export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin" >> ~/.bashrc
source ~/.bashrc

5. 配置Hadoop配置文件

编辑Hadoop配置文件，例如core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml，根据实际需求进行配置。

core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
</configuration>

hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/opt/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/opt/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

mapred-site.xml:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

yarn-site.xml:

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
</configuration>

6. 格式化NameNode

在Master节点上执行以下命令格式化NameNode：

hdfs namenode -format

7. 启动Hadoop集群

在Master节点上执行以下命令启动Hadoop集群：

start-dfs.sh
start-yarn.sh

8. 验证Hadoop集群

在Master节点上执行以下命令查看Hadoop进程：

jps

如果看到NameNode、DataNode、ResourceManager和NodeManager等进程，则表示Hadoop集群配置成功。

以上步骤为在Ubuntu上配置Hadoop的基本流程，具体配置可能需要根据实际情况进行调整。

0 赞

0 踩