Debian上Hadoop集群如何搭建 - 问答

在Debian上搭建Hadoop集群涉及多个步骤，包括准备节点、安装Java环境、配置网络、安装Hadoop以及配置Hadoop集群。以下是一个详细的步骤指南：

1. 准备节点

静态网络配置：编辑 /etc/network/interfaces 文件，注释掉自动获取IP的部分，并添加静态IP配置。
修改 /etc/hosts 文件：添加所有节点的IP地址和主机名。
安装OpenSSH服务器：sudo apt-get install openssh-server
生成SSH密钥：在各节点上执行 ssh-keygen 命令生成SSH密钥。
免密码登录：使用 ssh-copy-id 命令将公钥复制到其他节点，实现免密码登录。
创建用户和用户组：在各节点上创建用户 hadoop 并设置用户组。

2. 安装Java环境

更新系统：sudo apt update && sudo apt upgrade

添加Debian仓库：

sudo apt install apt-transport-https ca-certificates curl gnupg2 software-properties-common
curl -fsSL https://deb.nodesource.com/setup_14.x | sudo -E bash -
sudo apt-get install -y nodejs

安装Java 11：

sudo apt update
sudo apt install adoptopenjdk-11-hotspot

验证Java安装：java -version

3. 安装Hadoop

下载Hadoop：从Apache镜像下载稳定版本的Hadoop。
解压Hadoop安装包：将Hadoop解压到 /opt 目录。
创建Hadoop软链接：sudo ln -sf /opt/hadoop-3.2.0 /opt/hadoop

创建日志和HDFS目录：

sudo mkdir -p /opt/hadoop/logs
sudo mkdir -p /opt/hadoop/hdfs/name
sudo mkdir -p /opt/hadoop/hdfs/data

配置Hadoop环境变量：
- 创建 /etc/profile.d/hadoop.sh 文件，添加以下内容：
```
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
```
- 使配置文件生效：source /etc/profile

4. 配置Hadoop集群

配置Hadoop环境变量：
- 编辑 /etc/hadoop/hadoop-env.sh 文件，设置 JAVA_HOME。

配置 core-site.xml：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
</configuration>

配置 hdfs-site.xml：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/opt/hadoop/hdfs/name</value>
    </property>
</configuration>

配置 yarn-site.xml：

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

配置 mapred-site.xml（如果使用MapReduce）：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

5. 启动Hadoop集群

格式化NameNode：
```
hdfs namenode -format
```
启动Hadoop集群：
```
start-dfs.sh
start-yarn.sh
```
检查集群状态：
- 使用 jps 命令检查各个守护进程是否启动。
- 访问Hadoop Web UI：http://master:9000

请注意，以上步骤是一个基本的指南，具体配置可能需要根据实际需求进行调整。在搭建集群之前，建议详细阅读Hadoop官方文档，并根据实际情况进行相应的配置。

0 赞

0 踩