HDFS与Ubuntu如何集成 - 问答

HDFS与Ubuntu集成的详细步骤

1. 环境准备

在开始集成前，需完成系统基础配置：

更新系统：运行sudo apt update && sudo apt upgrade -y，确保系统软件包为最新版本。
安装基础工具：执行sudo apt install -y build-essential openssh-server，安装编译工具和SSH服务（用于集群节点间通信）。

2. 安装Java环境

Hadoop（HDFS的核心框架）依赖Java运行环境，需安装OpenJDK 8（Hadoop 3.x推荐的Java版本）：

安装JDK：运行sudo apt install openjdk-8-jdk。
验证安装：执行java -version，确认输出显示Java版本为1.8.x。

3. 下载并解压Hadoop

从Apache Hadoop官网下载稳定版本（如3.3.4），解压至Ubuntu的/usr/local/目录（系统级软件安装路径）：

下载：wget https://downloads.apache.org/hadoop/core/hadoop-3.3.4/hadoop-3.3.4.tar.gz。
解压：tar -xzvf hadoop-3.3.4.tar.gz -C /usr/local/。
重命名目录（可选）：sudo mv /usr/local/hadoop-3.3.4 /usr/local/hadoop，简化后续命令。

4. 配置Hadoop环境变量

为了让系统识别Hadoop命令，需将Hadoop路径添加至环境变量：

编辑配置文件：打开~/.bashrc（当前用户）或/etc/profile（全局），添加以下内容：
```
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
```
使配置生效：运行source ~/.bashrc（或source /etc/profile）。

5. 配置HDFS核心参数

进入Hadoop配置目录（$HADOOP_HOME/etc/hadoop），修改以下关键文件：

core-site.xml（定义HDFS默认文件系统）：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value> <!-- 本地模式下的NameNode地址 -->
    </property>
</configuration>

hdfs-site.xml（配置HDFS数据存储路径及副本数）：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value> <!-- 本地模式下副本数为1（生产环境建议≥3） -->
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/data/namenode</value> <!-- NameNode元数据存储路径 -->
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/data/datanode</value> <!-- DataNode数据存储路径 -->
    </property>
</configuration>

可选：yarn-site.xml（若启用YARN资源管理）：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value> <!-- 支持MapReduce shuffle -->
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

可选：mapred-site.xml（配置MapReduce框架）：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value> <!-- 使用YARN作为资源管理器 -->
    </property>
</configuration>

6. 创建HDFS数据目录

根据hdfs-site.xml中的配置，手动创建NameNode和DataNode的数据目录，并设置正确的权限：

sudo mkdir -p /usr/local/hadoop/data/namenode
sudo mkdir -p /usr/local/hadoop/data/datanode
sudo chown -R $USER:$USER /usr/local/hadoop/data  # 将目录所有者设为当前用户（避免权限问题）

7. 格式化NameNode

NameNode是HDFS的“主节点”，负责存储文件系统元数据。首次启动前必须格式化（此操作会清空所有HDFS数据，仅首次需要）：

hdfs namenode -format

格式化完成后，终端会显示“Format successful”提示。

8. 启动HDFS服务

使用Hadoop提供的脚本启动HDFS服务：

启动HDFS：运行start-dfs.sh，该命令会自动启动NameNode和DataNode进程。
验证进程：执行jps，若看到以下进程则表示启动成功：
- NameNode（主节点）
- DataNode（数据节点）
- SecondaryNameNode（辅助NameNode，用于元数据备份）。

9. 验证HDFS功能

通过命令行和Web界面验证HDFS是否正常工作：

命令行验证：
- 创建HDFS目录：hdfs dfs -mkdir -p /user/$USER/input。
- 上传本地文件到HDFS：hdfs dfs -put ~/test.txt /user/$USER/input。
- 列出HDFS目录内容：hdfs dfs -ls /user/$USER/input。
- 下载HDFS文件到本地：hdfs dfs -get /user/$USER/input/test.txt ~/downloaded.txt。
- 删除HDFS文件：hdfs dfs -rm /user/$USER/input/test.txt。
Web界面验证：打开浏览器，访问http://localhost:9870（Hadoop 3.x的NameNode Web界面），查看HDFS文件系统状态、节点信息等。

10. 可选：配置SSH免密登录（集群环境必需）

若搭建多节点HDFS集群（NameNode+多个DataNode），需配置SSH免密登录，避免每次操作都需要输入密码：

生成SSH密钥：运行ssh-keygen -t rsa -P ''，按回车键生成密钥对（默认保存在~/.ssh/id_rsa）。
复制公钥到目标节点：运行ssh-copy-id user@datanode_ip（将user替换为目标节点用户名，datanode_ip替换为目标节点IP地址），将公钥添加至目标节点的~/.ssh/authorized_keys文件中。
测试免密登录：运行ssh user@datanode_ip，若无需输入密码即可登录，则配置成功。

注意事项

端口开放：若通过远程访问HDFS Web界面，需配置防火墙允许相关端口（如9000、9870、50070等），例如sudo ufw allow 9870。
生产环境调整：本地模式仅用于测试，生产环境需配置多节点集群、调整副本数（≥3）、启用Kerberos认证等。

0 赞

0 踩