如何在 Debian 上部署 Hadoop 生态 - 问答

在 Debian 上部署 Hadoop 生态可按以下步骤操作：

安装 Java 环境

sudo apt update && sudo apt install openjdk-11-jdk  # 推荐 JDK 11  
java -version  # 验证安装

下载并解压 Hadoop

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz  
tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local/

配置环境变量
编辑 ~/.bashrc 或 /etc/profile，添加：

export HADOOP_HOME=/usr/local/hadoop-3.3.6  
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin  
source ~/.bashrc  # 使配置生效

配置 Hadoop 核心文件
- core-site.xml：设置 HDFS 地址（如 fs.defaultFS=hdfs://namenode:9000）。
- hdfs-site.xml：配置副本数（dfs.replication=3）、NameNode 和 DataNode 目录。
- mapred-site.xml：指定 MapReduce 框架为 YARN（mapreduce.framework.name=yarn）。
- yarn-site.xml：启用 MapReduce Shuffle 服务。

设置 SSH 免密登录

ssh-keygen -t rsa -b 4096  
ssh-copy-id hadoop@node1  # 对所有节点执行

格式化 HDFS 并启动服务

hdfs namenode -format  # 仅在 NameNode 执行  
start-dfs.sh && start-yarn.sh  # 在 NameNode 启动集群

验证集群状态
- 访问 NameNode Web 界面：http://namenode:9000。
- 查看 YARN 资源管理器：http://namenode:8088。
扩展生态组件（可选）
- Hive：安装后配置 hive-site.xml，连接 HDFS。
- Spark：需设置 spark-defaults.conf 中的 spark.master=yarn。

注意：生产环境需配置集群节点（NameNode/DataNode）、高可用性（HA）及安全机制（如 Kerberos）。具体参数需根据实际硬件和网络环境调整。

0 赞

0 踩