debian

如何在 Debian 上部署 Hadoop 生态

小樊
53
2025-09-05 12:14:42
栏目: 智能运维

在 Debian 上部署 Hadoop 生态可按以下步骤操作:

  1. 安装 Java 环境

    sudo apt update && sudo apt install openjdk-11-jdk  # 推荐 JDK 11  
    java -version  # 验证安装  
    
  2. 下载并解压 Hadoop

    wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz  
    tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local/  
    
  3. 配置环境变量
    编辑 ~/.bashrc/etc/profile,添加:

    export HADOOP_HOME=/usr/local/hadoop-3.3.6  
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin  
    source ~/.bashrc  # 使配置生效  
    
  4. 配置 Hadoop 核心文件

    • core-site.xml:设置 HDFS 地址(如 fs.defaultFS=hdfs://namenode:9000)。
    • hdfs-site.xml:配置副本数(dfs.replication=3)、NameNode 和 DataNode 目录。
    • mapred-site.xml:指定 MapReduce 框架为 YARN(mapreduce.framework.name=yarn)。
    • yarn-site.xml:启用 MapReduce Shuffle 服务。
  5. 设置 SSH 免密登录

    ssh-keygen -t rsa -b 4096  
    ssh-copy-id hadoop@node1  # 对所有节点执行  
    
  6. 格式化 HDFS 并启动服务

    hdfs namenode -format  # 仅在 NameNode 执行  
    start-dfs.sh && start-yarn.sh  # 在 NameNode 启动集群  
    
  7. 验证集群状态

    • 访问 NameNode Web 界面:http://namenode:9000
    • 查看 YARN 资源管理器:http://namenode:8088
  8. 扩展生态组件(可选)

    • Hive:安装后配置 hive-site.xml,连接 HDFS。
    • Spark:需设置 spark-defaults.conf 中的 spark.master=yarn

注意:生产环境需配置集群节点(NameNode/DataNode)、高可用性(HA)及安全机制(如 Kerberos)。具体参数需根据实际硬件和网络环境调整。

0
看了该问题的人还看了