在 Debian 上部署 Hadoop 生态可按以下步骤操作:
安装 Java 环境
sudo apt update && sudo apt install openjdk-11-jdk # 推荐 JDK 11
java -version # 验证安装
下载并解压 Hadoop
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local/
配置环境变量
编辑 ~/.bashrc
或 /etc/profile
,添加:
export HADOOP_HOME=/usr/local/hadoop-3.3.6
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc # 使配置生效
配置 Hadoop 核心文件
fs.defaultFS=hdfs://namenode:9000
)。dfs.replication=3
)、NameNode 和 DataNode 目录。mapreduce.framework.name=yarn
)。设置 SSH 免密登录
ssh-keygen -t rsa -b 4096
ssh-copy-id hadoop@node1 # 对所有节点执行
格式化 HDFS 并启动服务
hdfs namenode -format # 仅在 NameNode 执行
start-dfs.sh && start-yarn.sh # 在 NameNode 启动集群
验证集群状态
http://namenode:9000
。http://namenode:8088
。扩展生态组件(可选)
hive-site.xml
,连接 HDFS。spark-defaults.conf
中的 spark.master=yarn
。注意:生产环境需配置集群节点(NameNode/DataNode)、高可用性(HA)及安全机制(如 Kerberos)。具体参数需根据实际硬件和网络环境调整。