Hadoop环境如何实现离线安装

发布时间:2021-11-12 13:58:03 作者:小新
来源:亿速云 阅读:199
# Hadoop环境如何实现离线安装

## 前言

在大数据技术体系中,Hadoop作为核心基础框架,其安装部署是每个开发者必须掌握的技能。虽然云环境和在线安装更为便捷,但在某些特定场景下(如内网环境、安全要求高的生产环境或网络条件受限的情况),离线安装成为必要选择。本文将详细介绍Hadoop离线安装的全流程,涵盖从准备工作到集群验证的完整步骤。

## 一、离线安装概述

### 1.1 离线安装的应用场景
- 内网隔离的生产环境
- 网络带宽受限的区域
- 需要严格版本控制的金融/政务系统
- 需要定制化部署的特殊场景

### 1.2 离线安装的核心挑战
- 依赖包的手动收集
- 环境变量的精确配置
- 服务间的手动协调
- 缺少自动依赖解析

## 二、准备工作

### 2.1 硬件准备
| 组件          | 最低配置要求       | 推荐配置          |
|---------------|--------------------|-------------------|
| Master节点    | 4核CPU/8GB内存     | 8核CPU/16GB内存   |
| Worker节点    | 2核CPU/4GB内存     | 4核CPU/8GB内存    |
| 存储空间      | 50GB可用空间       | 500GB+可用空间    |

### 2.2 软件包准备
需要下载的离线安装包(以Hadoop 3.3.4为例):
1. Hadoop核心包:`hadoop-3.3.4.tar.gz`
2. Java JDK:`jdk-8u371-linux-x64.tar.gz`
3. SSH工具包(可选):`openssh-server`

> **注意**:所有软件包需通过有网络的机器提前下载,建议使用官方镜像站:
> - Apache镜像站:https://archive.apache.org/dist/hadoop/core/
> - Oracle官网:https://www.oracle.com/java/technologies/javase/javase8-archive-downloads.html

### 2.3 环境检查清单
```bash
# 检查系统版本
cat /etc/*release

# 检查防火墙状态
sudo systemctl status firewalld

# 检查SELinux状态
getenforce

# 检查主机名解析
hostname -f

三、详细安装步骤

3.1 系统基础配置

3.1.1 主机名与hosts配置

# 所有节点执行
sudo hostnamectl set-hostname master  # 主节点
sudo hostnamectl set-hostname worker1 # 工作节点1

# 编辑/etc/hosts文件
192.168.1.100 master
192.168.1.101 worker1
192.168.1.102 worker2

3.1.2 SSH免密登录配置

# 生成密钥对(所有节点)
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

# 主节点分发公钥
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
scp ~/.ssh/authorized_keys worker1:~/.ssh/

3.2 Java环境安装

# 解压JDK到/opt目录
sudo tar -zxvf jdk-8u371-linux-x64.tar.gz -C /opt/

# 配置环境变量(/etc/profile末尾添加)
export JAVA_HOME=/opt/jdk1.8.0_371
export PATH=$PATH:$JAVA_HOME/bin

# 使配置生效
source /etc/profile

# 验证安装
java -version

3.3 Hadoop安装与配置

3.3.1 解压安装包

sudo tar -zxvf hadoop-3.3.4.tar.gz -C /opt/
sudo mv /opt/hadoop-3.3.4 /opt/hadoop
sudo chown -R hadoop:hadoop /opt/hadoop

3.3.2 核心配置文件修改

  1. hadoop-env.sh
export JAVA_HOME=/opt/jdk1.8.0_371
export HADOOP_HOME=/opt/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  1. core-site.xml
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop/tmp</value>
  </property>
</configuration>
  1. hdfs-site.xml
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/opt/hadoop/data/datanode</value>
  </property>
</configuration>
  1. mapred-site.xml
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>
  1. yarn-site.xml
<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
  </property>
</configuration>

3.3.3 节点配置文件

  1. workers文件配置
worker1
worker2

3.4 环境变量配置

# 在/etc/profile中添加
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

# 使配置生效
source /etc/profile

四、集群初始化与启动

4.1 格式化HDFS

hdfs namenode -format

4.2 启动集群

# 启动HDFS
start-dfs.sh

# 启动YARN
start-yarn.sh

# 验证进程
jps

主节点应有进程: - NameNode - ResourceManager - SecondaryNameNode

工作节点应有进程: - DataNode - NodeManager

4.3 Web UI访问

服务 访问地址 默认端口
HDFS http://master:9870 9870
YARN http://master:8088 8088
DataNode http://worker1:9864 9864

五、常见问题排查

5.1 启动失败常见原因

  1. 端口冲突:检查9000/8088等端口是否被占用
    
    netstat -tunlp | grep 9000
    
  2. 权限问题:确保/opt/hadoop目录属主正确
  3. 配置错误:检查xml文件格式和内容

5.2 日志查看方法

# NameNode日志
tail -100f /opt/hadoop/logs/hadoop-hadoop-namenode-master.log

# DataNode日志
tail -100f /opt/hadoop/logs/hadoop-hadoop-datanode-worker1.log

六、集群验证测试

6.1 HDFS基础操作

# 创建目录
hdfs dfs -mkdir /test

# 上传文件
hdfs dfs -put /local/file /test/

# 查看文件
hdfs dfs -ls /test

6.2 MapReduce测试

# 运行示例pi计算
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar pi 10 100

结语

通过本文详细的离线安装指南,您应该已经成功搭建起一个可用的Hadoop集群。离线安装虽然过程较为繁琐,但能帮助您深入理解Hadoop的架构原理和组件关系。建议在生产环境中: 1. 编写自动化部署脚本 2. 建立完善的监控体系 3. 定期进行备份维护

附录: - Hadoop官方文档 - Hadoop配置参数详解 “`

该文档包含完整的离线安装流程,通过以下优化确保专业性: 1. 采用模块化结构,层次清晰 2. 包含具体配置示例和命令 3. 提供问题排查指南 4. 补充了验证测试环节 5. 添加了格式化的表格和代码块 6. 包含版本特定的注意事项 7. 提供了相关参考资源链接

可根据实际环境调整版本号和配置参数,建议在正式部署前在测试环境验证。

推荐阅读:
  1. Windows环境下Ruby离线安装gem包
  2. 从头安装hadoop环境

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

hadoop

上一篇:ThinkJS有哪些功能

下一篇:Django中的unittest应用是什么

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》