CentOS下怎么安装Hadoop

发布时间：2022-02-17 09:35:54 作者：iii
来源：亿速云阅读：221

# CentOS下怎么安装Hadoop

## 一、前言

在大数据时代，Hadoop作为分布式系统基础架构的核心框架，已成为企业处理海量数据的首选解决方案。本文将详细介绍在CentOS操作系统上安装Hadoop的完整流程，涵盖从环境准备到集群配置的全过程，帮助读者快速搭建自己的Hadoop开发环境。

## 二、环境准备

### 2.1 系统要求

- **操作系统**：CentOS 7/8（本文以CentOS 7.9为例）
- **硬件配置**：
  - 最低2GB RAM（生产环境建议8GB以上）
  - 20GB可用磁盘空间
  - 双核CPU

### 2.2 软件依赖

安装前需确保系统已包含以下组件：

```bash
sudo yum install -y java-1.8.0-openjdk-devel ssh pdsh

2.3 网络配置

设置静态IP（以ens33网卡为例）：

sudo vi /etc/sysconfig/network-scripts/ifcfg-ens33

修改内容：

BOOTPROTO=static
ONBOOT=yes
IPADDR=192.168.1.100
NETMASK=255.255.255.0
GATEWAY=192.168.1.1
DNS1=8.8.8.8

修改主机名：

sudo hostnamectl set-hostname hadoop-master

配置hosts文件：

sudo vi /etc/hosts

添加内容：

192.168.1.100 hadoop-master
192.168.1.101 hadoop-slave1
192.168.1.102 hadoop-slave2

三、创建Hadoop专用用户

建议使用非root用户运行Hadoop：

sudo groupadd hadoop
sudo useradd -g hadoop hduser
sudo passwd hduser

配置SSH免密登录：

su - hduser
ssh-keygen -t rsa -P ""
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

四、Hadoop安装步骤

4.1 下载Hadoop

wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

验证文件完整性：

sha512sum hadoop-3.3.4.tar.gz | grep $(curl -s https://archive.apache.org/dist/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz.sha512)

4.2 解压安装

tar -xzvf hadoop-3.3.4.tar.gz -C /opt/
sudo chown -R hduser:hadoop /opt/hadoop-3.3.4
ln -s /opt/hadoop-3.3.4 /opt/hadoop

4.3 环境变量配置

编辑~/.bashrc文件：

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

使配置生效：

source ~/.bashrc

五、Hadoop配置

5.1 核心配置文件

hadoop-env.sh：

echo "export JAVA_HOME=$JAVA_HOME" >> $HADOOP_HOME/etc/hadoop/hadoop-env.sh

core-site.xml：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop-master:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop/data/tmp</value>
  </property>
</configuration>

hdfs-site.xml：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/opt/hadoop/data/datanode</value>
  </property>
</configuration>

5.2 MapReduce配置

mapred-site.xml：

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <property>
    <name>mapreduce.application.classpath</name>
    <value>$HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*</value>
  </property>
</configuration>

yarn-site.xml：

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop-master</value>
  </property>
</configuration>

5.3 工作节点配置

编辑workers文件（Hadoop 3.x之前为slaves）：

hadoop-slave1
hadoop-slave2

六、集群部署

6.1 格式化HDFS

hdfs namenode -format

6.2 启动集群

start-dfs.sh
start-yarn.sh

验证服务：

jps

应看到以下进程： - NameNode - DataNode - ResourceManager - NodeManager - SecondaryNameNode

6.3 Web UI访问

HDFS界面：http://hadoop-master:9870
YARN界面：http://hadoop-master:8088

七、测试验证

7.1 HDFS测试

hdfs dfs -mkdir /test
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /test
hdfs dfs -ls /test

7.2 MapReduce测试

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /test /output

八、常见问题解决

8.1 Java环境问题

错误现象：

Error: JAVA_HOME is not set and could not be found

解决方案：

echo "export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))" >> $HADOOP_HOME/etc/hadoop/hadoop-env.sh

8.2 端口冲突

检查端口占用：

netstat -tulnp | grep 9000

修改core-site.xml中的端口号：

<value>hdfs://hadoop-master:9001</value>

8.3 磁盘权限问题

确保数据目录权限正确：

sudo mkdir -p /opt/hadoop/data/{tmp,namenode,datanode}
sudo chown -R hduser:hadoop /opt/hadoop/data

九、安全配置建议

启用Kerberos认证
配置网络防火墙：

sudo firewall-cmd --permanent --add-port=9000/tcp
sudo firewall-cmd --permanent --add-port=9870/tcp
sudo firewall-cmd --reload

定期备份namenode元数据

十、性能优化

10.1 内存配置

修改yarn-site.xml：

<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>8192</value>
</property>

10.2 数据压缩

配置mapred-site.xml：

<property>
  <name>mapreduce.map.output.compress</name>
  <value>true</value>
</property>

十一、总结

本文详细介绍了在CentOS系统上安装Hadoop的完整流程，包括： 1. 系统环境准备 2. Hadoop用户创建 3. 软件安装与配置 4. 集群部署与验证 5. 常见问题解决方案

通过本指南，读者应能够成功搭建一个功能完整的Hadoop集群，为后续的大数据开发和分析工作奠定基础。

注意：生产环境部署时，建议根据实际硬件配置调整参数，并进行充分的安全配置和性能测试。 “`

这篇文章包含了： 1. 详细的安装步骤说明 2. 配置文件的完整示例 3. 常见问题的解决方案 4. 安全建议和性能优化提示 5. 必要的命令和代码片段 6. 结构化的章节安排 7. 实际可操作的验证方法

总字数约3400字，采用Markdown格式，可直接用于技术文档发布。