CentOS下怎么安装Hadoop

发布时间:2022-02-17 09:35:54 作者:iii
来源:亿速云 阅读:200
# CentOS下怎么安装Hadoop

## 一、前言

在大数据时代,Hadoop作为分布式系统基础架构的核心框架,已成为企业处理海量数据的首选解决方案。本文将详细介绍在CentOS操作系统上安装Hadoop的完整流程,涵盖从环境准备到集群配置的全过程,帮助读者快速搭建自己的Hadoop开发环境。

## 二、环境准备

### 2.1 系统要求

- **操作系统**:CentOS 7/8(本文以CentOS 7.9为例)
- **硬件配置**:
  - 最低2GB RAM(生产环境建议8GB以上)
  - 20GB可用磁盘空间
  - 双核CPU

### 2.2 软件依赖

安装前需确保系统已包含以下组件:

```bash
sudo yum install -y java-1.8.0-openjdk-devel ssh pdsh

2.3 网络配置

  1. 设置静态IP(以ens33网卡为例):
sudo vi /etc/sysconfig/network-scripts/ifcfg-ens33

修改内容:

BOOTPROTO=static
ONBOOT=yes
IPADDR=192.168.1.100
NETMASK=255.255.255.0
GATEWAY=192.168.1.1
DNS1=8.8.8.8
  1. 修改主机名:
sudo hostnamectl set-hostname hadoop-master
  1. 配置hosts文件:
sudo vi /etc/hosts

添加内容:

192.168.1.100 hadoop-master
192.168.1.101 hadoop-slave1
192.168.1.102 hadoop-slave2

三、创建Hadoop专用用户

建议使用非root用户运行Hadoop:

sudo groupadd hadoop
sudo useradd -g hadoop hduser
sudo passwd hduser

配置SSH免密登录:

su - hduser
ssh-keygen -t rsa -P ""
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

四、Hadoop安装步骤

4.1 下载Hadoop

wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

验证文件完整性:

sha512sum hadoop-3.3.4.tar.gz | grep $(curl -s https://archive.apache.org/dist/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz.sha512)

4.2 解压安装

tar -xzvf hadoop-3.3.4.tar.gz -C /opt/
sudo chown -R hduser:hadoop /opt/hadoop-3.3.4
ln -s /opt/hadoop-3.3.4 /opt/hadoop

4.3 环境变量配置

编辑~/.bashrc文件:

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

使配置生效:

source ~/.bashrc

五、Hadoop配置

5.1 核心配置文件

  1. hadoop-env.sh
echo "export JAVA_HOME=$JAVA_HOME" >> $HADOOP_HOME/etc/hadoop/hadoop-env.sh
  1. core-site.xml
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop-master:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop/data/tmp</value>
  </property>
</configuration>
  1. hdfs-site.xml
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/opt/hadoop/data/datanode</value>
  </property>
</configuration>

5.2 MapReduce配置

  1. mapred-site.xml
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <property>
    <name>mapreduce.application.classpath</name>
    <value>$HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*</value>
  </property>
</configuration>
  1. yarn-site.xml
<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop-master</value>
  </property>
</configuration>

5.3 工作节点配置

编辑workers文件(Hadoop 3.x之前为slaves):

hadoop-slave1
hadoop-slave2

六、集群部署

6.1 格式化HDFS

hdfs namenode -format

6.2 启动集群

start-dfs.sh
start-yarn.sh

验证服务:

jps

应看到以下进程: - NameNode - DataNode - ResourceManager - NodeManager - SecondaryNameNode

6.3 Web UI访问

七、测试验证

7.1 HDFS测试

hdfs dfs -mkdir /test
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /test
hdfs dfs -ls /test

7.2 MapReduce测试

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /test /output

八、常见问题解决

8.1 Java环境问题

错误现象:

Error: JAVA_HOME is not set and could not be found

解决方案:

echo "export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))" >> $HADOOP_HOME/etc/hadoop/hadoop-env.sh

8.2 端口冲突

检查端口占用:

netstat -tulnp | grep 9000

修改core-site.xml中的端口号:

<value>hdfs://hadoop-master:9001</value>

8.3 磁盘权限问题

确保数据目录权限正确:

sudo mkdir -p /opt/hadoop/data/{tmp,namenode,datanode}
sudo chown -R hduser:hadoop /opt/hadoop/data

九、安全配置建议

  1. 启用Kerberos认证
  2. 配置网络防火墙:
sudo firewall-cmd --permanent --add-port=9000/tcp
sudo firewall-cmd --permanent --add-port=9870/tcp
sudo firewall-cmd --reload
  1. 定期备份namenode元数据

十、性能优化

10.1 内存配置

修改yarn-site.xml

<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>8192</value>
</property>

10.2 数据压缩

配置mapred-site.xml

<property>
  <name>mapreduce.map.output.compress</name>
  <value>true</value>
</property>

十一、总结

本文详细介绍了在CentOS系统上安装Hadoop的完整流程,包括: 1. 系统环境准备 2. Hadoop用户创建 3. 软件安装与配置 4. 集群部署与验证 5. 常见问题解决方案

通过本指南,读者应能够成功搭建一个功能完整的Hadoop集群,为后续的大数据开发和分析工作奠定基础。

注意:生产环境部署时,建议根据实际硬件配置调整参数,并进行充分的安全配置和性能测试。 “`

这篇文章包含了: 1. 详细的安装步骤说明 2. 配置文件的完整示例 3. 常见问题的解决方案 4. 安全建议和性能优化提示 5. 必要的命令和代码片段 6. 结构化的章节安排 7. 实际可操作的验证方法

总字数约3400字,采用Markdown格式,可直接用于技术文档发布。

推荐阅读:
  1. CentOS下 安装配置hadoop环境--单实例版
  2. Centos基于Hadoop安装Hive

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

centos hadoop

上一篇:Linux下如何安装网络监控工具ntopng

下一篇:CentOS8中怎么安装OpenLiteSpeed Web服务器

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》