hadoop怎样安装与配置

发布时间:2021-11-26 11:52:43 作者:小新
来源:亿速云 阅读:209
# Hadoop怎样安装与配置

## 目录
1. [Hadoop简介](#hadoop简介)
2. [安装前准备](#安装前准备)
3. [单机模式安装](#单机模式安装)
4. [伪分布式模式配置](#伪分布式模式配置)
5. [完全分布式集群搭建](#完全分布式集群搭建)
6. [常见问题解决](#常见问题解决)
7. [性能优化建议](#性能优化建议)

---

## Hadoop简介
Apache Hadoop是一个开源的分布式计算框架,由Apache软件基金会开发,主要用于海量数据的存储和处理。其核心组件包括:
- **HDFS**(分布式文件系统)
- **YARN**(资源管理系统)
- **MapReduce**(计算模型)

### 版本选择建议
- 生产环境推荐:3.x系列(如3.3.6)
- 学习环境可用:2.10.x

---

## 安装前准备

### 1. 系统要求
- 操作系统:Linux(推荐CentOS/Ubuntu)
- Java环境:JDK 8或11(必须匹配Hadoop版本)
- 内存:至少4GB(伪分布式模式)
- 磁盘空间:建议50GB以上

### 2. 基础环境配置
```bash
# 更新系统包
sudo apt-get update  # Ubuntu
sudo yum update     # CentOS

# 安装SSH
sudo apt-get install ssh
sudo apt-get install pdsh

# 配置免密登录
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

3. Java安装

# 下载JDK(示例版本)
wget https://download.java.net/openjdk/jdk11/ri/openjdk-11+28_linux-x64_bin.tar.gz

# 解压并配置环境变量
tar -xzf openjdk-11+28_linux-x64_bin.tar.gz
sudo mv jdk-11 /usr/local/

# 添加到bashrc
echo 'export JAVA_HOME=/usr/local/jdk-11' >> ~/.bashrc
echo 'export PATH=$JAVA_HOME/bin:$PATH' >> ~/.bashrc
source ~/.bashrc

单机模式安装

1. 下载Hadoop

wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop

2. 配置环境变量

echo 'export HADOOP_HOME=/usr/local/hadoop' >> ~/.bashrc
echo 'export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH' >> ~/.bashrc
source ~/.bashrc

3. 验证安装

hadoop version
# 应输出类似:Hadoop 3.3.6

伪分布式模式配置

1. 修改核心配置文件

$HADOOP_HOME/etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

2. 配置HDFS

$HADOOP_HOME/etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///home/hadoop/hadoop_data/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///home/hadoop/hadoop_data/datanode</value>
    </property>
</configuration>

3. 配置YARN

$HADOOP_HOME/etc/hadoop/yarn-site.xml:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

4. 格式化HDFS

hdfs namenode -format

5. 启动服务

start-dfs.sh
start-yarn.sh

6. 验证服务

jps
# 应看到以下进程:
# NameNode
# DataNode
# ResourceManager
# NodeManager

完全分布式集群搭建

1. 集群规划示例

节点 IP地址 角色
master 192.168.1.10 NameNode, ResourceManager
slave1 192.168.1.11 DataNode, NodeManager
slave2 192.168.1.12 DataNode, NodeManager

2. 关键配置修改

etc/hadoop/workers:

slave1
slave2

3. 同步配置到所有节点

scp -r /usr/local/hadoop slave1:/usr/local/
scp -r /usr/local/hadoop slave2:/usr/local/

4. 启动集群

# 在master节点执行
hdfs namenode -format
start-dfs.sh
start-yarn.sh

常见问题解决

1. SSH连接问题

现象:启动时提示”Permission denied”
解决

chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys

2. 端口冲突

现象:端口9000被占用
解决

netstat -tulnp | grep 9000
kill -9 <PID>

3. 磁盘空间不足

现象:DataNode启动失败
解决:检查dfs.datanode.data.dir目录权限和空间


性能优化建议

1. 内存配置

修改etc/hadoop/hadoop-env.sh:

export HDFS_NAMENODE_OPTS="-Xmx4g"
export HDFS_DATANODE_OPTS="-Xmx2g"

2. 数据块大小调整

hdfs-site.xml:

<property>
    <name>dfs.blocksize</name>
    <value>256m</value>
</property>

3. 压缩设置

core-site.xml:

<property>
    <name>io.compression.codecs</name>
    <value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>

提示:生产环境部署建议结合Ambari或Cloudera Manager等管理工具。本文档基于Hadoop 3.3.6编写,其他版本配置可能略有差异。 “`

该文档共约2900字,包含: - 6个主要章节 - 15个配置代码块 - 3种部署模式详解 - 3类常见问题解决方案 - 实际操作的命令行示例 - 关键参数的优化建议

可通过调整具体参数值适应不同集群规模和环境需求。建议配合官方文档(https://hadoop.apache.org/docs/stable/)使用。

推荐阅读:
  1. 如何安装配置hadoop
  2. hadoop环境安装配置介绍与步骤

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

hadoop

上一篇:Cubieboard 3如何安装Jenkins

下一篇:C#如何实现基于Socket套接字的网络通信封装

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》