Ubuntu下Hadoop如何安装与部署

发布时间:2021-11-15 17:33:47 作者:小新
来源:亿速云 阅读:255
# Ubuntu下Hadoop如何安装与部署

## 1. 环境准备

### 1.1 系统要求
- **操作系统**:Ubuntu 20.04 LTS 或更高版本(本文以Ubuntu 22.04为例)
- **硬件配置**:
  - 至少4GB内存(建议8GB以上)
  - 50GB可用磁盘空间
  - 多核CPU
- **网络**:稳定的网络连接(用于下载依赖包)

### 1.2 安装必要工具
```bash
sudo apt update && sudo apt upgrade -y
sudo apt install -y ssh openjdk-11-jdk vim net-tools

注意:Hadoop 3.x需要Java 8或11,推荐使用OpenJDK 11。

2. 配置SSH免密登录

Hadoop集群节点间需要通过SSH通信,需配置免密登录:

# 生成密钥对(连续回车默认设置)
ssh-keygen -t rsa -P ""

# 将公钥写入授权文件
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

# 测试本地免密登录
ssh localhost

3. 下载并安装Hadoop

3.1 下载Hadoop

Apache官网下载稳定版(本文以3.3.6为例):

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xzvf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop

3.2 配置环境变量

编辑~/.bashrc文件:

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

使配置生效:

source ~/.bashrc

4. Hadoop配置

4.1 核心配置文件

编辑$HADOOP_HOME/etc/hadoop/core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/tmp/hadoop_tmp</value>
  </property>
</configuration>

4.2 HDFS配置

编辑$HADOOP_HOME/etc/hadoop/hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///usr/local/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:///usr/local/hadoop/data/datanode</value>
  </property>
</configuration>

4.3 YARN配置

编辑$HADOOP_HOME/etc/hadoop/yarn-site.xml

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.env-whitelist</name>
    <value>JAVA_HOME,HADOOP_COMMON_HOME</value>
  </property>
</configuration>

5. 启动Hadoop集群

5.1 格式化HDFS

首次使用前需格式化:

hdfs namenode -format

5.2 启动服务

# 启动HDFS
start-dfs.sh

# 启动YARN
start-yarn.sh

验证服务:

jps

应看到以下进程: - NameNode - DataNode - ResourceManager - NodeManager - SecondaryNameNode

6. 验证安装

6.1 访问Web UI

6.2 运行测试任务

# 创建HDFS目录
hdfs dfs -mkdir /input

# 上传测试文件
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /input

# 运行MapReduce示例
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output

# 查看结果
hdfs dfs -cat /output/*

7. 常见问题解决

7.1 端口冲突

若遇到端口占用错误,可通过netstat -tulnp查找并终止冲突进程。

7.2 Java路径错误

确保JAVA_HOME$HADOOP_HOME/etc/hadoop/hadoop-env.sh中正确配置。

7.3 权限问题

使用chmod修改相关目录权限:

sudo chown -R $USER:$USER /usr/local/hadoop

8. 结语

本文详细介绍了Ubuntu系统下单节点Hadoop集群的部署流程。实际生产环境中,还需根据集群规模调整配置文件参数,并考虑安全加固措施。建议通过阅读官方文档深入了解各组件配置选项。

扩展建议:下一步可尝试配置多节点集群,或集成Hive、Spark等大数据生态工具。 “`

(全文约1150字)

推荐阅读:
  1. 在ubuntu系统下安装hadoop
  2. Hadoop 安装部署实践

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

ubuntu hadoop

上一篇:怎么用Ubuntu和Xen来设置Kubernetes

下一篇:如何在自己的应用上使用Stevedore实现插件的动态管理

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》