您好,登录后才能下订单哦!
# Ubuntu下Hadoop如何安装与部署
## 1. 环境准备
### 1.1 系统要求
- **操作系统**:Ubuntu 20.04 LTS 或更高版本(本文以Ubuntu 22.04为例)
- **硬件配置**:
- 至少4GB内存(建议8GB以上)
- 50GB可用磁盘空间
- 多核CPU
- **网络**:稳定的网络连接(用于下载依赖包)
### 1.2 安装必要工具
```bash
sudo apt update && sudo apt upgrade -y
sudo apt install -y ssh openjdk-11-jdk vim net-tools
注意:Hadoop 3.x需要Java 8或11,推荐使用OpenJDK 11。
Hadoop集群节点间需要通过SSH通信,需配置免密登录:
# 生成密钥对(连续回车默认设置)
ssh-keygen -t rsa -P ""
# 将公钥写入授权文件
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
# 测试本地免密登录
ssh localhost
从Apache官网下载稳定版(本文以3.3.6为例):
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xzvf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
编辑~/.bashrc
文件:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
使配置生效:
source ~/.bashrc
编辑$HADOOP_HOME/etc/hadoop/core-site.xml
:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/tmp/hadoop_tmp</value>
</property>
</configuration>
编辑$HADOOP_HOME/etc/hadoop/hdfs-site.xml
:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///usr/local/hadoop/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///usr/local/hadoop/data/datanode</value>
</property>
</configuration>
编辑$HADOOP_HOME/etc/hadoop/yarn-site.xml
:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME</value>
</property>
</configuration>
首次使用前需格式化:
hdfs namenode -format
# 启动HDFS
start-dfs.sh
# 启动YARN
start-yarn.sh
验证服务:
jps
应看到以下进程: - NameNode - DataNode - ResourceManager - NodeManager - SecondaryNameNode
# 创建HDFS目录
hdfs dfs -mkdir /input
# 上传测试文件
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /input
# 运行MapReduce示例
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output
# 查看结果
hdfs dfs -cat /output/*
若遇到端口占用错误,可通过netstat -tulnp
查找并终止冲突进程。
确保JAVA_HOME
在$HADOOP_HOME/etc/hadoop/hadoop-env.sh
中正确配置。
使用chmod
修改相关目录权限:
sudo chown -R $USER:$USER /usr/local/hadoop
本文详细介绍了Ubuntu系统下单节点Hadoop集群的部署流程。实际生产环境中,还需根据集群规模调整配置文件参数,并考虑安全加固措施。建议通过阅读官方文档深入了解各组件配置选项。
扩展建议:下一步可尝试配置多节点集群,或集成Hive、Spark等大数据生态工具。 “`
(全文约1150字)
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。