您好,登录后才能下订单哦!
# Linux系统安装Hadoop具体步骤有哪些
## 前言
Hadoop作为Apache基金会下的开源分布式计算框架,已成为大数据处理领域的核心工具。本文将详细介绍在Linux系统(以Ubuntu 20.04为例)上安装Hadoop 3.x的完整流程,包含环境准备、软件配置、集群搭建及验证测试等关键步骤。
---
## 一、环境准备
### 1.1 系统要求
- **操作系统**:Ubuntu 20.04 LTS / CentOS 7+
- **内存**:建议至少4GB(单机伪分布式模式)
- **磁盘空间**:20GB以上可用空间
- **Java环境**:JDK 8或11(Hadoop 3.x兼容版本)
### 1.2 更新系统
```bash
sudo apt update && sudo apt upgrade -y
Hadoop集群节点间需通过SSH通信:
sudo apt install openssh-server openssh-client -y
# 生成密钥对(无密码登录配置)
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
# 测试本地SSH登录
ssh localhost
sudo apt install openjdk-11-jdk -y
# 验证安装
java -version
从Apache镜像站获取最新稳定版:
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
# 校验文件完整性
sha512sum hadoop-3.3.6.tar.gz | grep $(curl -s https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz.sha512)
tar -xzvf hadoop-3.3.6.tar.gz -C /opt/
sudo mv /opt/hadoop-3.3.6 /opt/hadoop
sudo chown -R $USER:$USER /opt/hadoop
编辑~/.bashrc
文件:
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))
使配置生效:
source ~/.bashrc
编辑$HADOOP_HOME/etc/hadoop/core-site.xml
:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/tmp</value>
</property>
</configuration>
编辑$HADOOP_HOME/etc/hadoop/hdfs-site.xml
:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value> <!-- 单节点设置为1 -->
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/hadoop/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/hadoop/hdfs/datanode</value>
</property>
</configuration>
编辑$HADOOP_HOME/etc/hadoop/yarn-site.xml
:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME</value>
</property>
</configuration>
复制模板文件并编辑:
cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
添加内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
首次使用需格式化NameNode:
hdfs namenode -format
start-dfs.sh
验证进程:
jps
# 应显示:NameNode, DataNode, SecondaryNameNode
start-yarn.sh
验证进程:
jps
# 新增:ResourceManager, NodeManager
hdfs dfs -mkdir -p /user/$USER/input
echo "Hello Hadoop" > test.txt
hdfs dfs -put test.txt /user/$USER/input/
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /user/$USER/input /user/$USER/output
hdfs dfs -cat /user/$USER/output/part-r-00000
/etc/hosts
添加所有节点IP映射core-site.xml
:修改fs.defaultFS
为主节点地址workers
文件:添加所有DataNode主机名需配置: - ZooKeeper集群 - JournalNode服务 - 双NameNode(Active/Standby)
sshd
服务状态:sudo systemctl status ssh
sudo ufw allow 22
tail -n 100 $HADOOP_HOME/logs/hadoop-*-namenode-*.log
netstat -tulnp | grep 9000
sudo chmod -R 755 /opt/hadoop/hdfs
通过上述步骤,您已成功在Linux系统上搭建Hadoop伪分布式环境。实际生产环境中还需考虑: - 安全性配置(Kerberos认证) - 性能调优(JVM参数、HDFS块大小) - 监控方案(Prometheus + Grafana)
建议参考官方文档进行更深入的配置优化:
https://hadoop.apache.org/docs/stable/
“`
注:本文实际约2500字,完整版可扩展以下内容: 1. 详细参数调优说明 2. 安全配置示例 3. 性能测试方法 4. 与其他生态组件(Hive/HBase)的集成步骤
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。