ubuntu

怎样在 Ubuntu 上运行 Hadoop 示例

小樊
36
2025-10-21 04:19:21
栏目: 智能运维

1. 准备工作:安装Java环境
Hadoop依赖Java运行,首先需安装OpenJDK 8(或更高兼容版本)。执行以下命令完成安装:

sudo apt-get update
sudo apt-get install openjdk-8-jdk

验证安装是否成功:

java -version

输出应显示Java版本信息(如openjdk version "1.8.0_361")。

2. 配置SSH免密登录
Hadoop集群节点间需无密码SSH通信,本地测试时需配置localhost的免密登录:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa  # 生成密钥对(直接回车,默认路径)
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys  # 将公钥添加至授权文件
chmod 600 ~/.ssh/authorized_keys  # 设置文件权限
ssh localhost  # 测试免密登录(无需输入密码则成功)
```。


**3. 下载并解压Hadoop**  
从Apache官网下载稳定版本的Hadoop(如3.3.5),解压至指定目录(如`/opt/hadoop`):  
```bash
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz
sudo mkdir -p /opt/hadoop
sudo tar -zxvf hadoop-3.3.5.tar.gz -C /opt/hadoop --strip-components=1

设置Hadoop环境变量,编辑~/.bashrc文件:

export HADOOP_HOME=/opt/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

使配置生效:

source ~/.bashrc
```。


**4. 配置Hadoop核心文件**  
进入Hadoop配置目录(`$HADOOP_HOME/etc/hadoop`),修改以下文件:  
- **core-site.xml**:设置HDFS的默认文件系统地址(本地模式用`localhost`):  
  ```xml
  <configuration>
      <property>
          <name>fs.defaultFS</name>
          <value>hdfs://localhost:9000</value>
      </property>
  </configuration>

5. 格式化HDFS并启动集群
首次运行需格式化NameNode(注意:格式化会清除HDFS中的所有数据,仅首次需要):

hdfs namenode -format

启动HDFS和YARN服务:

start-dfs.sh  # 启动HDFS(NameNode、DataNode)
start-yarn.sh  # 启动YARN(ResourceManager、NodeManager)

验证服务是否启动成功:

jps  # 应显示NameNode、DataNode、ResourceManager、NodeManager等进程

访问Web界面查看集群状态:

6. 运行Hadoop示例(以WordCount为例)
Hadoop自带WordCount示例(统计文本单词出现次数),步骤如下:

注意事项

0
看了该问题的人还看了