Hadoop windows本地环境安装教程

发布时间：2021-07-05 17:11:29 作者：chen
来源：亿速云阅读：229

# Hadoop Windows本地环境安装教程

## 前言

Apache Hadoop是一个开源的分布式计算框架，主要用于处理海量数据的存储和分析。虽然Hadoop通常运行在Linux集群环境中，但对于开发者学习和测试而言，在Windows本地搭建Hadoop环境也非常必要。本教程将详细介绍在Windows 10/11系统上搭建Hadoop 3.x单机环境的完整步骤。

---

## 环境准备

### 硬件要求
- 操作系统：Windows 10/11（64位）
- 内存：至少8GB（推荐16GB）
- 磁盘空间：至少20GB可用空间

### 软件要求
1. **Java JDK 8+**  
   Hadoop 3.x需要Java 8或更高版本
2. **Hadoop 3.x**  
   推荐使用3.3.6稳定版本
3. **Windows工具包**  
   - WinUtils（Hadoop Windows兼容工具）
   - Microsoft Visual C++ Redistributable

---

## 第一步：安装Java环境

### 1. 下载JDK
访问[Oracle官网](https://www.oracle.com/java/technologies/javase-jdk8-downloads.html)下载Windows x64版本的JDK 8+。

### 2. 安装JDK
双击安装包，按向导完成安装。默认安装路径为：

C:\Program Files\Java\jdk1.8.0_XXX


### 3. 配置环境变量
1. 右键"此电脑" → 属性 → 高级系统设置 → 环境变量
2. 新建系统变量：

JAVA_HOME = C:\Program Files\Java\jdk1.8.0_XXX

3. 编辑Path变量，添加：

%JAVA_HOME%\bin


### 4. 验证安装
打开CMD，执行：
```bash
java -version

应显示类似：

java version "1.8.0_XXX"

第二步：安装Hadoop

1. 下载Hadoop

从Apache官网下载二进制包（例如hadoop-3.3.6.tar.gz）。

2. 解压文件

使用7-Zip等工具解压到无空格路径，例如：

D:\hadoop-3.3.6

3. 配置环境变量

新建系统变量：
```
HADOOP_HOME = D:\hadoop-3.3.6
```
编辑Path变量，添加：
```
%HADOOP_HOME%\bin
%HADOOP_HOME%\sbin
```

4. 验证安装

CMD中执行：

hadoop version

应显示Hadoop版本信息。

第三步：安装WinUtils

1. 下载WinUtils

从GitHub获取对应版本的winutils.exe。

2. 放置文件

将winutils.exe和hadoop.dll复制到：

%HADOOP_HOME%\bin

3. 设置权限

CMD中执行（注意替换路径）：

winutils.exe chmod 777 D:\hadoop-3.3.6

第四步：配置Hadoop

1. 创建必要目录

在Hadoop根目录下创建：

mkdir data\namenode
mkdir data\datanode

2. 修改配置文件

编辑%HADOOP_HOME%\etc\hadoop下的文件：

core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/D:/hadoop-3.3.6/data/tmp</value>
    </property>
</configuration>

hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/D:/hadoop-3.3.6/data/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/D:/hadoop-3.3.6/data/datanode</value>
    </property>
</configuration>

mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

第五步：启动Hadoop服务

1. 格式化HDFS

CMD中执行：

hdfs namenode -format

2. 启动服务

执行以下命令：

start-dfs.cmd
start-yarn.cmd

3. 验证服务

访问NameNode Web UI：
```
http://localhost:9870
```
访问YARN Web UI：
```
http://localhost:8088
```

第六步：运行测试案例

1. 创建HDFS目录

hdfs dfs -mkdir /input

2. 上传测试文件

hdfs dfs -put %HADOOP_HOME%\README.txt /input

3. 运行WordCount

hadoop jar %HADOOP_HOME%\share\hadoop\mapreduce\hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output

常见问题解决

1. 端口冲突

错误示例：

java.net.BindException: Port in use

解决方案： 1. 查找占用端口的进程：

   netstat -ano | findstr "9000"

结束相关进程或修改Hadoop配置中的端口号

2. 内存不足

编辑%HADOOP_HOME%\etc\hadoop\hadoop-env.cmd：

set HADOOP_HEAPSIZE_MAX=512m

3. WinUtils权限问题

确保执行：

winutils.exe chmod -R 777 %HADOOP_HOME%

结语

通过本教程，您已成功在Windows上搭建了Hadoop单机环境。虽然生产环境通常使用Linux集群，但本地环境对于学习和开发测试非常有用。下一步可以尝试： - 使用Hive/Pig等工具 - 学习YARN资源管理 - 探索Spark on Hadoop集成

注意：Windows环境仅推荐用于开发测试，生产环境请使用Linux系统。

”`

（全文约2050字）