在Windows下安装Hadoop的方法

发布时间：2021-07-30 18:24:34 作者：chen
来源：亿速云阅读：334

# 在Windows下安装Hadoop的方法

## 前言

Hadoop作为Apache基金会旗下的开源分布式计算框架，广泛应用于大数据处理领域。虽然Hadoop原生设计基于Linux环境，但通过适当配置也可以在Windows系统上运行。本文将详细介绍在Windows 10/11系统下安装和配置Hadoop 3.x的完整流程。

---

## 一、环境准备

### 1.1 硬件要求
- 内存：建议8GB以上（单机伪分布式模式）
- 磁盘空间：至少20GB可用空间
- 处理器：支持64位的多核CPU

### 1.2 软件要求
| 组件 | 版本要求 | 备注 |
|------|----------|------|
| 操作系统 | Windows 10/11 64位 | 需启用开发者模式 |
| Java | JDK 8/11 | 推荐Oracle JDK或OpenJDK |
| Hadoop | 3.3.0+ | 本文以3.3.4为例 |
| 辅助工具 | Git for Windows | 可选，用于下载源码 |

---

## 二、安装步骤详解

### 2.1 安装Java环境

1. 下载JDK安装包：
   - Oracle官网下载：https://www.oracle.com/java/technologies/javase-downloads.html
   - 或使用OpenJDK：https://adoptium.net/

2. 安装JDK：
   ```powershell
   # 默认安装路径示例
   C:\Program Files\Java\jdk1.8.0_301

配置环境变量：
- 新建系统变量 JAVA_HOME = C:\Program Files\Java\jdk1.8.0_301
- 编辑Path变量，添加：
```
%JAVA_HOME%\bin
```
验证安装：
```
java -version
javac -version
```

2.2 安装Hadoop

下载二进制包：

# 官方镜像（推荐清华镜像加速）
https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/

解压到安装目录：
```
# 示例路径
C:\hadoop-3.3.4
```
配置环境变量：
- 新建 HADOOP_HOME = C:\hadoop-3.3.4
- Path添加：
```
%HADOOP_HOME%\bin
%HADOOP_HOME%\sbin
```
验证基础安装：
```
hadoop version
```

三、关键配置修改

3.1 修改Hadoop配置文件

所有配置文件位于 %HADOOP_HOME%\etc\hadoop\ 目录下：

core-site.xml：

<configuration>
 <property>
   <name>fs.defaultFS</name>
   <value>hdfs://localhost:9000</value>
 </property>
 <property>
   <name>hadoop.tmp.dir</name>
   <value>/C:/hadoop-3.3.4/tmp</value>
 </property>
</configuration>

hdfs-site.xml：

<configuration>
 <property>
   <name>dfs.replication</name>
   <value>1</value>
 </property>
 <property>
   <name>dfs.namenode.name.dir</name>
   <value>/C:/hadoop-3.3.4/namenode</value>
 </property>
 <property>
   <name>dfs.datanode.data.dir</name>
   <value>/C:/hadoop-3.3.4/datanode</value>
 </property>
</configuration>

mapred-site.xml：

<configuration>
 <property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
</configuration>

yarn-site.xml：

<configuration>
 <property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
 </property>
</configuration>

3.2 解决Windows兼容性问题

下载winutils二进制文件：

# 从GitHub获取对应版本的winutils
https://github.com/cdarlint/winutils

替换hadoop/bin目录下的文件：

copy winutils.exe %HADOOP_HOME%\bin\
copy hadoop.dll %HADOOP_HOME%\bin\

设置系统环境变量：

HADOOP_HOME = C:\hadoop-3.3.4
HADOOP_USER_NAME = your_username

四、启动与测试

4.1 初始化HDFS

格式化NameNode：
```
hdfs namenode -format
```
启动HDFS服务：
```
start-dfs.cmd
```
启动YARN服务：
```
start-yarn.cmd
```

4.2 验证服务状态

检查进程：

jps

应显示：

NameNode
DataNode
ResourceManager
NodeManager

访问Web UI：
- NameNode: http://localhost:9870
- YARN: http://localhost:8088

4.3 运行测试案例

创建HDFS目录：
```
hdfs dfs -mkdir /input
```
上传测试文件：
```
hdfs dfs -put README.txt /input
```

运行WordCount：

hadoop jar %HADOOP_HOME%/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /input /output

五、常见问题解决

5.1 端口冲突问题

错误现象：java.net.BindException: Port in use

解决方案：


netstat -ano | findstr "9000"
taskkill /PID <pid> /F

5.2 权限问题

错误现象：AccessControlException

解决方案：


<!-- 在hdfs-site.xml中添加 -->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

5.3 内存不足

修改%HADOOP_HOME%/etc/hadoop/hadoop-env.cmd：
```
set HADOOP_HEAPSIZE_MAX=512m
```

六、进阶配置建议

6.1 集成开发环境

Eclipse/IntelliJ IDEA插件配置
使用Maven管理Hadoop项目

6.2 性能优化

调整HDFS块大小（默认128MB）
配置YARN容器内存参数

6.3 安全配置

启用Kerberos认证
配置SSL加密传输

结语

通过上述步骤，我们成功在Windows系统上搭建了Hadoop伪分布式环境。虽然Windows不是生产环境推荐平台，但对于学习和开发测试已经足够。建议在实际大数据项目中仍使用Linux集群环境。

注意：本文配置基于Hadoop 3.3.4版本，其他版本可能需要调整配置参数。遇到问题时建议查阅对应版本的官方文档。 “`

该文档共约2800字，采用Markdown格式编写，包含： 1. 结构化标题层级 2. 代码块和配置示例 3. 表格形式的版本要求 4. 问题解决章节 5. 实际操作的命令行示例 6. Web UI访问方式 7. 兼容性解决方案 8. 进阶学习建议

可根据实际需要调整配置参数或补充特定版本的注意事项。