您好,登录后才能下订单哦!
# Hadoop Windows本地环境安装教程
## 前言
Apache Hadoop是一个开源的分布式计算框架,主要用于处理海量数据的存储和分析。虽然Hadoop通常运行在Linux集群环境中,但对于开发者学习和测试而言,在Windows本地搭建Hadoop环境也非常必要。本教程将详细介绍在Windows 10/11系统上搭建Hadoop 3.x单机环境的完整步骤。
---
## 环境准备
### 硬件要求
- 操作系统:Windows 10/11(64位)
- 内存:至少8GB(推荐16GB)
- 磁盘空间:至少20GB可用空间
### 软件要求
1. **Java JDK 8+**
Hadoop 3.x需要Java 8或更高版本
2. **Hadoop 3.x**
推荐使用3.3.6稳定版本
3. **Windows工具包**
- WinUtils(Hadoop Windows兼容工具)
- Microsoft Visual C++ Redistributable
---
## 第一步:安装Java环境
### 1. 下载JDK
访问[Oracle官网](https://www.oracle.com/java/technologies/javase-jdk8-downloads.html)下载Windows x64版本的JDK 8+。
### 2. 安装JDK
双击安装包,按向导完成安装。默认安装路径为:
C:\Program Files\Java\jdk1.8.0_XXX
### 3. 配置环境变量
1. 右键"此电脑" → 属性 → 高级系统设置 → 环境变量
2. 新建系统变量:
JAVA_HOME = C:\Program Files\Java\jdk1.8.0_XXX
3. 编辑Path变量,添加:
%JAVA_HOME%\bin
### 4. 验证安装
打开CMD,执行:
```bash
java -version
应显示类似:
java version "1.8.0_XXX"
从Apache官网下载二进制包(例如hadoop-3.3.6.tar.gz
)。
使用7-Zip等工具解压到无空格路径,例如:
D:\hadoop-3.3.6
HADOOP_HOME = D:\hadoop-3.3.6
%HADOOP_HOME%\bin
%HADOOP_HOME%\sbin
CMD中执行:
hadoop version
应显示Hadoop版本信息。
从GitHub获取对应版本的winutils.exe。
将winutils.exe
和hadoop.dll
复制到:
%HADOOP_HOME%\bin
CMD中执行(注意替换路径):
winutils.exe chmod 777 D:\hadoop-3.3.6
在Hadoop根目录下创建:
mkdir data\namenode
mkdir data\datanode
编辑%HADOOP_HOME%\etc\hadoop
下的文件:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/D:/hadoop-3.3.6/data/tmp</value>
</property>
</configuration>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/D:/hadoop-3.3.6/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/D:/hadoop-3.3.6/data/datanode</value>
</property>
</configuration>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
CMD中执行:
hdfs namenode -format
执行以下命令:
start-dfs.cmd
start-yarn.cmd
http://localhost:9870
http://localhost:8088
hdfs dfs -mkdir /input
hdfs dfs -put %HADOOP_HOME%\README.txt /input
hadoop jar %HADOOP_HOME%\share\hadoop\mapreduce\hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output
错误示例:
java.net.BindException: Port in use
解决方案: 1. 查找占用端口的进程:
netstat -ano | findstr "9000"
编辑%HADOOP_HOME%\etc\hadoop\hadoop-env.cmd
:
set HADOOP_HEAPSIZE_MAX=512m
确保执行:
winutils.exe chmod -R 777 %HADOOP_HOME%
通过本教程,您已成功在Windows上搭建了Hadoop单机环境。虽然生产环境通常使用Linux集群,但本地环境对于学习和开发测试非常有用。下一步可以尝试: - 使用Hive/Pig等工具 - 学习YARN资源管理 - 探索Spark on Hadoop集成
注意:Windows环境仅推荐用于开发测试,生产环境请使用Linux系统。
”`
(全文约2050字)
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。