Hadoop windows本地环境安装教程

发布时间:2021-07-05 17:11:29 作者:chen
来源:亿速云 阅读:193
# Hadoop Windows本地环境安装教程

## 前言

Apache Hadoop是一个开源的分布式计算框架,主要用于处理海量数据的存储和分析。虽然Hadoop通常运行在Linux集群环境中,但对于开发者学习和测试而言,在Windows本地搭建Hadoop环境也非常必要。本教程将详细介绍在Windows 10/11系统上搭建Hadoop 3.x单机环境的完整步骤。

---

## 环境准备

### 硬件要求
- 操作系统:Windows 10/11(64位)
- 内存:至少8GB(推荐16GB)
- 磁盘空间:至少20GB可用空间

### 软件要求
1. **Java JDK 8+**  
   Hadoop 3.x需要Java 8或更高版本
2. **Hadoop 3.x**  
   推荐使用3.3.6稳定版本
3. **Windows工具包**  
   - WinUtils(Hadoop Windows兼容工具)
   - Microsoft Visual C++ Redistributable

---

## 第一步:安装Java环境

### 1. 下载JDK
访问[Oracle官网](https://www.oracle.com/java/technologies/javase-jdk8-downloads.html)下载Windows x64版本的JDK 8+。

### 2. 安装JDK
双击安装包,按向导完成安装。默认安装路径为:

C:\Program Files\Java\jdk1.8.0_XXX


### 3. 配置环境变量
1. 右键"此电脑" → 属性 → 高级系统设置 → 环境变量
2. 新建系统变量:

JAVA_HOME = C:\Program Files\Java\jdk1.8.0_XXX

3. 编辑Path变量,添加:

%JAVA_HOME%\bin


### 4. 验证安装
打开CMD,执行:
```bash
java -version

应显示类似:

java version "1.8.0_XXX"

第二步:安装Hadoop

1. 下载Hadoop

Apache官网下载二进制包(例如hadoop-3.3.6.tar.gz)。

2. 解压文件

使用7-Zip等工具解压到无空格路径,例如:

D:\hadoop-3.3.6

3. 配置环境变量

  1. 新建系统变量:
    
    HADOOP_HOME = D:\hadoop-3.3.6
    
  2. 编辑Path变量,添加:
    
    %HADOOP_HOME%\bin
    %HADOOP_HOME%\sbin
    

4. 验证安装

CMD中执行:

hadoop version

应显示Hadoop版本信息。


第三步:安装WinUtils

1. 下载WinUtils

从GitHub获取对应版本的winutils.exe

2. 放置文件

winutils.exehadoop.dll复制到:

%HADOOP_HOME%\bin

3. 设置权限

CMD中执行(注意替换路径):

winutils.exe chmod 777 D:\hadoop-3.3.6

第四步:配置Hadoop

1. 创建必要目录

在Hadoop根目录下创建:

mkdir data\namenode
mkdir data\datanode

2. 修改配置文件

编辑%HADOOP_HOME%\etc\hadoop下的文件:

core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/D:/hadoop-3.3.6/data/tmp</value>
    </property>
</configuration>

hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/D:/hadoop-3.3.6/data/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/D:/hadoop-3.3.6/data/datanode</value>
    </property>
</configuration>

mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

第五步:启动Hadoop服务

1. 格式化HDFS

CMD中执行:

hdfs namenode -format

2. 启动服务

执行以下命令:

start-dfs.cmd
start-yarn.cmd

3. 验证服务

  1. 访问NameNode Web UI:
    
    http://localhost:9870
    
  2. 访问YARN Web UI:
    
    http://localhost:8088
    

第六步:运行测试案例

1. 创建HDFS目录

hdfs dfs -mkdir /input

2. 上传测试文件

hdfs dfs -put %HADOOP_HOME%\README.txt /input

3. 运行WordCount

hadoop jar %HADOOP_HOME%\share\hadoop\mapreduce\hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output

常见问题解决

1. 端口冲突

错误示例:

java.net.BindException: Port in use

解决方案: 1. 查找占用端口的进程:

   netstat -ano | findstr "9000"
  1. 结束相关进程或修改Hadoop配置中的端口号

2. 内存不足

编辑%HADOOP_HOME%\etc\hadoop\hadoop-env.cmd

set HADOOP_HEAPSIZE_MAX=512m

3. WinUtils权限问题

确保执行:

winutils.exe chmod -R 777 %HADOOP_HOME%

结语

通过本教程,您已成功在Windows上搭建了Hadoop单机环境。虽然生产环境通常使用Linux集群,但本地环境对于学习和开发测试非常有用。下一步可以尝试: - 使用Hive/Pig等工具 - 学习YARN资源管理 - 探索Spark on Hadoop集成

注意:Windows环境仅推荐用于开发测试,生产环境请使用Linux系统。

”`

(全文约2050字)

推荐阅读:
  1. Hadoop会遇到的45个问题,你确定你了解吗?
  2. Eclipse集成hadoop插件开发环境

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

hadoop

上一篇:Python中怎么实现一个支付接口

下一篇:Python中怎么转义序列

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》