ubuntu

如何在Ubuntu上使用Hadoop进行大数据分析

小樊
46
2025-10-23 06:20:00
栏目: 智能运维

1. 环境准备:安装Java与SSH
Hadoop依赖Java环境,首先在Ubuntu上安装OpenJDK(推荐11或8版本):

sudo apt update
sudo apt install openjdk-11-jdk

验证安装:java -version(需显示Java版本信息)。
为避免后续启动Hadoop集群时重复输入密码,配置SSH无密码登录:

sudo apt install openssh-server
ssh-keygen -t rsa  # 生成密钥对(直接回车默认路径)
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys  # 添加公钥到授权文件
chmod 600 ~/.ssh/authorized_keys  # 设置文件权限

验证SSH登录:ssh localhost(无需密码即可登录)。

2. 下载与安装Hadoop
从Apache官网下载稳定版本的Hadoop(如3.3.6),解压至/usr/local目录:

wget https://downloads.apache.org/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gz
sudo tar -xzf hadoop-3.3.6.tar.gz -C /usr/local/
sudo mv /usr/local/hadoop-3.3.6 /usr/local/hadoop  # 重命名为hadoop方便使用

3. 配置Hadoop环境变量
编辑~/.bashrc文件,添加Hadoop相关环境变量:

echo "export HADOOP_HOME=/usr/local/hadoop" >> ~/.bashrc
echo "export PATH=\$PATH:\$HADOOP_HOME/bin:\$HADOOP_HOME/sbin" >> ~/.bashrc
source ~/.bashrc  # 使变量立即生效

验证环境变量:hadoop version(需显示Hadoop版本信息)。

4. 配置Hadoop核心文件
进入Hadoop配置目录/usr/local/hadoop/etc/hadoop,修改以下文件:

5. 格式化HDFS与启动集群
首次使用HDFS前,需格式化NameNode(注意:格式化会清除原有数据,仅首次使用执行):

hdfs namenode -format

启动HDFS(分布式文件系统)和YARN(资源管理框架):

start-dfs.sh  # 启动HDFS
start-yarn.sh  # 启动YARN

验证集群状态:

6. 大数据分析实战:WordCount示例
Hadoop的核心功能是分布式数据处理,以下以经典的“WordCount”(统计单词出现次数)为例,演示数据分析流程:

注意事项

0
看了该问题的人还看了