ubuntu

如何在Ubuntu上运行HDFS

小樊
44
2025-06-23 18:33:42
栏目: 智能运维

在Ubuntu上运行Hadoop分布式文件系统(HDFS)涉及多个步骤,包括安装必要的软件、配置Hadoop环境、格式化HDFS以及启动HDFS服务。以下是一个详细的步骤指南:

1. 安装必要的软件

首先,确保你的Ubuntu系统是最新的,并安装Java和SSH。

sudo apt update && sudo apt upgrade -y
sudo apt install openjdk-8-jdk -y
sudo apt install openssh-server -y

2. 下载并解压Hadoop

从Apache Hadoop官网下载最新版本的Hadoop,并将其解压到指定目录,例如/opt/hadoop

cd /opt
sudo wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
sudo tar -zxvf hadoop-3.3.4.tar.gz
cd hadoop-3.3.4

3. 配置Hadoop环境变量

编辑~/.bashrc文件,添加以下内容:

export HADOOP_HOME=/opt/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

然后,使配置文件生效:

source ~/.bashrc

4. 创建Hadoop用户

sudo groupadd hadoop
sudo useradd -g hadoop hadoop

5. 配置Hadoop配置文件

core-site.xml

编辑/opt/hadoop/etc/hadoop/core-site.xml文件,添加以下内容:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

hdfs-site.xml

编辑/opt/hadoop/etc/hadoop/hdfs-site.xml文件,添加以下内容:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/opt/hadoop/data/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/opt/hadoop/data/hdfs/datanode</value>
    </property>
</configuration>

yarn-site.xml

编辑/opt/hadoop/etc/hadoop/yarn-site.xml文件,添加以下内容:

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>localhost</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

mapred-site.xml

编辑/opt/hadoop/etc/hadoop/mapred-site.xml文件,添加以下内容:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

6. 格式化HDFS

在终端中执行以下命令格式化HDFS:

sudo -u hdfs hadoop namenode -format

7. 启动Hadoop服务

启动HDFS和YARN服务:

sudo -u hadoop sbin/start-dfs.sh
sudo -u hadoop sbin/start-yarn.sh

8. 验证Hadoop服务

在浏览器中访问以下地址,查看Hadoop Web界面:

9. 运行示例程序

你可以使用以下命令来运行一个简单的示例程序,验证HDFS是否正常工作:

sudo -u hadoop hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /input /output

然后,使用以下命令查看结果:

sudo -u hadoop hadoop fs -cat /output/_words_count_

通过以上步骤,您已经在Ubuntu上成功安装并配置了Hadoop。现在,您可以开始使用Hadoop进行分布式计算了。

0
看了该问题的人还看了