在Debian上配置Hadoop资源分配涉及多个步骤,包括安装Hadoop、配置核心文件、启用动态资源分配等。以下是详细的步骤指南:
首先,更新系统并安装必要的软件包:
sudo apt update
sudo apt upgrade
sudo apt install openjdk-8-jdk
下载并解压Hadoop安装包:
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.5/hadoop-3.3.5.tar.gz
tar -zxvf hadoop-3.3.5.tar.gz -C /opt
编辑~/.bashrc
文件,添加Hadoop的安装路径和bin目录到PATH环境变量中:
export HADOOP_HOME=/opt/hadoop-3.3.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:
source ~/.bashrc
指定NameNode的地址和Hadoop数据的存储目录:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-3.3.5/data</value>
</property>
</configuration>
配置HDFS相关参数:
<configuration>
<property>
<name>dfs.namenode.http-address</name>
<value>hadoop102</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
配置YARN相关参数,启用动态资源分配:
<configuration>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>8192</value>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>4096</value>
</property>
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>512</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>spark.dynamicAllocation.enabled</name>
<value>true</value>
</property>
</configuration>
配置MapReduce相关参数:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
在NameNode节点上运行以下命令格式化HDFS文件系统:
hdfs namenode -format
使用以下命令启动Hadoop集群:
start-all.sh
可以通过查看日志或使用Hadoop的管理界面(如Ambari)来确认Hadoop服务是否成功启动。
动态资源分配的配置已经在yarn-site.xml
中完成,启用后,YARN会根据作业的需要自动调整集群中资源的分配。