搭建Hadoop集群需要以下步骤:
安装Java:在所有节点上安装Java,并设置正确的JAVA_HOME环境变量。
下载Hadoop:从Apache官网下载Hadoop的二进制包,解压到所有节点的相同目录下。
配置Hadoop:进入Hadoop的安装目录,编辑etc/hadoop/core-site.xml
文件,添加如下配置:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://namenode_hostname:9000</value> <!-- namenode_hostname为主节点的主机名 -->
</property>
</configuration>
然后编辑etc/hadoop/hdfs-site.xml
文件,添加如下配置:
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value> <!-- 设置副本数量 -->
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/data/hadoop/dfs/name</value> <!-- 设置主节点的数据存储路径 -->
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/data/hadoop/dfs/data</value> <!-- 设置从节点的数据存储路径 -->
</property>
</configuration>
最后编辑etc/hadoop/mapred-site.xml.template
文件,将其另存为etc/hadoop/mapred-site.xml
,添加如下配置:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
配置主从节点:在etc/hadoop/slaves
文件中按行填写从节点的主机名或IP地址,每行一个节点。
配置SSH免密码登录:在主节点上生成SSH密钥对,并将公钥分发到所有节点上,可以使用ssh-keygen
和ssh-copy-id
命令实现。
启动Hadoop集群:在主节点上执行以下命令启动Hadoop集群。
sbin/start-dfs.sh
sbin/start-yarn.sh
http://namenode_hostname:50070
,YARN界面地址为http://namenode_hostname:8088
。以上是一个基本的Hadoop集群搭建过程,具体的配置和调整可以根据需求进行修改。