Hadoop与Linux系统的集成主要涉及以下几个方面:
首先,需要在Linux系统上安装Hadoop。以下是基本步骤:
从Apache Hadoop官方网站下载最新版本的Hadoop。
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
将下载的文件解压到指定目录。
tar -xzvf hadoop-3.3.4.tar.gz -C /usr/local/
编辑Hadoop的配置文件,主要包括core-site.xml
、hdfs-site.xml
、yarn-site.xml
和mapred-site.xml
。
cd /usr/local/hadoop/etc/hadoop
core-site.xml
:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xml
:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
yarn-site.xml
:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
mapred-site.xml
:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
编辑~/.bashrc
或/etc/profile
文件,添加Hadoop的环境变量。
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使环境变量生效:
source ~/.bashrc
启动HDFS和YARN服务。
start-dfs.sh
start-yarn.sh
使用jps
命令检查Hadoop进程是否正常运行。
jps
你应该能看到NameNode
、DataNode
、SecondaryNameNode
、ResourceManager
和NodeManager
等进程。
你可以使用Hadoop提供的命令行工具进行文件操作、集群管理等。
# 列出HDFS目录内容
hdfs dfs -ls /
# 上传文件到HDFS
hdfs dfs -put localfile.txt /user/hadoop/
# 下载文件从HDFS
hdfs dfs -get /user/hadoop/localfile.txt .
# 运行MapReduce作业
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount input output
确保防火墙允许Hadoop所需的端口通信。
sudo firewall-cmd --permanent --zone=public --add-port=9000/tcp
sudo firewall-cmd --permanent --zone=public --add-port=50010/tcp
sudo firewall-cmd --permanent --zone=public --add-port=50020/tcp
sudo firewall-cmd --permanent --zone=public --add-port=8088/tcp
sudo firewall-cmd --reload
使用Hadoop提供的Web界面监控集群状态和管理任务。
http://<namenode-host>:50070
http://<resourcemanager-host>:8088
通过以上步骤,你可以成功地将Hadoop集成到Linux系统中,并进行基本的操作和管理。