在Ubuntu上部署Hadoop集群是一个相对复杂的过程,需要仔细规划和执行多个步骤。以下是一个基本的指南,帮助你在Ubuntu上搭建一个Hadoop集群。
sudo apt-get update
sudo apt-get install openjdk-8-jdk
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -zxvf hadoop-3.3.1.tar.gz
/etc/profile
文件,在文件结尾处添加以下内容:export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置文件生效:source /etc/profile
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/data/datanode</value>
</property>
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
</configuration>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>
start-all.sh
jps
如果输出以下信息,则表示Hadoop集群正常运行:16209 NameNode
16354 ResourceManager
16420 SecondaryNameNode
上传文件至Hadoop集群: 在Master节点上创建输入文件夹:
hadoop fs -mkdir input
将本地文件上传到Hadoop集群:
hadoop fs -put /home/user/input/sample.txt input
查看上传的文件内容:
hadoop fs -cat input/sample.txt
输出以下内容,则表示上传成功:
Hello Hadoop!
运行Hadoop示例:
准备输入文件sample.txt
,内容如下:
Hello Hadoop!Hello MapReduce!
上传输入文件与示例1相同,运行wordcount示例:
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount input/ output/
查看输出文件:
hadoop fs -cat output/part-r-00000
输出以下内容,则表示示例运行成功:
Hadoop! 1Hello 2MapReduce! 1
以上步骤提供了一个基本的指南,帮助你在Ubuntu上搭建一个Hadoop集群。根据具体需求,你可能需要进行更多的配置和优化。