Ubuntu HDFS配置后如何测试 - 问答

配置完成后，首先需确认HDFS核心进程是否正常启动。在终端执行jps命令，若输出中包含NameNode（主节点）、DataNode（数据节点）进程（伪分布式模式下无SecondaryNameNode，集群模式下需包含），则说明HDFS服务启动成功。

通过浏览器访问HDFS的Web管理界面，直观查看集群状态：

HDFS状态页：http://localhost:9870（Hadoop 3.x版本）或http://localhost:50070（Hadoop 2.x版本），确认“Live Nodes”显示当前DataNode节点在线（伪分布式模式为1个）。
YARN资源页（若配置了YARN）：http://localhost:8088，检查“Active Nodes”显示NodeManager节点正常。

使用HDFS命令行工具执行常见文件操作，验证文件系统的读写功能：

运行Hadoop自带的MapReduce示例程序，验证集群的计算能力：

WordCount（词频统计）：
① 准备测试数据：echo "Hello Hadoop World" > input.txt、echo "Hadoop is awesome" >> input.txt。
② 上传数据至HDFS：hdfs dfs -mkdir -p /user/hadoop/wordcount/input、hdfs dfs -put input.txt /user/hadoop/wordcount/input/。
③ 执行WordCount任务：yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /user/hadoop/wordcount/input /user/hadoop/wordcount/output。
④ 查看结果：hdfs dfs -cat /user/hadoop/wordcount/output/part-r-00000，预期输出单词及出现次数（如Hadoop 2、is 2、awesome 1、World 1）。
Pi计算（蒙特卡洛算法）：yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar pi 10 100，验证任务调度功能，预期输出π的近似值（如3.141592653589793）。

使用Hadoop自带的TestDFSIO工具评估HDFS的读写性能：

写入性能测试：yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-*.jar TestDFSIO -write -nrFiles 10 -size 1GB（生成10个1GB文件，测量写入吞吐量）。
读取性能测试：yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-*.jar TestDFSIO -read -nrFiles 10 -size 1GB（读取上述文件，测量读取吞吐量）。
结果分析：通过输出的“Throughput”（吞吐量，单位MB/s）评估集群性能，若吞吐量符合预期（如伪分布式模式下写入约50-100MB/s），则说明配置正常。

0 赞

0 踩