在Ubuntu上进行Hadoop性能测试可参考以下步骤,结合工具与命令完成:
jps命令检查NameNode、DataNode等进程状态。hadoop jar hadoop-mapreduce-client-jobclient.jar TestDFSIO -clean清理历史数据)。TestDFSIO(Hadoop自带):测试HDFS读写性能。
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-*.jar TestDFSIO -write -nrFiles 10 -fileSize 100(生成10个100MB文件并写入)。hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-*.jar TestDFSIO -read -nrFiles 10 -fileSize 100(读取已写入的文件)。TestDFSIO_results.log中,可查看吞吐量、延迟等指标。TeraSort(Hadoop自带):测试排序性能,分为生成数据、排序、验证三步。
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples.jar teragen 100000000 /testDir/input(生成1亿条数据)。hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples.jar terasort /testDir/input /testDir/output。hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples.jar teravalidate /testDir/output /testDir/validation。HiBench(第三方框架):支持多种Hadoop基准测试(如WordCount、TeraSort、DFSIO增强版)。
git clone https://github.com/intel-hadoop/HiBench.git,配置conf/hibench.conf后运行./run-hadoopbench.sh。-nrFiles(文件数量)和-fileSize(文件大小)模拟高负载,观察集群吞吐量与延迟。top、htop或Ganglia工具,监控CPU、内存、磁盘I/O使用情况,定位瓶颈。dfs.blocksize、yarn.scheduler.capacity),重复测试验证优化效果。参考来源: