怎样在 Ubuntu 上进行 Hadoop 性能测试 - 问答

在Ubuntu上进行Hadoop性能测试可参考以下步骤，结合工具与命令完成：

确保Hadoop集群正常运行，可通过jps命令检查NameNode、DataNode等进程状态。
准备测试数据集，或使用工具生成随机数据（如hadoop jar hadoop-mapreduce-client-jobclient.jar TestDFSIO -clean清理历史数据）。

TestDFSIO（Hadoop自带）：测试HDFS读写性能。
- 写测试：hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-*.jar TestDFSIO -write -nrFiles 10 -fileSize 100（生成10个100MB文件并写入）。
- 读测试：hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-*.jar TestDFSIO -read -nrFiles 10 -fileSize 100（读取已写入的文件）。
- 结果保存在TestDFSIO_results.log中，可查看吞吐量、延迟等指标。
TeraSort（Hadoop自带）：测试排序性能，分为生成数据、排序、验证三步。
- 生成数据：hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples.jar teragen 100000000 /testDir/input（生成1亿条数据）。
- 排序：hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples.jar terasort /testDir/input /testDir/output。
- 验证：hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples.jar teravalidate /testDir/output /testDir/validation。
HiBench（第三方框架）：支持多种Hadoop基准测试（如WordCount、TeraSort、DFSIO增强版）。
- 安装：git clone https://github.com/intel-hadoop/HiBench.git，配置conf/hibench.conf后运行./run-hadoopbench.sh。

参考来源：

0 赞

0 踩