Hadoop在Ubuntu上的最佳实践有哪些 - 问答

Hadoop在Ubuntu上的最佳实践

系统更新：安装前确保Ubuntu系统为最新版本，避免兼容性问题。执行sudo apt update && sudo apt upgrade -y更新系统包。
Java环境安装：Hadoop依赖Java运行，推荐使用OpenJDK 8（兼容大多数Hadoop版本）。执行sudo apt install openjdk-8-jdk -y安装，通过java -version验证安装（需显示Java版本信息）。
SSH配置：Hadoop集群节点间需通过SSH无密码通信。安装SSH服务sudo apt install openssh-server -y，启动服务sudo systemctl start ssh并设置开机自启sudo systemctl enable ssh；生成密钥对ssh-keygen -t rsa，将公钥复制到本机cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys，设置权限chmod 600 ~/.ssh/authorized_keys和chmod 700 ~/.ssh。

下载与解压：从Apache官网下载稳定版本（如3.3.6），解压到指定目录（如/usr/local），并修改权限sudo chown -R hadoop:hadoop /usr/local/hadoop（hadoop为用户）。

环境变量设置：编辑~/.bashrc（或/etc/profile），添加Hadoop和Java路径：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

执行source ~/.bashrc使配置生效。

核心配置文件调整：
- core-site.xml：设置HDFS默认文件系统fs.defaultFS为hdfs://localhost:9000（伪分布式）或NameNode IP。
- hdfs-site.xml：配置NameNode数据目录dfs.namenode.name.dir（如/usr/local/hadoop/tmp/dfs/name）、DataNode数据目录dfs.datanode.data.dir（如/usr/local/hadoop/tmp/dfs/data），以及副本数dfs.replication（伪分布式设为1，集群设为3）。
- mapred-site.xml：设置MapReduce框架为YARNmapreduce.framework.name为yarn。
- yarn-site.xml：配置YARN资源管理器辅助服务yarn.nodemanager.aux-services为mapreduce_shuffle。

格式化HDFS：首次启动前需格式化NameNode（会清除原有数据），执行hdfs namenode -format。
启动集群：启动HDFSstart-dfs.sh和YARNstart-yarn.sh，通过jps命令查看进程（应显示NameNode、DataNode、ResourceManager、NodeManager）。
Web界面验证：访问HDFS Web UI（http://localhost:9870）查看HDFS状态，访问YARN ResourceManager（http://localhost:8088）查看资源分配。

硬件优化：
- 内存分配：调整YARN NodeManager内存yarn.nodemanager.resource.memory-mb（如8GB），MapReduce任务JVM堆大小mapreduce.map.java.opts（如2GB）、mapreduce.reduce.java.opts（如4GB）。
- 存储优化：使用SSD替代HDD，将HDFS数据目录配置为SSD路径，提高IO性能。
- CPU配置：增加CPU核心数，调整YARN NodeManager CPU核心数yarn.nodemanager.resource.cpu-vcores（如8核）。
软件配置优化：
- HDFS块大小：根据数据大小调整dfs.blocksize（如128MB或256MB），减少Map任务数量。
- MapReduce并行度：调整mapreduce.job.maps（如每128MB数据1个Map任务）和mapreduce.job.reduces（如每1GB数据1个Reduce任务），提高并行处理能力。
- 数据压缩：启用Map输出压缩mapreduce.map.output.compress（true）和输出压缩mapreduce.output.fileoutputformat.compress（true），使用Snappy或LZO压缩算法，减少磁盘IO和网络传输。
- 数据本地化：调整mapreduce.job.locality.wait（如3秒），让Map任务优先在数据所在节点运行，减少网络传输。
资源管理：
- YARN调度：配置YARN队列（如yarn.scheduler.capacity.root.default.capacity设为80%），合理分配资源。
- 监控工具：使用Ambari或Cloudera Manager监控集群状态（CPU、内存、磁盘、网络），及时发现性能瓶颈。

0 赞

0 踩