在Ubuntu上进行HDFS数据迁移,可参考以下步骤:
安装Hadoop环境
sudo apt update && sudo apt install openjdk-8-jdk。wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz,然后tar -xzvf到指定目录。~/.bashrc,添加export HADOOP_HOME=/path/to/hadoop和export PATH=$PATH:$HADOOP_HOME/bin,执行source ~/.bashrc。core-site.xml(设置fs.defaultFS为HDFS地址)、hdfs-site.xml(设置副本数、数据目录等)。hdfs namenode -format,启动集群:start-dfs.sh。数据迁移操作
hdfs dfs -put命令上传本地文件到HDFS,或hdfs dfs -get下载HDFS文件到本地。# 上传本地文件到HDFS
hdfs dfs -put /local/path/file.txt /hdfs/destination/
distcp,支持跨集群复制数据。# 同集群内迁移
hadoop distcp hdfs://namenode1:9000/source/path hdfs://namenode1:9000/destination/path
# 跨集群迁移(需配置集群间通信)
hadoop distcp hdfs://namenode1:9000/source/path hdfs://namenode2:9000/destination/path
可选参数:-m设置并行任务数,-bandwidth限制带宽,-p保留文件权限,-update更新已存在文件。验证与优化
hdfs dfs -ls检查文件是否存在,hdfs dfs -cat查看文件内容。distcp -update确保数据一致性,处理新增或删除的文件。注意事项:
参考资料: