如何使用Hadoop存档工具

发布时间：2021-12-09 11:39:45 作者：小新
来源：亿速云阅读：130

这篇文章给大家分享的是有关如何使用Hadoop存档工具的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

每个文件按块方式存储, 每个块的元数据存储在namenode的内存中
Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件存入HDFS块,在减少内存使用的同时,允许对文件进行透明地访问
Hadoop存档文件可以用作MapReduce的输入

使用Hadoop存档工具

Hadoop存档是通过archive工具根据一组文件创建而来的,该存档工具运行一个MapReduce作业来并行处理所有的输入文件
使用archive

hadoop archive -archiveName files.har /my/files /my

第一个选项是存档文件的名称,这里是第一个参数 file.har
第二个参数是需要存档的文件
第三个参数是HAR文件的输出目录
列出HAR文件中的文件

hadoop fs -ls /my/files.har

递归列出HAR文件中的文件
hadoop fs -lsr /my/files.har
其他文件系统中引用HAR文件,则需要使用不同的URI路径格式,示例如下

 hadoop fs -lsr 
	不足
		新建一个存档文件会创建原始文件的一个副本	
		一旦创建,不能修改	
		InputFormat不知道文件已经存档

感谢各位的阅读！关于“如何使用Hadoop存档工具”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

推荐阅读：

免责声明：本站发布的内容（图片、视频和文字）以原创、转载和分享为主，文章观点不代表本网站立场，如果涉及侵权请联系站长邮箱：is@yisu.com进行举报，并提供相关证据，一经查实，将立刻删除涉嫌侵权内容。

hadoop

上一篇：HDFS中fs命令怎么用

下一篇：Scala中怎么把代码都螺旋在一起

相关阅读

您好，登录后才能下订单哦！

密码登录

忘记密码？

登录注册

获取短信验证码

其他方式登录

点击登录注册即表示同意《亿速云用户服务条款》

行业资讯-文章归档问答-问答归档