怎么从Hadoop URL中读取数据

发布时间:2021-08-12 11:58:59 作者:chen
来源:亿速云 阅读:169

本篇内容介绍了“怎么从Hadoop URL中读取数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

要从Hadoop文件系统中读取文件,一个最简单的方法是使用java.net.URL对象来打开一个数据流,从而从中读取数据。一般的格式如下:
1.    InputStream in = null;  
2. try {  
3.     in = new URL("hdfs://host/path").openStream();  
4.     // process in  
5. } finally {  
6.     IOUtils.closeStream(in);  
7. } 
这里还需要一点工作来让Java识别Hadoop文件系统的URL 方案,就是通过一个FsUrlStreamHandlerFactory实例来调用在URL中的setURLStreamHandler-Factory方法。这种方法在一个Java虚拟机中只能被调用一次,因此一般都在一个静态块中执行。这个限制意味着如果程序的其他部件(可能是不在你控制中的第三方部件)设置一个URLStreamHandlerFactory,我们便无法再从Hadoop中读取数据。下一节将讨论另一种方法。
例3-1展示了以标准输出显示Hadoop文件系统的文件的程序,它类似于Unix的cat命令。
例3-1:用URLStreamHandler以标准输出格式显示Hadoop文件系统的文件
1. public class URLCat {  
2.  
3.  static {  
4.    URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());  
5.  }  
6.    
7.  public static void main(String[] args) throws Exception {  
8.    InputStream in = null;  
9.    try {  
10.      in = new URL(args[0]).openStream();  
11.      IOUtils.copyBytes(in, System.out, 4096, false);  
12.    } finally {  
13.      IOUtils.closeStream(in);  
14.    }  
15.  }  
16. } 
我们使用Hadoop中简洁的IOUtils类在finally子句中关闭数据流,同时复制输入流和输出流之间的字节(本例中是System.out)。copyBytes方法的最后两个参数,前者是要复制的缓冲的大小,后者表示复制结束后是否关闭数据流。这里是将输入流关掉了,而System.out不需要关闭。

“怎么从Hadoop URL中读取数据”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!

推荐阅读:
  1. Hadoop学习--URL方法访问HDFS数据--day04
  2. 从plist文件中读取数据

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

hadoop url

上一篇:python如何调用c++返回带成员指针的类

下一篇:Vue2.x中怎么实现一个条件搜索组件

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》