在Ubuntu上,HDFS(Hadoop Distributed File System)的数据存储位置通常是由配置文件hdfs-site.xml
中的设置决定的。如果没有特别配置,HDFS的默认数据存储路径如下:
默认存放路径:
/tmp/hadoop-{user.name}
。例如,对于用户hyxy
,默认路径可能是/tmp/hadoop-hyxy
。配置文件:
hdfs-site.xml
,该文件通常位于$HADOOP_HOME/etc/hadoop/
目录下。在这个文件中,可以通过设置dfs.namenode.name.dir
和dfs.datanode.data.dir
属性来指定NameNode和数据节点的存储路径。自定义路径:
hdfs-site.xml
文件中的dfs.namenode.name.dir
和dfs.datanode.data.dir
属性来指定自定义的数据存储路径。例如:<property>
<name>dfs.namenode.name.dir</name>
<value>/your/custom/path/on/local/disk1,/your/custom/path/on/local/disk2</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/your/custom/path/on/local/disk3,/your/custom/path/on/local/disk4</value>
</property>
查看数据存储位置:
hdfs fsck / -files -blocks -locations
Python存储数据的常见位置:
hdfs_path = "/user/hadoop/raw_data/logs/2023-08-01"
请注意,具体的存储位置可能会因Hadoop版本、配置不同而有所差异,建议参考相应版本的官方文档或配置文件进行确认。