Ubuntu下Hadoop通过**HDFS(分布式文件系统)**存储数据,核心机制如下:
- 架构:由NameNode(管理元数据)、DataNode(存储数据块)、Secondary NameNode(辅助合并元数据)组成。
- 数据存储:文件被切分为固定大小的数据块(默认128MB),分布式存储在多个DataNode上,每个块默认保留3个副本,保障高容错性。
- 读写流程:客户端通过NameNode获取数据块位置,直接与DataNode交互读写数据。
- 高可用性:通过副本机制和NameNode的元数据管理,实现故障自动恢复。
配置时需安装Java环境、下载Hadoop并配置核心文件(如core-site.xml
、hdfs-site.xml
),启动后可通过命令行操作HDFS。