需说明的是,用户提到的“dopra”可能是“Doris”的误写(Apache Doris是一款开源的MPP数据库)。以下是基于CentOS系统优化Doris存储空间的方法:
-
数据压缩
- 使用ZSTD等高压缩比算法(压缩比可达1:10),在建表时指定压缩方式,减少数据占用的磁盘空间。
- 对冷数据启用更高压缩级别,平衡存储与查询性能。
-
冷热数据分层存储
- 将热数据(如最近7天)存储在SSD,冷数据(如历史数据)自动迁移到HDD或对象存储,降低存储成本。
- 通过设置分区副本数(如热数据3副本、冷数据1副本),优化存储资源利用率。
-
分区与分桶优化
- 按时间范围(如按天/周)创建分区,控制单分区数据量(建议50-80TB),定期清理过期分区。
- 选择高基数列(如用户ID)作为分桶键,避免数据倾斜,提升查询效率。
-
存储介质优化
- 热数据使用NVMe SSD,冷数据使用SATA HDD,通过存储组配置实现分层存储。
- 定期监控磁盘负载,避免单盘过载。
-
系统级优化
- 调整I/O调度器(如Deadline/NOOP)以适配存储介质特性,提升读写效率。
- 启用日志轮转(logrotate)定期清理归档日志,避免日志文件占用过多空间。
注意:操作前需备份重要数据,建议根据实际业务负载测试优化效果。