centos

HDFS在CentOS上的数据压缩策略

小樊
48
2025-09-02 02:43:57
栏目: 智能运维

一、常用压缩算法及适用场景

二、配置步骤

  1. 安装依赖包

    • 基础压缩库(如Gzip)通常已预装,LZO/Snappy需额外安装:
      sudo yum install lzo snappy-devel  # 安装LZO和Snappy库
      
  2. 修改Hadoop配置文件

    • core-site.xml:指定压缩编解码器
      <property>
        <name>io.compression.codecs</name>
        <value>org.apache.hadoop.io.compress.SnappyCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec</value>
      </property>
      <property>
        <name>io.compression.codec.snappy.class</name>
        <value>org.apache.hadoop.io.compress.SnappyCodec</value>
      </property>
      
    • hdfs-site.xml:可调整块大小(如128MB或256MB)以适配压缩算法。
    • mapred-site.xml:启用MapReduce作业压缩
      <property>
        <name>mapreduce.map.output.compress</name>
        <value>true</value>
      </property>
      <property>
        <name>mapreduce.map.output.compress.codec</name>
        <value>org.apache.hadoop.io.compress.SnappyCodec</value>
      </property>
      
  3. 重启服务生效

    sudo systemctl restart hadoop-namenode hadoop-datanode
    

三、注意事项

0
看了该问题的人还看了