linux

Hadoop数据压缩Linux如何设置

小樊
48
2025-11-14 23:32:21
栏目: 智能运维

Linux环境下设置Hadoop数据压缩

一 环境准备与编解码器安装

二 配置Hadoop启用压缩

<configuration>
  <property>
    <name>io.compression.codecs</name>
    <value>
      org.apache.hadoop.io.compress.GzipCodec,
      org.apache.hadoop.io.compress.DefaultCodec,
      org.apache.hadoop.io.compress.BZip2Codec,
      org.apache.hadoop.io.compress.SnappyCodec,
      org.apache.hadoop.io.compress.Lz4Codec
    </value>
  </property>
</configuration>
<configuration>
  <!-- 中间结果(shuffle)压缩 -->
  <property>
    <name>mapreduce.map.output.compress</name>
    <value>true</value>
  </property>
  <property>
    <name>mapreduce.map.output.compress.codec</name>
    <value>org.apache.hadoop.io.compress.SnappyCodec</value>
  </property>

  <!-- 作业最终输出压缩 -->
  <property>
    <name>mapreduce.output.fileoutputformat.compress</name>
    <value>true</value>
  </property>
  <property>
    <name>mapreduce.output.fileoutputformat.compress.codec</name>
    <value>org.apache.hadoop.io.compress.SnappyCodec</value>
  </property>
</configuration>

三 命令行与作业中的使用示例

四 常用压缩格式选择建议

五 常见问题与排查

0
看了该问题的人还看了