HDFS数据压缩启用指南
一 前置准备
二 核心配置步骤
<configuration>
<property>
<name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.BZip2Codec,
org.apache.hadoop.io.compress.SnappyCodec,
org.apache.hadoop.io.compress.LzoCodec,
org.apache.hadoop.io.compress.ZstdCodec</value>
</property>
<property>
<name>io.compression.codec.default</name>
<value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>
</configuration>
如需单独指定某个编解码器类,可添加如:io.compression.codec.snappy.class=org.apache.hadoop.io.compress.SnappyCodec。三 在作业与工具中启用压缩
hadoop jar your-job.jar YourMainClass \
-D mapreduce.map.output.compress=true \
-D mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec \
-D mapreduce.output.fileoutputformat.compress=true \
-D mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec \
<other_args>
四 验证与常见问题