HDFS透明加密(Transparent Data Encryption, TDE)是Hadoop原生支持的高级加密功能,通过**加密区域(Encryption Zones)**实现对指定目录下数据的自动加密(写入时加密、读取时解密),无需修改应用程序代码,是生产环境最常用的加密方案。
hdfs
用户对密钥库路径有读写权限。修改Hadoop核心配置文件(core-site.xml
和hdfs-site.xml
),添加以下关键配置:
core-site.xml
<property>
<name>hadoop.security.encryption.key.provider.path</name>
<value>hdfs:///etc/hadoop/conf/encryption.keystore.jceks</value> <!-- 密钥库路径(JCEKS格式) -->
</property>
<property>
<name>hadoop.security.encryption.region.size</name>
<value>10485760</value> <!-- 加密区域块大小(10MB,默认值) -->
</property>
hdfs-site.xml
<property>
<name>dfs.encrypt.data.transfer</name>
<value>true</value> <!-- 启用数据传输加密(可选,增强传输层安全) -->
</property>
<property>
<name>dfs.encrypt.data.transfer.algorithm</name>
<value>AES_CBC</value> <!-- 传输加密算法(默认AES_CBC) -->
</property>
<property>
<name>dfs.encrypt.data.transfer.key.length</name>
<value>256</value> <!-- 密钥长度(256位,符合合规要求) -->
</property>
<property>
<name>dfs.encryption.zone.enabled</name>
<value>true</value> <!-- 启用加密区域功能 -->
</property>
配置完成后,重启HDFS集群使参数生效:
sudo systemctl restart hadoop-hdfs-namenode
sudo systemctl restart hadoop-hdfs-datanode
加密密钥是TDE的核心,需通过hdfs crypto
命令创建并存储在安全位置(如HDFS的/etc/hadoop/conf/
目录):
# 创建JCEKS格式密钥库(若不存在)
keytool -importkeystore -srckeystore /path/to/keystore.jceks -destkeystore /path/to/keystore.jceks -deststoretype jceks
# 生成AES-256加密密钥(名称需唯一,如"myZoneKey")
hdfs crypto -createKey -keyName myZoneKey -providerURI hdfs:///etc/hadoop/conf/encryption.keystore.jceks
注意:密钥库密码需妥善保管(如通过KMS或离线介质存储),丢失将无法恢复加密数据。
选择需要加密的HDFS目录(如/user/hdfs/encrypted_data
),通过hdfs crypto
命令创建加密区域并关联密钥:
# 创建加密目录
hdfs dfs -mkdir -p /user/hdfs/encrypted_data
# 将目录标记为加密区域,并关联密钥"myZoneKey"
hdfs crypto -createZone -keyName myZoneKey -path /user/hdfs/encrypted_data
将现有明文数据移动至加密区域,移动后数据会自动加密(存储为密文):
hdfs dfs -mv /user/hdfs/plain_data/* /user/hdfs/encrypted_data/
hdfs dfs -put /local/plain_file.txt /user/hdfs/encrypted_data/
hdfs dfs -cat /user/hdfs/encrypted_data/plain_file.txt
hdfs crypto -listZones
若不想使用透明加密,可通过配置HDFS客户端,在客户端本地完成数据加密后再写入HDFS,读取时由客户端解密。适用于需要端到端加密的场景(如数据离开客户端后无需HDFS解密)。
修改客户端core-site.xml
文件,添加以下配置:
<property>
<name>dfs.encrypt.data.transfer</name>
<value>true</value> <!-- 启用客户端传输加密 -->
</property>
<property>
<name>dfs.encryption.key.provider.path</name>
<value>/local/path/to/client_keystore.jceks</value> <!-- 客户端本地密钥库路径 -->
</property>
客户端写入数据时,会自动加密;读取时自动解密,无需修改HDFS集群配置。
若HDFS原生加密无法满足需求(如需要文件系统级加密),可使用第三方工具(如EncFS、eCryptfs)实现数据加密。这类工具通过挂载加密目录的方式,将HDFS目录映射为本地加密目录,数据在写入本地目录时加密,读取时解密。
sudo apt-get install encfs # Debian/Ubuntu
sudo yum install encfs # CentOS/RHEL
mkdir /local/encrypted_hdfs /local/decrypted_hdfs
encfs /local/encrypted_hdfs /local/decrypted_hdfs
/local/decrypted_hdfs
(自动加密并同步至HDFS);/local/decrypted_hdfs
读取数据(自动解密)。dfs.encrypt.data.transfer
参数)。