kettle如何连接HDP3组件Hive3.1.0存取数据

发布时间：2021-12-10 10:56:01 作者：小新
来源：亿速云阅读：661

# Kettle如何连接HDP3组件Hive3.1.0存取数据

## 目录
1. [前言](#前言)
2. [环境准备](#环境准备)
3. [Kettle与Hive3连接配置](#kettle与hive3连接配置)
4. [数据抽取实战](#数据抽取实战)
5. [常见问题解决方案](#常见问题解决方案)
6. [性能优化建议](#性能优化建议)
7. [总结](#总结)

## 前言

Apache Hive作为Hadoop生态系统中重要的数据仓库工具，在HDP3(Hortonworks Data Platform 3)中已升级至3.1.0版本。Pentaho Data Integration（Kettle）作为业界领先的ETL工具，与Hive的高效集成能够帮助企业构建强大的数据管道。本文将详细介绍如何配置Kettle与HDP3环境的Hive3.1.0连接，并实现高效的数据存取操作。

## 环境准备

### 软件版本要求
| 组件          | 版本要求           |
|---------------|--------------------|
| Kettle        | 8.3+ (推荐9.0+)    |
| HDP           | 3.x                |
| Hive          | 3.1.0              |
| JDK           | 1.8+               |

### 必要驱动下载
1. **Hive JDBC驱动**：
   - 从HDP3集群获取：`/usr/hdp/current/hive-client/lib/hive-jdbc-3.1.0.3.1.0.0-*.jar`
   - 或从Maven仓库下载对应版本

2. **Hadoop相关JAR包**：
   ```bash
   hadoop-common-3.1.1.3.1.0.0-*.jar
   hadoop-auth-3.1.1.3.1.0.0-*.jar

环境变量配置

将上述JAR包放入Kettle的lib目录：

cp hive-jdbc-*.jar $KETTLE_HOME/data-integration/lib
cp hadoop-*.jar $KETTLE_HOME/data-integration/lib

Kettle与Hive3连接配置

创建数据库连接

打开Spoon GUI
右键点击”数据库连接” → “新建”
配置关键参数：

连接名称：HDP3_Hive_Connection
连接类型：Hadoop Hive 2
主机名称：your-hiveserver2-host
端口：10000
数据库名称：default
用户名：hive
密码：[根据实际配置]

高级参数配置

在”选项”标签页添加以下参数：

选项	值
hive.server2.proxy.user	实际操作用户名
mapreduce.job.queuename	指定YARN队列
zookeeper.quorum	zk1:2181,zk2:2181,zk3:2181

连接测试技巧

使用”测试”按钮验证基础连接

通过SQL编辑器执行简单查询验证功能：


SHOW TABLES;
SELECT * FROM sample_table LIMIT 5;

数据抽取实战

案例1：Hive表到文本文件

创建转换

添加”表输入”步骤：


SELECT * FROM sales_data WHERE dt='${system:date}'

连接”文本文件输出”步骤
配置字段映射

案例2：CSV导入Hive表

graph TD
    A[CSV文件输入] --> B(字段类型转换)
    B --> C[Hive表输出]
    C --> D[加载HDFS文件]

关键配置参数： - Hive表输出步骤中设置： - 分区字段（如需要） - 文件格式（Text/ORC/Parquet） - 是否覆盖现有数据

增量抽取方案

使用”变量”存储最后更新时间
HiveSQL中使用变量：
```
WHERE update_time > '${LAST_UPDATE}'
```
作业中添加”设置变量”步骤

常见问题解决方案

连接类问题

错误1：ClassNotFoundException: org.apache.hive.jdbc.HiveDriver - 解决方案：确认驱动JAR已放入lib目录并重启Spoon

错误2：Could not open client transport - 检查HiveServer2服务状态：

  sudo systemctl status hive-server2

验证网络连通性

数据格式问题

日期格式异常：

// 在JavaScript步骤中添加转换
var properDate = new Date(hiveDateStr);

特殊字符处理：

-- 在HiveQL中使用
regexp_replace(problem_field, '[\\x00-\\x1F]', '')

权限问题

Kerberos认证配置：

javax.security.auth.useSubjectCredsOnly=false
java.security.auth.login.config=/path/to/jaas.conf

HDFS权限设置：

hadoop fs -chmod -R 777 /user/hive/warehouse/target_table

性能优化建议

连接层面优化

启用连接池：

<!-- 在kettle.properties中添加 -->
Hive.max.active.connections=10
Hive.max.idle.connections=5

调整fetch size：
```
SET hive.fetch.size=50000
```

查询优化技巧

使用分区裁剪：

SELECT * FROM partitioned_table 
WHERE year=2023 AND month=6

合理使用存储格式：

CREATE TABLE optimized_table (
 id int,
 name string
) STORED AS ORC;

并行处理配置：

# 在转换属性中设置
nr.of.threads=4

内存管理

调整JVM参数：

export PENTAHO_DI_JAVA_OPTIONS="-Xms2G -Xmx4G"

使用临时文件缓存：
```
KETTLE_TMP_FILE_PATH=/bigdisk/temp
```

总结

通过本文的详细指导，您应该已经掌握： - Kettle与HDP3 Hive3.1.0的完整连接方案 - 实际数据抽取的多种模式实现 - 常见问题的诊断与解决方法 - 性能优化的关键技巧

建议在生产环境部署前，先进行充分的测试验证。随着HDP版本的更新，建议持续关注组件兼容性变化，及时调整连接配置策略。

附录

”`

注：实际文章内容需要根据具体环境配置调整参数值，本文提供的代码示例和配置参数需要在实际环境中验证后使用。建议在测试环境充分验证后再部署到生产环境。