Cloudera Enterprise 6.2.0更新了什么

发布时间：2021-12-14 09:24:37 作者：小新
来源：亿速云阅读：149

这篇文章主要介绍Cloudera Enterprise 6.2.0更新了什么，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

Cloudera Enterprise 6.2.0包括了许多新功能，可用性改进以及性能提升。Cloudera Enterprise 6.2.0同时也包括很多组件版本的更新，如下：

组件	组件描述	版本
Hadoop	可靠的,可扩展的,分布式的存储和计算平台	v3.0.0
HBase	实时读写访问的可扩展的记录和表的存储	v2.1.2
Hive	具备类SQL接口和ODBC/JDBC驱动的元数据知识库连接BI应用和Hadoop	v2.1.1
Hue	遵循Apache许可协议的基于浏览器的桌面Hadoop接口	v4.2.0
Impala	遵循Apache许可协议的、针对存放在HDFS和HBase数据的实时SQL查询引擎	v3.2.0
Kafka	高度可扩展的、容错的发布订阅制消息系统	V2.1.0
Yarn	Hadoop各组件资源协调	V3.0.0
Flume	收集和聚合日志和事件数据,实时流写入HDFS或HBase的分布式框架	v1.9.0
Pig	处理存放在Hadoop里的数据的高级数据流语言	v0.17.0
Solr	文本、模糊数学和分面搜索引擎	v7.4.0
Spark	支持循环数据流和内存计算的高速通用数据处理引擎	v2.4
Sqoop	为集成Hadoop和关系数据库的数据传输引擎	v1.4.7
Zookeeper	高可靠的分布式协同服务	v3.4.5
Kudu	一种新的列式存储	V1.9

Cloudera Manager：

1.在Cloudera Manager中支持共享数据体验（Shared Data Experience，SDX）。Cloudera Manager现在支持创建一个或多个“计算集群”，为具有更强隔离性和可靠性的独立租户提供不同的工作负载，同时使用“数据上下文”(data context)抽象操作共享数据，元数据，安全和治理。这允许在每个租户的管理中，通过部署来实现存储和计算的分离，并与私有云基础设施进行协作。

2.BDR在集群间做数据复制时支持云对象存储。Cloudera BDR现在支持将存储在HDFS中的Hive和Impala表直接复制到使用S3和ADLS进行表存储的集群中，从而实现针对混合云用例的定期同步。

3.支持在YARN中调度GPU资源。Cloudera Manager和YARN一起支持对多个工作负载共享的GPU资源进行自动检测，隔离和使用报告，以便用户在集群中请求像GPU这种专有资源时可以被分配到相应的节点上。

4.Automated wire encryption (TLS)设置和秘钥轮换现在可用于最初未使用TLS的现有CDH集群。

5.针对安全集群中的Hive的AWS/Azure凭据处理，为共享集群中的多个Hive用户提供对S3/ADLS数据的透明访问，同时保持云凭据的安全性并远离最终用户。

6.支持在Cloudera Manager中配置TLS安全的Hive Metastore数据库。

7.跨集群网络带宽测试工具。Cloudera Manager现在有一个API来测试集群之间的网络带宽，有助于确定基础架构是否适合分离存储和计算服务

8.自动化的对重复主机进行检测和主机名迁移。Cloudera Manager现在可以检测并拒绝重复加入集群的主机，并且可以优雅地容忍托管主机的主机名更改，从而更好地支持自动部署。这个问题可以参考Fayson之前的文章《0519-如何解决Cloudera Manager主机页面出现重复主机异常》

Hue：

1.在HUE中，我们显著改进了Impala查询的故障排查体验，以便SQL开发人员能够更快地了解正在发生的事情，花费的时间以及应该优化哪里。

Impala：

1.Impala Web UI中添加了一个新部分（/admission），可提供对Admission Control资源池，运行和排队查询以及其他相关指标的查看。

2.添加了一个新的护栏(guardrail)，当查询产生的行数多于护栏(guardrail)限制时自动取消。

3.用户现在可以设置默认文件格式查询选项，该选项将应用于未指定STORED AS子句的CREATE TABLE命令。

4.(预览)零接触元数据：目前，如果是非Impala引擎，例如Hive或Spark将新分区添加到现有表或新表中，Impala用户需要运行REFRESH table或INVALIDATE metadata操作后才能访问它们。在6.2中，我们引入了一种自动机制，可以避免Impala用户手动刷新元数据。在可配置的时间段内（默认为30秒），Impala用户可以自动访问现有表的新添加的分区以及Impala之外的新添加的表。

Hive：

1.编译锁删除：由于HiveServer2（HS2）中存在通用编译锁，因此在Hive中编译单个大型查询可能会阻止所有其他较小查询的编译。在6.2中，已删除此锁，并对查询启用并行编译。并行级别是可配置的，默认设置为3。

2.改进了连接池代理的可配置性（DBCP和BoneCP）：配置更改为连接池代理，用于从HiveServer2连接到Hive Metastore，例如DBCP和BoneCP需要重新编译jar。现在，在6.2中，可以通过更改hive-site.xml文件来完成。

3.Hive现在支持Google Cloud Storage作为表的数据存储。

安全：

1.HMS Metadata Read Authorization: 在6.2之前，HMS API有一个Sentry插件，授权所有元数据更改（写入）。现在在6.2中，Sentry的权限也扩展到了读取元数据。默认情况下，为了向后兼容性，此功能会被关闭。启用此功能后，直接访问HMS API的用户（例如SparkSQL用户）现在必须至少具有对对象的SELECT访问权限才能查看与该对象相关的元数据。请注意，Hive和Impala DESCRIBE命令也类似地过滤用户看到的元数据。

Navigator：

1.列序号 - 现在跟踪列添加到表中的顺序。

2.元数据清除改进：清除可以设置为更高的优先级 - 在确定的时间运行(run at exact time)。注意：Navigator UI将不可用，但不会丢失元数据或审计。

3.批量更新API：合作伙伴产品和客户集成的元数据更新速度提高了100倍

HBase：

1.串行复制(Serial replication)。此前HBase复制最终是一致的。这意味着更新可以无序传递到replication的end-points。Serial replication是replication的一个标志(flag)，可确保为replication的end-points传递更新。

2.支持Intel Optane内存DC持久内存。客户可以将DC持久性内存用于BucketCache，从而可以创建比DRAM更大的bucket cache。

3.Minor replication improvements(新配置选项，验证复制工具的改进，bug修复)。

Kudu：

1.现在，Kudu可以部署在跨机架，数据中心(DC)或可用区(AZ)的集群中。Kudu Master会将tablet分布到跨机架,DC或AZ，以便在发生故障时提供持续可用性。如果发生机架，DC或AZ中断，不需要手动进行故障转移。

Platform：

1.支持部署到Ubuntu 18

以上是“Cloudera Enterprise 6.2.0更新了什么”这篇文章的所有内容，感谢各位的阅读！希望分享的内容对大家有帮助，更多相关知识，欢迎关注亿速云行业资讯频道！

Cloudera Enterprise 6.2.0更新了什么

相关阅读