怎么提高ElasticSearch 索引速度

发布时间:2021-12-16 11:04:42 作者:小新
来源:亿速云 阅读:221

这篇文章主要为大家展示了“怎么提高ElasticSearch 索引速度”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“怎么提高ElasticSearch 索引速度”这篇文章吧。

我Google了下,大致给出的答案如下:

  1. 使用bulk API

  2. 初次索引的时候,把 replica 设置为 0

  3. 增大 threadpool.index.queue_size

  4. 增大 indices.memory.index_buffer_size

  5. 增大 index.translog.flush_threshold_ops

  6. 增大 index.translog.sync_interval

  7. 增大 index.engine.robin.refresh_interval

这篇文章会讲述上面几个参数的原理,以及一些其他的思路。这些参数大体上是朝着两个方向优化的:

一般而言,通过第二种方式的需要慎用,会对集群查询功能造成比较大的影响。

这里还有两种形态的解决方案:

上面的参数都和什么有关

Translog

为什么要有Translog?  因为Translog顺序写日志比构建索引更高效。我们不可能每加一条记录就Commit一次,这样会有大量的文件和磁盘IO产生。但是我们又想避免程序挂掉或者硬件故障而出现数据丢失,所以有了Translog,通常这种日志我们叫做Write  Ahead Log。

为了保证数据的完整性,ES默认是每次request结束后都会进行一次sync操作。具体可以查看如下方法:

怎么提高ElasticSearch 索引速度

该方法会调用IndexShard.sync 方法进行文件落地。

你也可以通过设置index.translog.durability=async  来完成异步落地。这里的异步其实可能会有一点点误导。前面是每次request结束后都会进行sync,这里的sync仅仅是将Translog落地。而无论你是否设置了async,都会执行如下操作:根据条件,主要是每隔sync_interval(5s)  ,如果flush_threshold_ops(Integer.MAX_VALUE),flush_threshold_size(512m),flush_threshold_period(30m)  满足对应的条件,则进行flush操作,这里除了对Translog进行Commit以外,也对索引进行了Commit。

所以如果你是海量的日志,可以容忍发生故障时丢失一定的数据,那么完全可以设置,index.translog.durability=async,并且将前面提到的flush*相关的参数调大。

而极端情况,你还可以有两个选择:

当然,如果去掉Translog日志有两个风险点:

Version

Version可以让ES实现并发修改,但是带来的性能影响也是极大的,这里主要有两块:

目前而言,似乎没有办法直接关闭Version机制。你可以使用自增长ID并且在构建索引时,index 类型设置为create。这样可以跳过版本检查。

这个场景主要应用于不可变日志导入,随着ES被越来越多的用来做日志分析,日志没有主键ID,所以使用自增ID是合适的,并且不会进行更新,使用一个固定的版本号也是合适的。而不可变日志往往是追求吞吐量。

当然,如果有必要,我们也可以通过改写ES相关代码,禁用版本管理。

分发代理

ES是对索引进行了分片(Shard),然后数据被分发到不同的Shard。这样 查询和构建索引其实都存在一个问题:

如果是构建索引,则需要对数据分拣,然后根据Shard分布分发到不同的Node节点上。

如果是查询,则对外提供的Node需要收集各个Shard的数据做Merge

这都会对对外提供的节点造成较大的压力,从而影响整个bulk/query 的速度。

一个可行的方案是,直接面向客户提供构建索引和查询API的Node节点都采用client模式,不存储数据,可以达到一定的优化效果。

另外一个较为麻烦但似乎会更优的解决方案是,如果你使用类似Spark  Streaming这种流式处理程序,在***往ES输出的时候,可以做如下几件事情:

这样有三点好处:

  1. 所有的数据都被直接分到各个Node上直接处理。避免所有的数据先集中到一台服务器

  2. 避免二次分发,减少一次网络IO

  3. 防止***处理数据的Node压力太大而导致木桶短板效应

场景

因为我正好要做日志分析类的应用,追求高吞吐量,这样上面的三个优化其实都可以做了。一个典型只增不更新的日志入库操作,可以采用如下方案:

  1. 对接Spark Streaming,在Spark里对数据做好分片,直接推送到ES的各个节点

  2. 禁止自动flush操作,每个batch 结束后手动flush。

  3. 避免使用Version

我们可以预期ES会产生多少个新的Segment文件,通过控制batch的周期和大小,预判出ES  Segment索引文件的生成大小和Merge情况。***可能减少ES的一些额外消耗

以上是“怎么提高ElasticSearch 索引速度”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!

推荐阅读:
  1. Postgresql与Elasticsearch数据同步提高
  2. Elasticsearch实践指南

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

elasticsearch

上一篇:k8s基础中如何通过Volume保持数据持久

下一篇:Linux sftp命令的用法是怎样的

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》