如何解析ElasticSearch分页方案

发布时间：2021-12-16 16:50:21 作者：柒染
来源：亿速云阅读：458

本篇文章为大家展示了如何解析ElasticSearch分页方案，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

1：from + size 浅分页

"浅"分页是最简单的分页方案。es会根据查询条件在每一个DataNode分片中取出from+size条文档，然后在MasterNode中聚合、排序，再截取size-from的文档返回给调用方。当页数越靠后，也就是from+size越大，es需要读取的数据也就是越大，聚合和排序的时候处理的数据量也越大，此时会加大服务器CPU和内存的消耗。

GET test_dev/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "age": 28
          }
        }
      ]
    }
  },
  "size": 10,
  "from": 20,
  "sort": [
    {
      "timestamp": {
        "order": "desc"
      },
      "_id": {
        "order": "desc"
      }
    }
  ]
}

其中，from定义了目标数据的偏移值，size定义当前返回的数目。默认from为0，size为10，即所有的查询默认仅仅返回前10条数据。

在这里有必要了解一下from/size的原理：

因为es是基于分片的，假设有5个分片，from=100，size=10。则会根据排序规则从5个分片中各取回100条数据数据，然后汇总成500条数据后选择最后面的10条数据。

做过测试，越往后的分页，执行的效率越低。总体上会随着from的增加，消耗时间也会增加。而且数据量越大，就越明显！

2：scroll 深分页

from+size查询在10000-50000条数据（1000到5000页）以内的时候还是可以的，但是如果数据过多的话，就会出现深分页问题。

为了解决上面的问题，elasticsearch提出了一个scroll滚动的方式。

scroll 类似于sql中的cursor，使用scroll，每次只能获取一页的内容，然后会返回一个scroll_id。根据返回的这个scroll_id可以不断地获取下一页的内容，所以scroll并不适用于有跳页的情景。

GET test_dev/_search?scroll=5m
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "age": 28
          }
        }
      ]
    }
  },
  "size": 10,
  "from": 0,
  "sort": [
    {
      "timestamp": {
        "order": "desc"
      },
      "_id": {
        "order": "desc"
      }
    }
  ]
}

scroll=5m表示设置scroll_id保留5分钟可用。

使用scroll必须要将from设置为0。

size决定后面每次调用_search搜索返回的数量

然后我们可以通过数据返回的_scroll_id读取下一页内容，每次请求将会读取下10条数据，直到数据读取完毕或者scroll_id保留时间截止：

GET _search/scroll

{

  "scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAJZ9Fnk1d......",

  "scroll": "5m"

}

注意：请求的接口不再使用索引名了，而是 _search/scroll，其中GET和POST方法都可以使用。

scroll删除

根据官方文档的说法，scroll的搜索上下文会在scroll的保留时间截止后自动清除，但是我们知道scroll是非常消耗资源的，所以一个建议就是当不需要了scroll数据的时候，尽可能快的把scroll_id显式删除掉。

清除指定的scroll_id：

DELETE _search/scroll/DnF1ZXJ5VGhlbkZldGNo.....

清除所有的scroll：

DELETE _search/scroll/_all

3：search_after 深分页

scroll 的方式，官方的建议不用于实时的请求（一般用于数据导出），因为每一个 scroll_id 不仅会占用大量的资源，而且会生成历史快照，对于数据的变更不会反映到快照上。

search_after 分页的方式是根据上一页的最后一条数据来确定下一页的位置，同时在分页请求的过程中，如果有索引数据的增删改查，这些变更也会实时的反映到游标上。但是需要注意，因为每一页的数据依赖于上一页最后一条数据，所以无法跳页请求。

为了找到每一页最后一条数据，每个文档必须有一个全局唯一值，官方推荐使用 _uid 作为全局唯一值，其实使用业务层的 id 也可以。

GET test_dev/_search

{

  "query": {

    "bool": {

      "filter": [

        {

          "term": {

            "age": 28

          }

        }

      ]

    }

  },

  "size": 20,

  "from": 0,

  "sort": [

    {

      "timestamp": {

        "order": "desc"

      },

      "_id": {

        "order": "desc"

      }

    }

  ]

}

使用search_after必须要设置from=0。

这里我使用timestamp和_id作为唯一值排序。

我们在返回的最后一条数据里拿到sort属性的值传入到search_after。

使用sort返回的值搜索下一页：

GET test_dev/_search

{

  "query": {

    "bool": {

      "filter": [

        {

          "term": {

            "age": 28

          }

        }

      ]

    }

  },

  "size": 10,

  "from": 0,

  "search_after": [

    1541495312521,

    "d0xH6GYBBtbwbQSP0j1A"

  ],

  "sort": [

    {

      "timestamp": {

        "order": "desc"

      },

      "_id": {

        "order": "desc"

      }

    }

  ]

}

4：修改默认分页限制值10000

可以使用下面的方式来改变ES默认深度分页的index.max_result_window 最大窗口值

curl -XPUT http://127.0.0.1:9200/my_index/_settings -d '{ "index" : { "max_result_window" : 500000}}'

其中my_index为要修改的index名，500000为要调整的新的窗口数。将该窗口调整后，便可以解决无法获取到10000条后数据的问题。

注意事项

通过上述的方式解决了我们的问题，但也引入了另一个需要我们注意的问题，窗口值调大了后，虽然请求到分页的数据条数更多了，但它是用牺牲更多的服务器的内存、CPU资源来换取的。要考虑业务场景中过大的分页请求，是否会造成集群服务的OutOfMemory问题。

5：获取总数据量

修改最大限制值之后确实可以使from+size查询到更后面页的数据，但是每次查询得到的总数量最大任然是10000，要想获取大于1万的查询数据量，可以分两步查询，第一步使用scroll查询获取总数据量；第二部使用from+size查询每页的数据，并设置分页。这样即解决了from+size无法查询10000之后的数据，也解决了scroll无法跳页的问题。

使用scroll可能遇到的问题：

Caused by: org.elasticsearch.ElasticsearchException: Trying to create too many scroll contexts. Must be less than or equal to: [500]. This limit can be set by changing the [search.max_open_scroll_context] setting.

这个报错是从es的日志文件中查出来的，大致意思是：尝试创建更多的scroll对象失败了，scroll对象总数量应该控制在500以内。可修改search.max_open_scroll_context的值来改变500这个阈值。

原因：通过scroll 深分页可知道，es服务端会在内存中生成一个scroll_id对象，并会为该值指定过期时间，翻页的时候使用scroll_id来获取下一页的数据。默认情况下，一个实例下面仅可以创建最多500个scroll上下文对象，也就是500个scroll_id。报此错误的原因就是创建scroll上下文对象失败，因为当前已经存在500个这样的对象了。

解决办法：

1：通过观察可以发现，即使不做任何的处理，过一会就又可以发起scroll请求了，这是因为时间超过了scroll生命周期时间，scroll对象自己死掉了一些。

2：按照提示说的，修改search.max_open_scroll_context的值

put http://{{es-host}}/_cluster/settings

{

"persistent": {

    "search.max_open_scroll_context": 5000

},

"transient": {

    "search.max_open_scroll_context": 5000

}

}

[图片上传失败...(image-4dc354-1583253824871)]

image.png

3：在使用完scroll_id之后立即调用删除接口，删除该scroll对象

删除单个scroll

DELETE http://{{es-host}}/_search/scroll

{

"scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAdsMqFmVkZTBJalJWUmp5UmI3V0FYc2lQbVEAAAAAAHbDKRZlZGUwSWpSVlJqeVJiN1dBWHNpUG1RAAAAAABpX2sWclBEekhiRVpSRktHWXFudnVaQ3dIQQAAAAAAaV9qFnJQRHpIYkVaUkZLR1lxbnZ1WkN3SEEAAAAAAGlfaRZyUER6SGJFWlJGS0dZcW52dVpDd0hB"

}

删除所有scroll

delete http://{{es-host}}/_search/scroll/_all

上述内容就是如何解析ElasticSearch分页方案，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注亿速云行业资讯频道。

如何解析ElasticSearch分页方案

1：from + size 浅分页

2：scroll 深分页

3：search_after 深分页

5：获取总数据量

相关阅读