Elasticsearch聚合的方法怎么用

发布时间:2022-04-19 16:43:12 作者:iii
来源:亿速云 阅读:195

本篇内容介绍了“Elasticsearch聚合的方法怎么用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

一、前言

聚合是一种基于搜索的数据汇总,通过组合可以完成复杂的操作。聚合可以对文档进行汇总、分组等。通过聚合,我们会得到一个数据的概览,是分析和总结一律的数据,而不是寻觅单个文档。

二、分类

三、聚合结构

{    "size": 0,     ["query": {}, ]?    "aggs" : {        "${my_name}" : {            "${aggregation_type}" : {                <aggregation_body>            }            [,"meta" : {  [<meta_data_body>] } ]?            [,"aggs" : { [<sub_aggregation>]+ } ]?        }        [,"${my_name}" : { ... } ]*    }}

四、测试数据

使用kibana导入“kibana_sample_data_flights”,这个是飞机的航班信息,有地区、价格、天气等信息。

操作路径:Home --> 增加数据 --> 样例数据 --> Sample flight data

五、Bucket Aggregation

1、子聚合

根据目的地(DestCountry)进行分组,查看航班的数量

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "dest_count": {      "terms": {        "field": "DestCountry"      }    }  }}

2、数字区间分组

根据价格区间进行分组,比方0到100元多少个,100到200元多少个

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "price_stat": {     // 自己设置名字      "histogram": {        "field": "AvgTicketPrice",        "interval": 100     // 指定区间      }    }  }}

输出的结果中,key为“100.0”代表0到100.0的数据,计算公式如下

bucket_key = Math.floor(value / interval) * interval

3、日期区间分组

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "price_stat": {      "date_histogram": {        "field": "timestamp",        "calendar_interval": "month"      }    }  }}

注意:日期间隔设置,7.x版本用“calendar_interval”,老版本用“interval”。

支持的时间间隔表达式

六、Metric Aggregation

计算度量这类的聚合操作是以使用一种方式或者者从文档中提取需要聚合的值为基础的。这些数据不但可以从文档(使用数据属性)的属性中提取出来,也可以使用脚本生成。

支持max、min、count、sum、avg、stats(各种统计信息)、cardinality(去重后数量)、percentiles(百分位)、geo_bounds(地理边界)

1、最值

输出航班的最大价格,最小价格

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "max_price": {      "max": {        "field": "AvgTicketPrice"      }    },    "mix_price": {      "min": {        "field": "AvgTicketPrice"      }    }  }}

2、嵌套操作

输出各个目的地航班的最大价格,最小价格

GET kibana_sample_data_flights/_search{  "size": 0,   "aggs": {    "dest_count":{      "terms": {        "field": "DestCountry"      },      "aggs": {        "max_price": {          "max": {            "field": "AvgTicketPrice"          }        },        "min_price": {          "min": {            "field": "AvgTicketPrice"          }        }      }    }  }}

3、stats

一次性输出各种统计结果,包括count、min、max、sum、avg

GET kibana_sample_data_flights/_search{  "size": 0,   "aggs": {    "my_stats":{      "stats": {        "field": "AvgTicketPrice"      }    }  }}

4、cardinality

去重后数量统计

GET kibana_sample_data_flights/_search{  "size": 0,   "aggs": {    "my_cardinality":{      "cardinality": {        "field": "DestCountry"      }    }  }}

5、top_hits

top_hits 操作,最开头的几个文档。
获取去每个国家的航班的最小价格,下面的“"size": 5”代表获取5个国家的航班,“"size": 2”代表最低的2个价格。

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_count": {      "terms": {        "field": "DestCountry",        "size": 5      },      "aggs": {        "my_min_price": {          "top_hits": {            "size": 2,            "sort": [              {                "AvgTicketPrice": {                  "order": "asc"                }              }            ]          }        }      }    }  }}

6、ranges 自己设置范围分组

比方下面,小于200一个分组,200到500一个分组,大于500个分组,可以指定输出的key。

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_price_range":{      "range": {        "field": "AvgTicketPrice",        "ranges": [          {            "to": 200          },          {            "from": 200,            "to": 500          },          {            "key": ">500",             "from": 500          }        ]      }    }  }}

7、百分位聚合

百分位聚合,可以利用百分位聚合的结果评估数据分布,判断数据能否扭曲,判断数据能否双峰分布等。压测的时候经常使用,比方95百分位对应的值表示这个值大于95%的所有值。假设结果是“10%:12ms ,..., 70%:55ms, 99%:100ms”,说明通常情况下(70%),网页的响应时间在12ms~55ms,99%的网页在100ms内加载完成。

GET kibana_sample_data_flights/_search{  "size": 0,   "aggs": {    "my_price_percentiles":{      "percentiles": {        "field": "AvgTicketPrice",        "percents": [          1,          5,          25,          50,          75,          95,          99        ]      }    }  }}

8、地理边界聚合

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_geo_bounds": {      "geo_bounds": {        "field": "DestLocation",        "wrap_longitude": true      }    }  }}

9、优化 Terms 聚合的性能

设置 eager_global_ordinals 为true,会在内存中预先加载这些数据。

七、Pipeline Aggregation

对聚合分析的结果再次做聚合分析。

分两类

说明,bucket_path参数,指定路径,假如是二级路径,注意有一个“>”。

1、Sibling的例子

根据不同的目的地获取平均票据,并对这些平均票价做分析。
注意,my_distancemy_avg_pricemy_result这三个是自己设置的变量名,buckets_path指定路径。

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_distance": {      "terms": {        "field": "DestCountry"      },      "aggs": {        "my_avg_price": {          "avg": {            "field": "AvgTicketPrice"          }        }      }    },    "my_result": {      "stats_bucket": {        "buckets_path": "my_distance>my_avg_price"      }    }  }}

2、Parent的例子

统计每50km的平均票价,并查看其波动

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_distance": {      "histogram": {        "field": "DistanceKilometers",        "interval": 50      },      "aggs": {        "my_avg_price": {          "avg": {            "field": "AvgTicketPrice"          }        },        "my_result": {          "derivative": {            "buckets_path": "my_avg_price"          }        }      }    }  }}

八、排序

根据数量(_count)进行排序,数量相同根据返回的key进行排序

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "dest_count": {      "terms": {        "field": "DestCountry",        "order": [          {            "_count": "asc"          },          {            "_key": "desc"          }        ]      }    }  }}

根据最终返回的结果进行排序,比方下面的my_stats

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_distance": {      "terms": {        "field": "DestCountry",        "order": {          "my_stats.min": "asc"        }      },      "aggs": {        "my_stats": {          "stats": {            "field": "AvgTicketPrice"          }        }      }    }  }}

九、聚合分析的原理及精准度问题

Elasticsearch聚合的方法怎么用

聚合分析

Terms 聚合分析不准的起因,数据分散在多个分片上,Coordinating Node 无法获取数据全貌。

打开 show_term_doc_count_error,可以多看到两个返回值。

Elasticsearch聚合的方法怎么用

Trems 不正确的案例

那么如何处理呢?

shard_size 的默认大小 “shard_size = size * 1.5 * 10”,可以根据自己的需要进行设置。

“Elasticsearch聚合的方法怎么用”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!

推荐阅读:
  1. 聚合的方法介绍
  2. elasticsearch 多次聚合

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

elasticsearch

上一篇:Windows10怎么访问Elasticsearch Head插件

下一篇:如何在PHP中使用ElasticSearch实现搜索

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》