聚合分析

官方文档https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations.html

英文为 Aggregation，是 es 除搜索功能为提供的针对 es数据做统计分析的功能
- 功能丰富，提供Bucket，Metric、Pipeline等多种分析方式，可以满足大部分的分析需求
- 实时新高，所有的计算结果都是即时返回的，而Hadoop的大数据系统一般都是T+1级别的

聚合分析作为 search的一部分，api如下所示：

请告诉我公司目前在职人员工作岗位的分布情况？

Bucket + Metric 聚合分析

Bucket 聚合分析允许通过添加子分析来进一步进行分析，该子分析可以是 Bucket也可以是Metric(可以不断嵌套)。这也使得es的聚合分析能力变得异常强大。

分桶之后再分桶

分桶后进行数据分析

Pipeline 聚合分析

针对聚合分析的结果再次进行聚合分析，而且支持链式调用，可以回答如下问题：
- 订单月平均销售额是多少？
Pipeline 的分析结果会输出到原结果中，根据输出位置的不同，分为以下两类：
- Parent 结果内嵌到现有的聚合分析结果中
- Derivative (导数)
- Moving Average （移动求和）
- Cumulative Sum （累计求和）
- Sibling 结果与现有聚合分析结果统计
- Max/Min/Avg/Sum Bucket
- Stats/Extended Stats Bucket
- Percentiles Bucket

Pipeline 聚合分析 Sibling - Min Bucket

Pipeline 聚合分析 Sibling - Max Bucket

找出所有 Bucket中值最大的 Bucket 名称和值

Pipeline 聚合分析 Sibling - Avg Bucket

计算所有 Bucket的平均值

Pipeline 聚合分析 Sibling - Sum Bucket

计算所有 Bucket值的总和

Pipeline 聚合分析 Sibling - Stats Bucket

计算所有 Bucket值的Stats分析

Pipeline 聚合分析 Sibling - Percentiles Bucket

计算所有 Bucket值的百分位数

Pipeline 聚合分析 Parent - Derivative

计算 Bucket值的导数

Pipeline 聚合分析 Parent - Moving Average

计算 Bucket值的移动平均值

Pipeline 聚合分析 Parent - Cumulative Sum

计算 Bucket值的累计加和

作用范围

es聚合分析默认作用范围是query的结果集，可以通过如下的方式改变其作用范围：
- fileter
- post_filter
- global
- aggs 聚合分析值分析query结果的数据

作用范围 - filter

为摸个聚合分析设定过滤条件，从而在不变更整体 query语句的情况下修改了作用范围

作用范围 - post-filter

作用于文档过滤，但在聚合分析后生效

作用范围 - global

无视 query 过滤条件，基于全部文档进行分析

排序

可以使用自带的关键词数据进行排序，比如：
- _count文档数
- _key 按照 key 值排序
按照子聚合中的结果排序
- 先按年龄分桶
- 在计算每个桶中平均值
- 按照每个桶的平均值来排序

计算精准度问题

Min 聚合的执行流程

Trems 集合执行流程

Terms 并不永远准确

Terms 不准确的原因

数据分散在多 Shard 上，Coordinating Node 无法得悉数据全貌

Terms 不准确的解决方法

设置 Shard 数为1，消除数据分散的问题，但无法承载大数据量
合理设置 Shard_Size 大小，级每次从 Shard上额外获取数据，以提升准确度
Shard_Size 大小的设定方法
terms 聚合返回结果中有如下两个统计值：
- doc_count_error_upper_bound 被遗漏 term可能的最大值
- sum_other_doc_count 返回结果 bucket的 term外其他 term的文档总数
设定 show_term_doc_count_errror可以查看每个 bucket误算的最大值，（每个shard都返回时为0）

Shard_Size 大小的设定方法
term（d）不是每个 shard都有，取其他没有此 term（d）的 shard 中的最小值（如下的 b(2)）相加得到show_term_doc_count_errror。所以每个shard都有term的话（如 term a、 b），将返回为0。
Shard_Size 默认大小如下：
- shard_size = （size * 1.5） + 10
通过调整 Shard_Size的大小减低 show_term_doc_count_errror来提供准确度
- 增大了整体的计算量，从而降低了相应时间

近似统计算法

在ES的聚合分析中，Cardinality 和 Percentile 分析实验的是近似算法
- 结果是近似准确的，但不一定精准
- 可以通过参数的调整时期结果精确，但同时也意为着更多的计算时间和更大的性能消耗

Elasticsearch之聚合分析相关推荐

4. ElasticSearch——aggregations聚合分析
聚合提供了从数据中分组和提取数据的能力,最简单的聚合方法大致等于sql group by和sql聚合函数.在ES中,如果有执行搜索返回his()命中结果,并且同时返回聚合结果,把一个响应中的所有his ...
聚合中返回source_大数据搜索与可视化分析（9）elasticsearch聚合分析Metric Aggregation...
在上一篇文章中,我们介绍了<大数据搜索与可视化分析(8)kibana入门教程-2-Discover>,本文学习elasticsearch聚合分析,是对<大数据搜索与可视化分析(3)e ...
搜索引擎（Elasticsearch聚合分析）
2019独角兽企业重金招聘Python工程师标准>>> 学习目标掌握聚合分析的查询语法. 掌握指标聚合.桶聚合的用法聚合分析简介 ES聚合分析是什么? 聚合分析是数据库中重要的功 ...
ElasticSearch聚合分析
聚合用于分析查询结果集的统计指标,我们以观看日志分析为例,介绍各种常用的ElasticSearch聚合操作. 目录: 查询用户观看视频数和观看时长聚合分页器查询视频uv 单个视频uv 批量查询视频 ...
ElasticSearch实现商品搜索与聚合分析
ElasticSearch实现商品搜索与聚合分析 Gitee地址:https://gitee.com/yuyuuyuy/micro-mall 文章目录 ElasticSearch实现商品搜索与聚合分析 ...
Elasticsearch聚合分析Java Client
本文基于Elasticsearch7.x 本文将上篇Elasticsearch聚合分析Rest API里的实例转化为Java Client Bucket Aggregation Bucket Aggr ...
Elasticsearch简单搜索以及聚合分析
1.批量索引文档如果你有大量文档要索引,你能通过批量 API(bulk API) 来批量提交它们.批量文档操作比单独提交请求显著更快,因为它极简了网络往返. 最佳的批量数量取决于许多因素:文档的大小 ...
Elasticsearch 分页查询聚合分析
分页查询关于 Elasticsearch 分页查询,这几个问题经常被问到问题1:想请问下,一次性获取索引上的某个字段的所有值(100 万左右),除了把 max_result_window 调大 , ...
ElasticSearch聚合分析API
前言说完了ES的索引与检索,接着再介绍一个ES高级功能API – 聚合(Aggregations),聚合功能为ES注入了统计分析的血统,使用户在面对大数据提取统计指标时变得游刃有余.同样的工作,你在 ...

Elasticsearch之聚合分析

聚合分析

聚合分析作为 search的一部分，api如下所示：

分类

Metric

Min

Max

Avg

Sum

Metric 聚合分析

Cardinality

Stats

Extended Stats

Percentile

Top Hits

Bucket 聚合分析

Bucket 聚合分析 - Term

Bucket 聚合分析 - Range

Bucket 聚合分析 - Date Range

Bucket 聚合分析 - Historgram

Bucket 聚合分析 - Date Historgram

Bucket + Metric 聚合分析

分桶之后再分桶

Pipeline 聚合分析

Pipeline 聚合分析 Sibling - Min Bucket

Pipeline 聚合分析 Sibling - Max Bucket

Pipeline 聚合分析 Sibling - Avg Bucket

Pipeline 聚合分析 Sibling - Sum Bucket

Pipeline 聚合分析 Sibling - Stats Bucket

Pipeline 聚合分析 Sibling - Percentiles Bucket

Pipeline 聚合分析 Parent - Derivative

Pipeline 聚合分析 Parent - Moving Average

Pipeline 聚合分析 Parent - Cumulative Sum

作用范围

作用范围 - filter

作用范围 - post-filter

作用范围 - global

排序

计算精准度问题

Min 聚合的执行流程

Trems 集合执行流程

Terms 并不永远准确

Terms 不准确的原因

Terms 不准确的解决方法

近似统计算法

Elasticsearch之聚合分析相关推荐

最新文章

热门文章