一些数据库足够强大,可以实现MEDIAN()聚合函数。 请记住, MEDIAN()MEAN()AVG() (平均)略有不同(并且通常更有用)。

虽然平均值是按SUM(exp) / COUNT(exp) ,但是MEDIAN()告诉您样本中所有值的50%高于MEDIAN()而集合中的其他50%则小于MEDIAN() MEDIAN()

因此,换句话说,如果您执行以下查询:

WITH t(value) AS (SELECT 1   FROM DUAL UNION ALLSELECT 2   FROM DUAL UNION ALLSELECT 3   FROM DUAL
)
SELECTavg(value),median(value)
FROMt;

…那么平均值和中位数是相同的:

avg   median
2     2

但是,如果您这样严重扭曲数据:

WITH t(value) AS (SELECT 1   FROM DUAL UNION ALLSELECT 2   FROM DUAL UNION ALLSELECT 100 FROM DUAL
)
SELECTavg(value),median(value)
FROMt;

然后,您的平均值也将出现偏差,而中位数仍将指示样本中大多数值的位置

avg      median
34.333   2

上面的示例在统计上当然是微不足道的,但是如果您拥有更多数据,则可以轻松地看到这种影响是戏剧性的且相关的:

图像许可证CC-BY-SA 3.0。 由Cmglee上传到Wikipedia

偏斜效应在统计中非常重要,为了对任何事物做出有趣的主张,使用百分位通常比使用平均值更有用。 以一个国家的平均收入与中位数收入为例。 尽管美国(以及许多其他国家/地区) 的平均收入一直在稳定增长, 但在过去十年中 , 中位数收入却有所下降 。 这是由于财富越来越严重地向超级富翁倾斜。

这个博客不是关于政治的,而是关于Java和SQL的,因此让我们回到计算实际情况。

在SQL中使用分位数

正如我们之前所看到的, MEDIAN()将样本分为两个大小相等的组,并在这两个组之间“取值”。 此特定值也称为第50个百分位数,因为样本中所有值的50%都小于MEDIAN() 。 因此,我们可以建立:

  • MIN(exp) :0百分位数
  • MEDIAN(exp) :第50个百分点
  • MAX(exp) :100%

以上所有都是百分位数的特殊情况,尽管所有SQL数据库(和SQL标准)都支持MIN()MAX() ,但SQL标准不支持MEDIAN() ,而以下jOOQ数据库仅支持MEDIAN()

  • BR
  • 数据库
  • 甲骨文
  • Sybase SQL Anywhere

在SQL标准中,还有另一种计算MEDIAN() ,以及通常计算任何百分位数的方法, 因为PostgreSQL 9.4在PostgreSQL中也使用…

有序集合聚合函数

有趣的是,除了窗口函数外 ,您还可以为某些聚合函数指定ORDER BY子句,这些聚合函数根据有序集聚合数据。

SQL标准percentile_cont函数就是这样的一个函数,该函数将百分位数作为参数,然后接受一个附加的WITHIN GROUP子句,该子句将ORDER BY子句作为参数。 这些特定的有序集函数也称为逆分布函数 ,因为我们要查找样本中所有值的分布中特定百分位数的位置( 如果您不对数学感到恐惧,请查看Wikipedia文章 )

因此,在PostgreSQL 9.4+中,可以像下面这样模拟MEDIAN()函数:

WITH t(value) AS (SELECT 1   UNION ALLSELECT 2   UNION ALLSELECT 100
)
SELECTavg(value),percentile_cont(0.5) WITHIN GROUP (ORDER BY value)
FROMt;

这个有趣的语法是标准化的,并且可能由Oracle的LISTAGG()所知,该语法允许将值聚合为串联的字符串:

WITH t(value) AS (SELECT 1   FROM DUAL UNION ALLSELECT 2   FROM DUAL UNION ALLSELECT 100 FROM DUAL
)
SELECTlistagg(value, ', ') WITHIN GROUP (ORDER BY value)
FROMt;

该查询简单地产生:

listagg
---------
1, 2, 100

附带说明一下: LISTAGG()当然是完全没用的,因为它返回VARCHAR2 ,在Oracle中它再次具有最大长度4000。 无用…

开箱即用的仿真

与往常一样,jOOQ将开箱即用地模拟这些事情。 您既可以使用DSL.median()函数,也可以使用即将发布的jOOQ 3.6和新的DSL.percentileCont()函数来产生相同的值:

DSL.using(configuration).select(median(T.VALUE),percentileCont(0.5).withinGroupOrderBy(T.VALUE)).from(T).fetch();

翻译自: https://www.javacodegeeks.com/2015/01/how-to-emulate-the-median-aggregate-function-using-inverse-distribution-functions.html

如何使用逆分布函数模拟MEDIAN()聚合函数相关推荐

  1. 聚合函数 -AVG/MAX/MIN/STDDEV/VARIANCE/SUM/COUNT/MEDIAN

    ------------------------------------------聚合函数-----------------------------------------------1: AVG( ...

  2. ORACLE 11G 聚合函数

    聚合函数就是基于多行数据返回一行结果,下面就是Oracle提供的一些列聚合函数: AVG COLLECT CORR CORR_* COUNT COVAR_POP COVAR_SAMP CUME_DIS ...

  3. Oracle 聚合函数(Aggregate Functions)说明

    Oracle Aggregate Functions用过很多,官网的说明如下: Aggregate Functions http://docs.oracle.com/cd/E11882_01/serv ...

  4. python pandas csv时间聚合_pandas中简单统计分组聚合函数的介绍

    说明: 这里只是简单的说明了一些pandas中的一些我在毕设中使用到的函数,这个 模块的并未具体其他的一些功能并未详细的进行说明. pandas 简单介绍 Python语言的Pandas模块是一种高效 ...

  5. sql用于字符串的聚合函数_SQL字符串函数用于数据整理(争用)

    sql用于字符串的聚合函数 In this article, you'll learn the tips for getting started using SQL string functions ...

  6. influxDB 常用聚合函数整理

    1)count()函数 返回一个(field)字段中的非空值的数量. 语法: SELECT COUNT(<field_key>) FROM <measurement_name> ...

  7. 逆分布函数法生成随机数(以指数分布和双指数分布为例)

    前面在"C++均匀分布U(0,1)的随机数中"讲了如何在C++中生成均匀分布随机数,同时也提到了均匀分布的是其他随机数的生成基础,这里就来看看均匀分布在其他随机数生成中的重要作用吧 ...

  8. pandas 聚合函数agg

    今天看到pandas的聚合函数agg,比较陌生,平时的工作中处理数据的时候使用的也比较少,为了加深印象,总结一下使用的方法,其实还是挺好用的. DataFrame.agg(func,axis = 0, ...

  9. tidb和tbase的聚合函数算法

    tidb的聚合函数算法 连接:(二十二)Hash Aggregation tidb实现了两种聚合函数的算法:Hash Aggregation 和 Stream Aggregation 对于数据无序的, ...

最新文章

  1. filezilla 设置filezilla使用明文密码_详解WordPress使用FTP上传主题和插件
  2. 牛红红的日记(平平无奇拿下域控)
  3. 领域驱动设计,让程序员心中有码(八)
  4. 使用Spring 3 MVC处理表单验证
  5. Android - 布局详解之LinearLayout与RelativeLayout
  6. 重构-改善既有代码的设计(十)--简化函数调用
  7. 何为MQ以及为何要用MQ
  8. 查看局域网内所有ip 和 mac
  9. 关于 pip安装的可能错误的排除
  10. 【C语言】标准内容介绍(C99)
  11. Webtrends网站运营分析解决方案简介
  12. JDK自带的实用工具——native2ascii.exe
  13. 黑苹果10.14.5安装WebDriver驱动nvidia独立显卡
  14. 手把手教你做短视频去水印微信小程序(6-广告代码)
  15. 终于稳了!2020年8月程序员工资最新统计
  16. 医学图像中的窗宽(Window Width,WW)和窗位(Window Level,WL)
  17. python 7-1 输出星期名缩写 (10分)
  18. lay-href页面不跳转
  19. 南传法句经(摘选)03
  20. 激活 出现无法访问制定设备,路径或文件。您可能没有合适的权

热门文章

  1. 华为交换机修改concle密码
  2. 全网最详细中英文ChatGPT-GPT-4示例文档-从0到1快速入门AI智能问答应用场景——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)
  3. python分析红楼梦中人物形象_红楼梦中四个人物形象分析
  4. javascript高级程序设计阅读收获(1.1)——javascript简短的历史回顾
  5. 深入浅出Docker 读书笔记(九)
  6. 如何自己制作证件照片?照片怎么做成证件照?
  7. 三维空间刚体运动——(1)齐次坐标与旋转矩阵
  8. 2021新宁二中高考喜报成绩查询,新宁二中举行2021年高考倒计时100天誓师大会
  9. 手把手教你如何微信公众号开发
  10. html5网页制作电脑版,页未央HTML5制作神器PC版