如何使用逆分布函数模拟MEDIAN()聚合函数
一些数据库足够强大,可以实现MEDIAN()
聚合函数。 请记住, MEDIAN()
与MEAN()
或AVG()
(平均)略有不同(并且通常更有用)。
虽然平均值是按SUM(exp) / COUNT(exp)
,但是MEDIAN()
告诉您样本中所有值的50%高于MEDIAN()
而集合中的其他50%则小于MEDIAN()
MEDIAN()
。
因此,换句话说,如果您执行以下查询:
WITH t(value) AS (SELECT 1 FROM DUAL UNION ALLSELECT 2 FROM DUAL UNION ALLSELECT 3 FROM DUAL
)
SELECTavg(value),median(value)
FROMt;
…那么平均值和中位数是相同的:
avg median
2 2
但是,如果您这样严重扭曲数据:
WITH t(value) AS (SELECT 1 FROM DUAL UNION ALLSELECT 2 FROM DUAL UNION ALLSELECT 100 FROM DUAL
)
SELECTavg(value),median(value)
FROMt;
然后,您的平均值也将出现偏差,而中位数仍将指示样本中大多数值的位置
avg median
34.333 2
上面的示例在统计上当然是微不足道的,但是如果您拥有更多数据,则可以轻松地看到这种影响是戏剧性的且相关的:
![](/assets/blank.gif)
图像许可证CC-BY-SA 3.0。 由Cmglee上传到Wikipedia
偏斜效应在统计中非常重要,为了对任何事物做出有趣的主张,使用百分位通常比使用平均值更有用。 以一个国家的平均收入与中位数收入为例。 尽管美国(以及许多其他国家/地区) 的平均收入一直在稳定增长, 但在过去十年中 , 中位数收入却有所下降 。 这是由于财富越来越严重地向超级富翁倾斜。
这个博客不是关于政治的,而是关于Java和SQL的,因此让我们回到计算实际情况。
在SQL中使用分位数
正如我们之前所看到的, MEDIAN()
将样本分为两个大小相等的组,并在这两个组之间“取值”。 此特定值也称为第50个百分位数,因为样本中所有值的50%都小于MEDIAN()
。 因此,我们可以建立:
MIN(exp)
:0百分位数MEDIAN(exp)
:第50个百分点MAX(exp)
:100%
以上所有都是百分位数的特殊情况,尽管所有SQL数据库(和SQL标准)都支持MIN()
和MAX()
,但SQL标准不支持MEDIAN()
,而以下jOOQ数据库仅支持MEDIAN()
:
- BR
- 数据库
- 甲骨文
- Sybase SQL Anywhere
在SQL标准中,还有另一种计算MEDIAN()
,以及通常计算任何百分位数的方法, 因为PostgreSQL 9.4在PostgreSQL中也使用…
有序集合聚合函数
有趣的是,除了窗口函数外 ,您还可以为某些聚合函数指定ORDER BY
子句,这些聚合函数根据有序集聚合数据。
SQL标准percentile_cont
函数就是这样的一个函数,该函数将百分位数作为参数,然后接受一个附加的WITHIN GROUP
子句,该子句将ORDER BY
子句作为参数。 这些特定的有序集函数也称为逆分布函数 ,因为我们要查找样本中所有值的分布中特定百分位数的位置( 如果您不对数学感到恐惧,请查看Wikipedia文章 )
因此,在PostgreSQL 9.4+中,可以像下面这样模拟MEDIAN()
函数:
WITH t(value) AS (SELECT 1 UNION ALLSELECT 2 UNION ALLSELECT 100
)
SELECTavg(value),percentile_cont(0.5) WITHIN GROUP (ORDER BY value)
FROMt;
这个有趣的语法是标准化的,并且可能由Oracle的LISTAGG()所知,该语法允许将值聚合为串联的字符串:
WITH t(value) AS (SELECT 1 FROM DUAL UNION ALLSELECT 2 FROM DUAL UNION ALLSELECT 100 FROM DUAL
)
SELECTlistagg(value, ', ') WITHIN GROUP (ORDER BY value)
FROMt;
该查询简单地产生:
listagg
---------
1, 2, 100
附带说明一下: LISTAGG()
当然是完全没用的,因为它返回VARCHAR2
,在Oracle中它再次具有最大长度4000。 无用…
开箱即用的仿真
与往常一样,jOOQ将开箱即用地模拟这些事情。 您既可以使用DSL.median()
函数,也可以使用即将发布的jOOQ 3.6和新的DSL.percentileCont()
函数来产生相同的值:
DSL.using(configuration).select(median(T.VALUE),percentileCont(0.5).withinGroupOrderBy(T.VALUE)).from(T).fetch();
翻译自: https://www.javacodegeeks.com/2015/01/how-to-emulate-the-median-aggregate-function-using-inverse-distribution-functions.html
如何使用逆分布函数模拟MEDIAN()聚合函数相关推荐
- 聚合函数 -AVG/MAX/MIN/STDDEV/VARIANCE/SUM/COUNT/MEDIAN
------------------------------------------聚合函数-----------------------------------------------1: AVG( ...
- ORACLE 11G 聚合函数
聚合函数就是基于多行数据返回一行结果,下面就是Oracle提供的一些列聚合函数: AVG COLLECT CORR CORR_* COUNT COVAR_POP COVAR_SAMP CUME_DIS ...
- Oracle 聚合函数(Aggregate Functions)说明
Oracle Aggregate Functions用过很多,官网的说明如下: Aggregate Functions http://docs.oracle.com/cd/E11882_01/serv ...
- python pandas csv时间聚合_pandas中简单统计分组聚合函数的介绍
说明: 这里只是简单的说明了一些pandas中的一些我在毕设中使用到的函数,这个 模块的并未具体其他的一些功能并未详细的进行说明. pandas 简单介绍 Python语言的Pandas模块是一种高效 ...
- sql用于字符串的聚合函数_SQL字符串函数用于数据整理(争用)
sql用于字符串的聚合函数 In this article, you'll learn the tips for getting started using SQL string functions ...
- influxDB 常用聚合函数整理
1)count()函数 返回一个(field)字段中的非空值的数量. 语法: SELECT COUNT(<field_key>) FROM <measurement_name> ...
- 逆分布函数法生成随机数(以指数分布和双指数分布为例)
前面在"C++均匀分布U(0,1)的随机数中"讲了如何在C++中生成均匀分布随机数,同时也提到了均匀分布的是其他随机数的生成基础,这里就来看看均匀分布在其他随机数生成中的重要作用吧 ...
- pandas 聚合函数agg
今天看到pandas的聚合函数agg,比较陌生,平时的工作中处理数据的时候使用的也比较少,为了加深印象,总结一下使用的方法,其实还是挺好用的. DataFrame.agg(func,axis = 0, ...
- tidb和tbase的聚合函数算法
tidb的聚合函数算法 连接:(二十二)Hash Aggregation tidb实现了两种聚合函数的算法:Hash Aggregation 和 Stream Aggregation 对于数据无序的, ...
最新文章
- filezilla 设置filezilla使用明文密码_详解WordPress使用FTP上传主题和插件
- 牛红红的日记(平平无奇拿下域控)
- 领域驱动设计,让程序员心中有码(八)
- 使用Spring 3 MVC处理表单验证
- Android - 布局详解之LinearLayout与RelativeLayout
- 重构-改善既有代码的设计(十)--简化函数调用
- 何为MQ以及为何要用MQ
- 查看局域网内所有ip 和 mac
- 关于 pip安装的可能错误的排除
- 【C语言】标准内容介绍(C99)
- Webtrends网站运营分析解决方案简介
- JDK自带的实用工具——native2ascii.exe
- 黑苹果10.14.5安装WebDriver驱动nvidia独立显卡
- 手把手教你做短视频去水印微信小程序(6-广告代码)
- 终于稳了!2020年8月程序员工资最新统计
- 医学图像中的窗宽(Window Width,WW)和窗位(Window Level,WL)
- python 7-1 输出星期名缩写 (10分)
- lay-href页面不跳转
- 南传法句经(摘选)03
- 激活 出现无法访问制定设备,路径或文件。您可能没有合适的权
热门文章
- 华为交换机修改concle密码
- 全网最详细中英文ChatGPT-GPT-4示例文档-从0到1快速入门AI智能问答应用场景——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)
- python分析红楼梦中人物形象_红楼梦中四个人物形象分析
- javascript高级程序设计阅读收获(1.1)——javascript简短的历史回顾
- 深入浅出Docker 读书笔记(九)
- 如何自己制作证件照片?照片怎么做成证件照?
- 三维空间刚体运动——(1)齐次坐标与旋转矩阵
- 2021新宁二中高考喜报成绩查询,新宁二中举行2021年高考倒计时100天誓师大会
- 手把手教你如何微信公众号开发
- html5网页制作电脑版,页未央HTML5制作神器PC版