一、正态分布

  1. 标准正态分布
    标准正态分布就是均值为0,标准差为1的分布,如下图
  2. 一般正态分布
    一般正态分布n,假设其均值是 μ,标准差为σ ,即服从 n~N(μ,σ)
    经过变换可以转换成标准正态分布:另X = (N - μ)/ σ,则X就是服从标准的正态分布了X~N(0,1)

二、置信区间

  1. 上图中的面积就是标准正态分布的概率,而置信区间就是变量的区间估计,例如图中的-1到1就是一个置信区间:标准正态分布的变量X ,有68.27%的概率 X属于[-1,1]这个区间。
    最常用的是95%的分布区间,就是[-1.96,1.96]这个区间。方便公式化,我们另区间为[-z,z],那么 -z<=X<=z。
    进而可以推导一般正态分布的置信区间:
    -z<=X<=z
    -z<=(N - μ)/ σ<=z
    μ-zσ<=N<=μ+zσ
    因此,一般正态分布n~N(μ,σ)的置信区间是 [μ-zσ, μ+zσ],其中z根据置信水平而定。置信水平与区间对应关系如下:
  2. 性质分析
    置信区间与置信水平、样本量等因素均有关系,其中样本量对置信区间的影响为:在置信水平固定的情况下,样本量越多,置信区间越窄。其次,在样本量相同的情况下,置信水平越高,置信区间越宽。
    因此:如果样本多,就说明比较可信,不需要很大的修正,所以置信区间会比较窄,下限值会比较大;但是如果样本少,就说明不一定可信,必须进行较大的修正,置信区间会比较宽,下限值会比较小。
    由此得出结论:上述正态区间只适用于样本较多的情况,对于小样本,它的准确性很差。

三、威尔逊区间(Wilson score interval)

  • 由于正态区间对于小样本并不可靠,因而,1927年,美国数学家 Edwin Bidwell Wilson提出了一个修正公式,被称为“威尔逊区间”,很好地解决了小样本的准确性问题。

    在上面的公式中,^p表示样本的”赞成票比例”,n表示样本的大小,z表示对应某个置信水平的z统计量,这是一个常数,可以通过查前文表得到。一般情况下,在95%的置信水平下,z统计量的值为1.96。
  • 威尔逊置信区间的均值为

    下限为:

    可以看到:当n的值足够大时,这个下限值会趋向^p。如果n非常小(投票人很少),这个下限值会大大小于p,实际上,起到了降低”赞成票比例”的作用,使得该项目的得分变小、排名下降。
  • 根据离散型随机变量的均值和方差定义:
    μ=E(X)=0*(1-p)+1*p=p
    σ=D(X)=(0-E(X))2(1-p)+(1-E(X))2p=p2(1-p)+(1-p)2p=p2-p3+p3-2p2+p=p-p2=p(1-p)
    因此上面的威尔逊区间公式可以写成:

    就是对正态区间的均值和标准差进行了修正。
    但是有个问题:这个修正公式是仅仅适用于伯努利分布(好差评),还是也适用于其他分布(如5星评价)?这个问题本人也没搞清,望高人指点。

计算程序如下:

def wilson_score(pos, total, p_z=2.):"""威尔逊得分计算函数参考:https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval:param pos: 正例数:param total: 总数:param p_z: 正太分布的分位数:return: 威尔逊得分"""pos_rat = pos * 1. / total * 1.  # 正例比率score = (pos_rat + (np.square(p_z) / (2. * total))- ((p_z / (2. * total)) * np.sqrt(4. * total * (1. - pos_rat) * pos_rat + np.square(p_z)))) / \(1. + np.square(p_z) / total)return score

tips:对于5星评价问题,可以参考 http://www.evanmiller.org/ranking-items-with-star-ratings.html

正态分布 置信区间 威尔逊置信区间(Wilson score interval)相关推荐

  1. 威尔逊置信区间 php,Evvail | 威尔逊置信区间(Wilson confidence intervals )计算 | Omics - Hunter...

    1927年,美国数学家 Edwin Bidwell Wilson提出了一个修正公式,被称为"威尔逊置信区间",也称为"Plus Four Confidence Inter ...

  2. 威尔逊置信区间 php,排序之威尔逊区间算法

    威尔逊排序算法在实际运用中,使用的比较多,目前像贴吧.知乎的评论等排序等都用到此算法,自己在实践中用的比较多的地方就是对酒店排序,下面就介绍本公众号的第一篇文章! 威尔逊区间迄今为止,这个系列都在讨论 ...

  3. 置信区间用计算机如何计算,正态分布置信概率和置信区间的计算机自动计算

    本文提出了不确定度分析中常用的正态分布置信概率.置信区间的几种近似算法.并根据这些算法的数学模型设计了计算程序,对实际计算结果进行了验证. 维普资讯 http://doc.xuehai.net ●匝墨 ...

  4. python 散点图 置信区间_python 置信区间

    置信区间是指由 样本统计量 所构造的总体参数的估计区间. 这句话也就是说 ( 这里统计量一般指均值 ) 利用样本均值来估计总体均值的可靠程度, 这个"可靠程度"用"置信区 ...

  5. 置信区间(Confidence Intervals)是什么?如何计算置信区间?置信区间的两种计算方法是什么?二值样本置信区间如何计算?如何基于bootstrap抽样进行置信区间计算?

    置信区间(Confidence Intervals)是什么?如何计算置信区间?置信区间的两种计算方法是什么?二值样本置信区间如何计算?如何基于bootstrap抽样进行置信区间计算? 目录 置信区间( ...

  6. 置信区间的置信区间_xgboost的置信区间

    置信区间的置信区间 Gradient Boosting methods are a very powerful tool for performing accurate predictions qui ...

  7. 威尔逊置信区间 php,应用:推荐系统-威尔逊区间法

    我推荐一种之前在惠普做过一种排序方法:威尔逊区间法 我们先做如下设定: (1)每个用户的打分都是独立事件. (2)用户只有两个选择,要么投喜欢'1',要么投不喜欢'0'. (3)如果总人数为n,其中喜 ...

  8. 威尔逊置信区间 php,威尔逊置信区间排序

    对于召回的一些数据如何给这些数据来排名,然后根据这个排名来显示数据,这就需要使用"威尔逊区间"了. 首先我们讨论的情况是每个项目只有两种选择,且项目之间是相互独立的,就是项目符合& ...

  9. python计算正态分布曲线的置信区间:以投资组合收益置信区间为例,预测最大可能盈利及最大可能亏损

    前沿 首先,我们认为,不考虑含权资产(期权.利率互换等等),所有投资组合的收益率变动都符合正态分布曲线.即便少数样本不符合该规律,基于市场上所有资产的组合在较长时间跨度中也是符合该规律的. 这个规律有 ...

最新文章

  1. 从零开始实现穿衣图像分割完整教程(附python代码演练)
  2. token、cookie是什么
  3. bzoj1951 组合数取模 中国剩余定理
  4. Kubernetes存储之volume
  5. Redis的Hash操作
  6. 总体经济拉动新引擎-农业大健康·张咏:疫情后谋定乡村振兴
  7. 监控mysql业务数据分析_MySQL数据库监控指标之执行性能总结
  8. vue2 工具类_h5缓存
  9. VB 和Flex交互总结
  10. django abstract base class ---- 抽象基类
  11. 【转】spring MVC入门示例(hello world demo)
  12. 电子身份证助力打击钓鱼攻击
  13. php7.0 phalcon_phalcon php7
  14. sqlmap tamper mysql_sqlmap之常用tamper脚本
  15. 基于仿360小说网站(校园网)的源码设计实现(升级版)
  16. c#用串口传输二进制文件 xmodem协议
  17. video.js插件播放hls、rtmp
  18. 微型计算机48MHz辐射超,造成EMC辐射超标原因有哪些(精彩案例分析)
  19. 通信相关名词的英文缩写
  20. 高德地图 AMap.PlaceSearch

热门文章

  1. java怎么完成输出语句
  2. 一位母亲在女儿婚宴上的讲话
  3. 在Oracle和MySQL上安装hr schema、example和Scott schema
  4. 阿里云虚拟主机部署TP5项目绑定二级目录解决办法
  5. cfm在哪些应用服务器可执行,CFM 文件扩展名: 它是什么以及如何打开它?
  6. C++:类的使用【析构函数】
  7. 阿里DataX介绍以及使用记录
  8. 宝鲲财经:炒汇高手补仓技巧
  9. 论文配图美化,简单易用的SCI论文配图风格化工具教程
  10. 扫雷网页游戏部分代码