高维统计需要对随机变量进行估计和误差分析,其使用的工具和方法与传统统计有所差异。
统计学研究的内容涉及:

  1. 怎么估计
    a. 抽样出样本
    b. 参数估计:eg无偏估计 θ ^ → θ \hat\theta\rightarrow\theta θ^→θ
    c. 模型分析
    d. 优化问题求解:梯度下降
  2. 估计的合理性
    a. 误差估计: ∣ ∣ θ ^ − θ ∣ ∣ ||\hat\theta-\theta|| ∣∣θ^−θ∣∣

我们都知道用样本均值估计总体均值,样本协方差矩阵估计总体协方差矩阵,但是为什么能这样估计?估计的误差怎么衡量?这就是模型分析和误差估计要做的事情。
这篇note对后续所需要的随机变量估计涉及的不等式进行讨论,例如常用随机变量(sub-gaussian\sub-exponential)的不等式、推导不等式的所用工具和方法。

PartA–Basic tail and concentration bounds

什么是tail bounds,concentration bounds?

随机变量 x x x的值用概率大小来度量,实际应用往往需要估计随机变量处在某个区间的概率,tail bounds是估计 P ( ∣ x ∣ > t ) P(|x|>t) P(∣x∣>t),concentration bounds是估计 P ( ∣ x − μ ∣ ≥ t ) P(|x-\mu|\geq t) P(∣x−μ∣≥t)

A1. 常用的tail bounds

(1)markov不等式

(2)chebyshev不等式

(3)markov不等式的推广

(4)chernoff bound
从moment generating function角度,设 ϕ ( λ ) = E [ e λ ( X − μ ) ] \phi (\lambda)=\mathbb{E}[e^{\lambda (X-\mu)}] ϕ(λ)=E[eλ(X−μ)]

两边取对数,即得到chernoff bound:

example1-(gaussian tail bound)

抽象出具有这样upper deviation不等式的随机变量,即sub-gaussian随机变量

A2. sub-gaussian和sub-exponential的tail bounds

sub-gaussian

(1)sub-gaussian定义

(2)concentration inequality
sub-gaussian随机变量 X X X是满足upper deviation不等式的,那么 − X -X −X是满足lower deviation不等式的,合起来就是concentration不等式:

(3)一些sub-gaussian的例子
example1–Rademacher variables

example2–Bounded random variables

(4)sub-gaussian的和----hoeffding bound

(5)sub-gaussian的等价定义方式

  • MGF
  • 任意sub-gaussian都能用高斯随机变量衡量
  • 控制moments

比sub-gaussian条件宽松的随机变量–sub-exponential

(1)sub-exponential的定义
和sub-gaussian不同的是,sub-exponential只要求在某区间上满足不等式

(2)tail bound和concentration bound(bernstein不等式)

根据sub-exponential的定义,将估计MGF推广到估计 ( X − μ ) k (X-\mu)^k (X−μ)k,就是bernstein条件:

利用bernstein条件可以获得比hoeffding bound更紧的界:

(3)sub-exponential的和
X k X_k Xk​是sub-exponential的,参数 ( γ k , α k ) (\gamma_k,\alpha_k) (γk​,αk​),那么 ∑ k = 1 n ( X k − μ k ) \sum_{k=1}^n(X_k-\mu_k) ∑k=1n​(Xk​−μk​)也是sub-exponential的,参数为 ( γ ∗ , α ∗ ) (\gamma_*,\alpha_*) (γ∗​,α∗​),其中

tail bounds:

(4)sub-exponential的等价定义方式

(5)单边的bernstein不等式

从 ∑ i = 1 n ( X i − μ i ) \sum_{i=1}^n (X_i-\mu_i) ∑i=1n​(Xi​−μi​)推广到 f ( X ) f(X) f(X)的bounds
goal:设 f : R n → R f:\mathbb{R}^n \rightarrow \mathbb{R} f:Rn→R,获得 f ( X ) − E [ f ( X ) ] f(X)-\mathbb{E}[f(X)] f(X)−E[f(X)]的界

(1)martingale
定义一个递增的 σ − \sigma- σ−域 { F k } k = 1 ∞ \{\mathcal{F}_k\}_{k=1}^{\infty} {Fk​}k=1∞​(也叫filtration),设 { Y k } k = 1 ∞ \{Y_k\}_{k=1}^{\infty} {Yk​}k=1∞​在 F k \mathcal{F}_k Fk​上可测,则

D k = Y k − Y k − 1 D_k=Y_k-Y_{k-1} Dk​=Yk​−Yk−1​为martingale序列

(2)一些例子

(3)martingale序列 D k D_k Dk​的Concentration bounds

(4)利普希茨函数的bounds

PartB–Concentration of measure

得到tail bounds和concentration bounds的方法:

B1.entropy methods

(1) ϕ − \phi- ϕ−entropy
设 X ∼ P X\sim\mathbb{P} X∼P,凸函数 ϕ : R → R \phi:\mathbb{R}\rightarrow \mathbb{R} ϕ:R→R,定义一个衡量随机变量可变性(扰动)的度量:

例子:

设MGF为 φ X ( λ ) = E [ e λ X ] \varphi_X(\lambda)=\mathbb{E}[e^{\lambda X}] φX​(λ)=E[eλX],则entropy和MGF的关系:

(2)entropy与tail bounds
entropy是衡量随机变量可变性(扰动)的度量,那么限制entropy就等于给随机变量找bounds:

  • sub-gaussian
  • sub-exponential

B2. 几何方法

(1)concentration function

Q1:concentration function怎么得到concentration bound?
Q2:当 ϵ \epsilon ϵ变大,concentration function会如何变化,它趋向于0的速度如何?


(2)从几何到concentration bounds

B3. transportation cost方法

(1)wasserstein distance
度量空间 ( X , ρ ) (\mathcal{X},\rho) (X,ρ)上的两个概率分布 Q , P \mathbb{Q},\mathbb{P} Q,P的距离:

其中 ∣ ∣ f ∣ ∣ L i p ||f||_{Lip} ∣∣f∣∣Lip​是使得利普希茨条件成立的最小 L L L

(2)wasserstein distance的对偶定义

(3)KL散度

(4)Tensor for transportation cost

partC–大数定律

C1. 动机

累积分布函数

累计分布函数 F ( t ) = P ( X ≤ t ) F(t)=\mathbb{P}(X\leq t) F(t)=P(X≤t), { X i } i = 1 n \{X_i\}_{i=1}^n {Xi​}i=1n​是从 F F F中抽的独立样本,用经验累积分布函数

估计 F F F,由强大数定理可知 F ^ n ( t ) → a.s F ( t ) \hat{F}_n(t)\xrightarrow{\text{a.s}} F(t) F^n​(t)a.s ​F(t)(点点收敛);一致收敛是更为严格的收敛,对于用 γ ( F ^ n ) \gamma(\hat{F}_n) γ(F^n​)估计 γ ( F ) \gamma(F) γ(F)提供理论支持


γ ( F ^ n ) \gamma(\hat{F}_n) γ(F^n​)估计 γ ( F ) \gamma(F) γ(F)的例子:

一般函数


随机变量 ∣ ∣ P n − P ∣ ∣ F ||P_n-P||_{\mathscr{F}} ∣∣Pn​−P∣∣F​对于:

  • empirical risk minimization
  • decision-theoretic
    十分关键

empirical risk

population risk

excess risk

C2. Rademacher complexity

(1)定义empirical Rademacher complexity


它衡量了 ( f ( X 1 ) , . . . , f ( X n ) ) (f(X_1),...,f(X_n)) (f(X1​),...,f(Xn​))与噪声 ( ϵ 1 , . . . , ϵ n ) (\epsilon_1,...,\epsilon_n) (ϵ1​,...,ϵn​)的最大相关程度

对任意的有界函数集合 F \mathscr{F} F, R n ( F ) = o ( 1 ) \mathcal{R}_n(\mathscr{F})=o(1) Rn​(F)=o(1)即为Glivenko–Cantelli property


求分布的误差可转换为求Rademacher complexity的上界

  • 有限函数类:simple union bound methods
  • 无线函数类:metric entropy、chaining arguments

method1—simple union bound methods

设 x 1 n = ( x 1 , . . . , x n ) x_1^n=(x_1,...,x_n) x1n​=(x1​,...,xn​)为点集,集合 F ( x 1 n ) = { ( f ( x 1 ) , . . . , f ( x n ) ) ∣ f ∈ F } \mathscr{F}(x_1^n)=\{(f(x_1),...,f(x_n))|f\in\mathscr{F}\} F(x1n​)={(f(x1​),...,f(xn​))∣f∈F}的“大小”提供了一种依靠样本的度量 F \mathscr{F} F的方式:

  • F ( x 1 n ) \mathscr{F}(x_1^n) F(x1n​)对所有样本都是有限的个数,那么大小就是cardinality
  • 我们关系cardinality关于n成多项式增长的函数集


这类函数集的Rademacher complexity上界:

哪些函数满足polynomial discrimination

  1. Classical Glivenko–Cantelli
  2. Vapnik–Chervonenkis (VC) dimension


如果 ν ( F ) \nu(\mathscr{F}) ν(F)有限,则称 F \mathscr{F} F为VC类;任意有限VC类都满足 polynomial discrimination(degree最大为VC dim)

method2— Metric entropy

(1)覆盖数的定义

log ⁡ N ( δ ; T , ρ ) \log N(\delta;\mathbb{T},\rho) logN(δ;T,ρ)为metric entropy


以上用了不同的方法获得上下界,packing number可以把这两种方法统一

packing number和覆盖数的关系:

(2)使得metric entropy满足的几何性质

(3)随机过程

metric entropy描述的是确定的
随机过程的描述 { X θ , θ ∈ T } \{X_\theta,\theta\in\mathbb{T}\} {Xθ​,θ∈T}往往依赖指标集 T \mathbb{T} T的结构

考虑两个方向的问题:

  1. 给定 T \mathbb{T} T的结构,随机过程的表现如何
  2. 给定随机过程,指标集 T \mathbb{T} T会有什么性质

12相互作用的例子:Gaussian and Rademacher complexity


两者关系:

(4)更一般的:sub-Gaussian processes

upper bound

tighter bound

lower bound

【高维统计N2】工具和方法相关推荐

  1. UA MATH567 高维统计专题3 含L1-norm的凸优化4 Nesterov方法与Accelerate Proximal Gradient

    UA MATH567 高维统计专题3 含L1-norm的凸优化4 一阶方法的加速 Nesterov方法 Accelerate Proximal Gradient (APG) 梯度下降与Proximal ...

  2. 百度统计高级分析工具使用方法,百度统计高级分析工具的功能有哪些

    百度统计普遍使用的网站类型有,PC网站.手机站.wap站等,需要在统计的网站页面上安装百度统计JS代码. 百度统计高级分析工具使用方法 1.登录已经关联站点的百度统计账号. 2.点击高级分析-实时分析 ...

  3. UA MATH567 高维统计III 随机矩阵12 整数环上的区间的应用:DNA序列突变点侦测的统计量及假设检验

    UA MATH567 高维统计III 随机矩阵12 整数环上的区间的应用:拐点侦测的统计量及假设检验 整数环上的区间作为随机变量的下标 最大值的概率不等式 应用:DNA序列突变点侦测 整数环上的区间作 ...

  4. UA MATH567 高维统计III 随机矩阵8 社区发现 Spectral Clustering的理论分析

    UA MATH567 高维统计III 随机矩阵8 社区发现 Spectral Clustering的理论分析 上一讲我们完成了Stochastic Block Model与社区发现问题的建模,并描述了 ...

  5. 高维统计学习笔记1——LASSO和Oracle性质

    高维统计学习笔记1--LASSO和Oracle性质 主要参考资料:Sara Van De Geer<Estimation and Testing Under Sparsity> 前言 当年 ...

  6. UA MATH567 高维统计专题1 稀疏信号及其恢复3 Coherence与RIP简介

    UA MATH567 高维统计专题1 稀疏信号及其恢复3 Coherence与RIP简介 Pairwise inc oherence Mutual Coherence RIP 前两讲介绍了L0-min ...

  7. UA MATH567 高维统计 专题0 为什么需要高维统计理论?——理解稀疏向量与hard-threshold

    UA MATH567 高维统计 专题0 为什么需要高维统计理论?--理解稀疏向量与hard-threshold 稀疏向量的soft-threshold与hard-threshold近似 引入hard- ...

  8. UA MATH567 高维统计III 随机矩阵3 集网与覆盖

    UA MATH567 高维统计III 随机矩阵3 集网与覆盖 在介绍随机矩阵的concentration与尾部概率行为之前,我们先介绍一个在监督学习理论.高维统计与随机矩阵等领域都非常有用的工具:ϵ\ ...

  9. UA MATH567 高维统计II 随机向量10 Grothendieck不等式的证明 版本二:kernel trick

    UA MATH567 高维统计II 随机向量10 Grothendieck不等式的证明 版本二:kernel trick 在介绍亚高斯随机向量的更多应用之前,我们先简单介绍一下核方法(kernel t ...

最新文章

  1. 一线互联网技术:Java工程师架构知识系统化汇总,面完45K!
  2. linux中ctrl+z和ctrl+c的区别
  3. 全球黑客盛会:2008年黑帽大会要闻摘要(2)
  4. js date 加一天_开发效率创新高,只因收下了这波 JS 操作
  5. oracle 空值 group by,为什么group by 没有将一样的数据合为一条
  6. Android双屏异显的实现
  7. 计组-输入输出系统小结
  8. linux查漏补缺之常用命令
  9. [转]Angular2 Material2 封装组件 —— confirmDialog确定框
  10. iOS None of the valid provision profiles allowed the specified entitlements:beta-reports-active,asp-
  11. EXCEL VLOOKUP函数的使用
  12. win8下Oracle 12c 创建新用户并分配表空间
  13. python 玩彩票程序 随机产生两位数与用户输入的相比较
  14. dns服务器功能作用,DNS服务的用途介绍
  15. 大学实训_软件毕设_Java入门实战_商场管理系统_Punrain
  16. Fiddler下载安装及手机抓包--小白版
  17. 从总监到CEO的一些思考和理解
  18. 1.4 Kronecker积
  19. 如何选择一家好的Java培训机构?
  20. 低代码与BPM有什么区别?

热门文章

  1. Dialog显示引起的问题 Activity has leaked window DecorView@5704632[] that was originally added here
  2. div及iframe滚动条固定为最底端
  3. 深入理解Calendar的add方法
  4. “你家娃为什么这么爱看书?”只用3招,孩子秒变小书迷
  5. log4j2禁止在控制台打印HikariPool日志
  6. win10系统笔记本电脑如何通过USB连接iphone热点
  7. 【忆暖行动】志愿者招募
  8. Mybatis 一对多关系
  9. 在windows命令行使用sudo命令
  10. 2022-11 CSS:flex布局父子宽度问题-小程序scrollView-div横向滚动字体超出隐藏-居中