第二章 时间序列的预处理


文章目录

  • 2.1 平稳性检测
    • 2.1.1 特征统计量
      • 2.1.1.1 概率分布
      • 2.1.1.2 特征统计量
    • 2.1.2 平稳时间序列的定义
    • 2.1.3 平稳时间序列的统计性质
    • 2.1.4 平稳时间序列的意义
    • 2.1.5 平稳性的检测(图检验方法)
  • 2.2 纯随机性检测
    • 2.2.1 纯随机序列的定义
    • 2.2.2 纯随机序列的性质
    • 2.2.3 纯随机性检验
      • 2.2.3.1 检验原理
      • 2.2.3.2 假设条件
      • 2.2.3.3 检验统计量
      • 2.2.3.4 判别原则

2.1 平稳性检测

2.1.1 特征统计量

2.1.1.1 概率分布

时间序列{Xt}\{X_t\}{Xt​}的概率分布族。
实际应用有局限性。

2.1.1.2 特征统计量

  1. 均值函数
    μt=EXt=∫−∞∞xdFt(x)\mu_t = EX_t=\int_{-\infty}^{\infty} xdF_t(x) μt​=EXt​=∫−∞∞​xdFt​(x)
    均值函数序列{μt,t∈T}\{\mu_t, t \in T\}{μt​,t∈T},反映时间序列{Xt}\{X_t\}{Xt​}每时每刻的平均水平。

  2. 方差函数
    DXt=E(Xt−μt)2=∫−∞∞(x−μt)2dFt(x)DX_t = E(X_t - \mu_t)^2 = \int_{-\infty}^{\infty} (x-\mu_t)^2 dF_t(x) DXt​=E(Xt​−μt​)2=∫−∞∞​(x−μt​)2dFt​(x)
    当t取遍所有的观察时刻时,可得到一个方差序列 {σt2,t∈T}\{ \sigma_t^2, t\in T \}{σt2​,t∈T}。

  3. 自协方差函数
    γ(t,s)=E(Xt−μt)(Xs−μs)=E(XtXs)−E(Xt)E(Xs)\gamma(t,s) = E(X_t - \mu_t)(X_s - \mu_s) = E(X_t X_s) - E(X_t) E(X_s) γ(t,s)=E(Xt​−μt​)(Xs​−μs​)=E(Xt​Xs​)−E(Xt​)E(Xs​)

  4. 自相关系数(ACF)
    ρ(t,s)=γ(t,s)DXt⋅DXs\rho(t,s) = \frac {\gamma(t,s)} {\sqrt {D X_t \cdot D X_s}} ρ(t,s)=DXt​⋅DXs​​γ(t,s)​

【注意】
通常的协方差函数和相关系数度量的是两个不同事件彼此之间的相互影响程度。
而自协方差函数和自相关系数度量的是同一个事件两个不同时期之间的相关程度,即度量自己过去的行为对自己现在的影响。

2.1.2 平稳时间序列的定义

平稳代表没有明显趋势且波动范围有限。

  1. 严平稳
    严平稳是一种条件比较苛刻的平稳性定义,它认为只有当序列所有的统计性质都不会随着时间的推移而发生变化时,该序列才能被认为平稳。
    定义1:

    设 {Xt}\{X_t\}{Xt​} 为一时间序列,∀m∈Z+\forall m \in Z^+∀m∈Z+, ∀t1,t2,...,tm∈T\forall t_1,t_2,...,t_m \in T∀t1​,t2​,...,tm​∈T,则 ∀τ∈Z\forall \tau \in Z∀τ∈Z, 有Ft1,t2,...,tm(x1,x2,...,xm)=Ft1+τ,t2+τ,...,tm+τ(x1,x2,...,xm)F_{t_1, t_2, ..., t_m}(x_1, x_2, ..., x_m) = F_{t_{1+\tau}, t_{2+\tau}, ..., t_{m+\tau}}(x_1, x_2, ..., x_m)Ft1​,t2​,...,tm​​(x1​,x2​,...,xm​)=Ft1+τ​,t2+τ​,...,tm+τ​​(x1​,x2​,...,xm​)

  2. 宽平稳
    宽平稳是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计性质主要由它的低阶矩决定,所以只要保证序列低阶平稳(二阶),就能保证序列的主要性质近似稳定。

  • 定义2:

    • (1) ∀t∈T\forall t \in T∀t∈T, 有EXt2<∞EX_t^2 < \inftyEXt2​<∞。方差是存在的。
    • (2) ∀t∈T\forall t \in T∀t∈T, 有EXt=μEX_t = \muEXt​=μ(常数)。均值是常数。
    • (3) ∀t,s,k∈T\forall t,s,k \in T∀t,s,k∈T,且k+s−t∈Tk+s-t \in Tk+s−t∈T,γ(t,s)=γ(k,k+s−t)\gamma(t,s)=\gamma(k, k+s-t)γ(t,s)=γ(k,k+s−t)。反映的是:两个相距为s-t的时间序列的相关关系。
    • 则称XtX_tXt​为宽平稳时间序列,或弱平稳、二阶平稳。
    • 均值(期望)是一阶原点矩,方差是二阶中心矩,自协方差是二阶混合中心矩。
  1. 严平稳与宽平稳的关系
  • 一般关系

    • 严平稳条件比宽平稳条件苛刻,通常情况下,严平稳(低阶矩存在)能推出宽平稳成立,而宽平稳序列不能反推严平稳成立。
  • 特例
    • 不存在低阶矩的严平稳序列不满足宽平稳条件,例如服务柯西分布的严平稳序列就不是宽平稳序列。柯西分布不存在期望和方差,因为柯分分布期望值不收敛。
    • 当序列服从多元正太分布时,宽平稳可以推出严平稳。
  • 二阶矩有限的严平稳为宽平稳。
  • 宽平稳一般不是严平稳。
  • 正态平稳列既是宽平稳也是严平稳。
  • 平稳序列=宽平稳序列=弱平稳序列。
  • 严平稳序列=强平稳序列。

2.1.3 平稳时间序列的统计性质

  1. 常数均值
    E(Xt)=μ,∀t∈TE(X_t)=\mu, \forall t \in T E(Xt​)=μ,∀t∈T

  2. 自协方差函数和自相关函数只依赖于时间的平移长度而与时间的起止点无关。
    r(t,s)=r(k,s+k−t),∀t,s,k∈Tr(t,s)=r(k,s+k-t), \forall t,s,k \in T r(t,s)=r(k,s+k−t),∀t,s,k∈T
    由此,可将二维的自协方差函数转化为一维函数,即:
    r(t,s)=r(s−t),∀t,s∈Tr(t,s)=r(s-t), \forall t,s \in T r(t,s)=r(s−t),∀t,s∈T
    相关关系具有对称性:
    r(s,t)=r(t−s),∀t,s∈Tr(s,t)=r(t-s), \forall t,s \in T r(s,t)=r(t−s),∀t,s∈T

  3. 延迟K阶自协方差函数
    对于平稳时间序列{Xt,t∈T}\{X_t, t \in T\}{Xt​,t∈T},任取∀t(t+k∈T)\forall t (t+k \in T)∀t(t+k∈T), 定义r(k)r(k)r(k)为时间序列{Xt}\{X_t\}{Xt​}的延迟K阶自协方差函数:
    r(k)=r(t,t+k),∀k∈Zr(k) = r(t, t+k), \forall k \in Z r(k)=r(t,t+k),∀k∈Z
    从而容易推出时间序列的常数方差的性质,即:
    D(Xt)=r(t,t)=r(0)D(X_t)=r(t, t)=r(0) D(Xt​)=r(t,t)=r(0)

自相关系数具有如下三个性质:

  • 规范性 ρ0=1,且∣ρk∣<=1,∀K∈Z\rho_0 = 1, 且|\rho_k|<=1, \forall K \in Zρ0​=1,且∣ρk​∣<=1,∀K∈Z
  • 对称性 ρk=ρ−k\rho_k=\rho_{-k}ρk​=ρ−k​
  • 非负定性:自相关系数矩阵为对称非负定阵(特征根>=0)。
  • 特别性质:对应模型的非唯一性

2.1.4 平稳时间序列的意义

  1. 传统统计的数据结构
  2. 时间序列的数据结构
    • 任意t时刻的序列值XtX_tXt​是一随机变量;
    • 变量XtX_tXt​在任一时刻只能获得唯一的样本观察值
    • 缺点是样本信息少,需要借助其他信息或辅助办法。
  3. 平稳性的重大意义

(1) 平稳序列的常数均值性使得{μt,t∈T}\{\mu_t, t \in T\}{μt​,t∈T}变成常数序列{μ,t∈T}\{\mu, t \in T\}{μ,t∈T}。
原来每个XtX_tXt​的均值μt\mu_tμt​只依靠唯一的一个观测值xtx_txt​去估计。但由于μt=μ(∀t∈T)\mu_t=\mu(\forall t \in T)μt​=μ(∀t∈T),所以每个样本的观测值x1,x2,x3,...,xt,...x_1, x_2, x_3,..., x_t, ...x1​,x2​,x3​,...,xt​,...都变成了常数均值μ\muμ的样本观测值。
μ^=xˉ=1n∑i=1nxi\hat \mu = \bar x = \frac 1 n \sum_{i=1}^n x_i μ^​=xˉ=n1​i=1∑n​xi​
故平稳序列极大地减少了随机变量的个数,并增加了待估变量的样本容易。即极大简化了时序分析的难度,同时也提高了对待特征统计量的估计精度。

(2)同理,根据平稳序列二阶矩平稳的性质,可以得到延迟K阶自协方差函数的估计值:
r^(k)=∑t=1n−k(xt−xˉ)(xt+k−xˉ)n−k,∀0<k<n\hat r(k) = \frac {\sum_{t=1}^{n-k} (x_t - \bar x)(x_{t+k} - \bar x)} {n-k}, \forall 0 < k < n r^(k)=n−k∑t=1n−k​(xt​−xˉ)(xt+k​−xˉ)​,∀0<k<n
并进一步推导出总体方差的估计值:
r^(0)=∑t=1n(xt−xˉ)2n−1\hat r(0) = \frac {\sum_{t=1}^{n}(x_t - \bar x)^2} {n-1} r^(0)=n−1∑t=1n​(xt​−xˉ)2​

【注意】
使用n-1 是无偏的方差估计值。

延迟K阶自相关系数的估计值:
ρ^k=r^(k)r^(0),∀0<k<n\hat \rho_k = \frac {\hat r(k)} {\hat r(0)}, \forall 0 < k < n ρ^​k​=r^(0)r^(k)​,∀0<k<n
若延迟阶数K远小于样本容易n时,
ρ^k=∑t=1n−k(xt−xˉ)(xt+k−xˉ)∑1n(xt−xˉ)2,∀0<k<n\hat \rho_k = \frac {\sum_{t=1}^{n-k} (x_t - \bar x)(x_{t+k} - \bar x)} {\sum_{1}^{n} (x_t - \bar x)^2}, \forall 0 < k < n ρ^​k​=∑1n​(xt​−xˉ)2∑t=1n−k​(xt​−xˉ)(xt+k​−xˉ)​,∀0<k<n

2.1.5 平稳性的检测(图检验方法)

  1. 时序图检验
    根据平稳时间序列均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数附近随机波动,而且波动的范围有界、无明显趋势及周期特征。

  2. 自相关图检测
    平稳序列通常具有短期相关性。该性质用自相关系数来描述就是随着延迟期数的增加,平稳序列的自相关系数会很快地衰减向零。

    • lag 延迟阶数
    • Covariance 自协方差
    • Correlation 自相关系数
      星号(*)部分落在点(.)之外,则认为具有相关性,
      自相关图上显示出明显的三角对称性,这是单调趋势的非平稳序列的一种典型的自相关图的形式。

  1. 单位根检测
    DF检验
    ADF检验
    PP检验

2.2 纯随机性检测

2.2.1 纯随机序列的定义

纯随机序列也称为白噪声序列,它满足如下两条性质:

(1)EXt=μ,∀t∈TEX_t = \mu, \forall t \in TEXt​=μ,∀t∈T
(2)
$$
\gamma(t,s) =
\left{\begin{matrix}
\sigma ^ 2, t = s
\
0, t \neq s
\end{matrix}\right.

\forall t,s \in T
$$

2.2.2 纯随机序列的性质

  1. 纯随机性

γ(k)=0,∀k≠0\gamma(k) = 0, \forall k \neq 0 γ(k)=0,∀k​=0

各序列之间没有任何相关关系,即为"没有记忆"的序列。此时,序列在进行完全无序的随机波动。
从统计分析的角度,如果一个序列呈现出随机波动的特征,就认为该序列没有任何值得提取的有用信息,就应该终止分析了。

反之,若序列之间呈现出某种显著的相关关系:
γ(k)≠0,∀k≠0\gamma(k) \neq 0, \forall k \neq 0 γ(k)​=0,∀k​=0
则说明该序列不是随机序列,该序列间隔K期的序列值之间存在着一定程度的相互影响关系,统计上称为相关信息

时间序列分析的目的就是把相关关系提取出来,一旦观察值序列中的这种相关关系充分提取出来了,那么剩下的残差序列就应该呈现纯随机的性质。因此,纯随机性还是判断相关信息是否提取充分的一个判别标准。

  1. 方差齐性
    DXt=γ(0)=σ2DX_t = \gamma(0) = \sigma^2 DXt​=γ(0)=σ2

根据马尔可夫定理,只有方差齐性假定成立时,用最小二乘法得到的未知参数估计值才是准确的、有效的方差最小线性无偏估计。否则拟合模型的精度会受到很大的影响。

在进行模型拟合时,对拟合模型的残差序列是否满足方差齐性假定也需要进行检验。如果不满足,则说明残差序列还不是白噪声序列,即拟合模型还没有充分提取随机序列中的相关信息,这时拟合模型的精度是值得怀疑的。

2.2.3 纯随机性检验

2.2.3.1 检验原理

如果一个序列是白噪声序列,那么它必然满足纯随机性的性质,即它的序列值之间没有任何的相关关系:
γ(k)=0,∀k≠0\gamma (k) = 0, \forall k \neq 0 γ(k)=0,∀k​=0
实际上由于观察值的有限性,导致纯随机序列的样本自相关系数不会绝对为零,而是会在零值附近以一个很小的幅度随机波动。

2.2.3.2 假设条件

原假设:
延迟期数小于或者等于m期的序列值之间相互独立
ρ1=ρ2=...=ρm=0,∀m⩾1\rho_1 = \rho_2 = ...= \rho_m = 0, \forall m \geqslant 1 ρ1​=ρ2​=...=ρm​=0,∀m⩾1

备择假设:延迟期数小于或等于m期的序列值之间有相关性
至少存在某个ρk≠1,∀m⩾1,k⩽m至少存在某个\rho_k \neq 1, \forall m \geqslant 1, k \leqslant m 至少存在某个ρk​​=1,∀m⩾1,k⩽m

实践中m一般取6或者12。

本例中只检验了前6期和前12期延迟的LB统计量就直接判断该序列是白噪声序列?

因为平稳序列通常具有短期相关性,若序列值之间存在显著的相关关系,通常只存在与延迟时期比较短的序列值之间。所以若一个平稳序列短期延迟的序列值之间都不存在显著相关,通常长期延迟之间更不会显著相关。

另一方面,假如一个平稳序列显示出显著的短期相关性,则该序列一定不会是白噪声序列。若考虑的延迟时期数太长,可能淹没了该序列的短期相关性。因为平稳序列只要延迟时期足够长,自相关系数都会收敛于零。

2.2.3.3 检验统计量

Q统计量(QBP统计量Q_{BP}统计量QBP​统计量):

LB统计量(QLBQ_{LB}QLB​统计量,常用):

2.2.3.4 判别原则

  • 拒绝原假设
    当检验统计量大于χ1−a2(m)\chi_{1-a}^2(m)χ1−a2​(m) 分位点,或该统计量的P值小于α\alphaα时,则可以以1−α1-\alpha1−α的置信水平拒绝原假设,认为该序列为非白噪声序列。
  • 不拒绝原假设
    当检验统计量小于χ1−a2(m)\chi_{1-a}^2(m)χ1−a2​(m) 分位点,或该统计量的P值大于α\alphaα时,则可以以1−α1-\alpha1−α的置信水平无法拒绝原假设,即不能显著拒绝序列为纯随机序列的假定。

只要有一个P值小于α\alphaα时,就可拒绝原假设。

例2.5 时序图

例2.5 自相关图

ρ1,ρ2,ρ3\rho_1,\rho_2,\rho_3ρ1​,ρ2​,ρ3​落在两倍标准差之外,显著不等于0。从第4期开始,迅速的落在两倍标准差范围以内。也就是说从第4期开始,所有的ρk\rho_kρk​就没有显著性区别了。所以这个序列向着零值靠拢的速度是非常快的。它满足平稳序列的短期自相关性。

例2.5 白噪声检验结果

ch02_时间序列的预处理相关推荐

  1. 时间序列分析——基于R | 第2章 时间序列的预处理习题代码

    时间序列分析--基于R | 第2章 时间序列的预处理习题 1.考虑序列{1,2,3,4,5,-,20} 1.1判断该序列是否平稳 x <- seq(1,20);x ## [1] 1 2 3 4 ...

  2. 数据分析 时间序列分析 时间序列的预处理

    一.概述 1.时间序列的预处理: 对观测值序列的纯随机性和平稳性的检测称为"时间序列的预处理",根据检测结果可将序列分为不同类型.记γ(s,t)=Cov(Xs,Xt) 2.概率分布 ...

  3. 时间序列分析学习笔记:时间序列的预处理(平稳性检验、纯随机性检验)

    1 时间序列预处理 2 平稳性检验 2.1 特征统计量(概率分布的意义) 2.2 时间序列的概率分布 2.3 概率分布族应用的局限性 2.4 特征统计量(均值.方差) 2.5 平稳时间序列的定义(严平 ...

  4. 时间序列的预处理——平稳性检验的R语言实现(二)

    这一部分是时间序列预处理R语言的实现. 目标是将课本和上课知识点整合. 老师是用一节课讲完的,本篇文章只做了平稳性检验~~~ 下一篇再写纯随机性检验 全部代码 #input data yield &l ...

  5. 二、时间序列的预处理

    一般情况下,拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理.根据检验的结果可以将序列分为不同的类型,对不同类型的序列我们会采用不同的分析方法. 一.平稳 ...

  6. 时间序列的预处理之纯随机性检验

    目录 1.纯随机序列的定义 2.性质 3.纯随机性检验 1.纯随机序列的定义 纯随机序列也称为白噪声序列,满足如下性质: 2.性质 纯随机性(无记忆性) 方差齐性 举例,随机生成1000个白噪声序列 ...

  7. 时间序列数据的预处理

    来源:Deephub Imba 本文约2600字,建议阅读5分钟 在本文中,我们将看到在深入研究数据建模部分之前应执行的常见时间序列预处理步骤和与时间序列数据相关的常见问题. 时间序列数据随处可见,要 ...

  8. 时间序列 预处理 python_【Python算法】时间序列预处理

    [Python算法]时间序列预处理 1.时间序列的预处理 拿到一个观察值序列后,首先要对它的纯随机性和平稳性进行检验,这两个重要的检验被称为序列的预处理.根据检验结果可以将序列分为不同的类型,对不同类 ...

  9. python实现时间序列预处理

    时间序列的预处理 拿到一个观察值序列后,首先要对它的纯随机性和平稳性进行检验,这两个重要的检验被称为序列的预处理.根据检验结果可以将序列分为不同的类型,对不同类型的序列会采取不同的分析方法. 什么样的 ...

最新文章

  1. firework常用快捷键
  2. The new NDK support in Android Studio 1.3
  3. 再上24天班,小长假就来了!
  4. npm install含义 及vue安装启动项目时报错解决及vue建项目时各文件间的依赖关系...
  5. [C语言]为什么要有include?——从Hello World说起
  6. odbc远程连接mysql_无法使用unixodbc,libmyodbc连接到远程mysql服务器
  7. MATLAB学习笔记(十一)
  8. ElasticSearch-5.3.1集群环境搭建,安装ElasticSearch-head插件,安装错误解决
  9. Listener中应用spring管理的Bean
  10. defunct 进程占用端口_纯干货:23个服务器常见问题处理方法!
  11. JS推断浏览器类型与版本号
  12. cad上样条曲线上的点太多了_CAD样条曲线如何转换成多段线?看完这篇文章你就懂了...
  13. 药物临床试验数据递交PMDA的规定
  14. 孔乙己:new的五种写法
  15. [Pandas] 数据形状df.shape
  16. 领秀d8 android4.5 root,Root神器重大更新 KingRoot V4.5发布
  17. win7无法看到工作组计算机,Win7系统无法查看工作组问题的解决方法
  18. 目标检测算法之常见评价指标的详细计算方法及代码解析
  19. 计算机视觉论文速递(七)FAN:提升ViT和CNN的鲁棒性和准确性
  20. 计算机毕业设计SSMJava远程健康数据管理系统【附源码数据库】

热门文章

  1. 连续子数组数量-腾讯音乐娱乐集团2023校园招聘技术类岗位
  2. python学习笔记 2 - 网络爬虫
  3. [noip2017] 前三周总结
  4. 探访国内NB-IoT建设样板城市:物联网带来智慧和内涵
  5. JAVA学习笔记:concat, StringBuffer ,append,insert
  6. linux设备模型十四(hotplug和mdev使用)
  7. 【GZOJ】1374——口袋妖怪对战
  8. 双十一减负系列之:直邮、转运、保税仓模式下的跨境进口商品物流查询
  9. VScode结合Anaconda配置Python开发环境
  10. jexus php 重写,Jexus 支持PHP的三种方式