Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting论文阅读
Title:Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting
Publication:NeuralPS
Author:Tsinghua University
Published Date:2022
Page:1~10(文章内容)、10~22(细节)
Score:优秀
Github:GitHub - thuml/Nonstationary_Transformers: Code release for "Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting" (NeurIPS 2022), https://arxiv.org/abs/2205.14415Code release for "Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting" (NeurIPS 2022), https://arxiv.org/abs/2205.14415 - GitHub - thuml/Nonstationary_Transformers: Code release for "Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting" (NeurIPS 2022), https://arxiv.org/abs/2205.14415https://github.com/thuml/Nonstationary_Transformers
类型 |
思路 |
研究背景 |
由于全局范围建模能力,目前transformer在时序预测中很强,但是在联合分布随时间变化的非平稳数据集上模型能严重退化,所以提出一个非平稳transformer的通用框架。能够在平稳化的同时,解决丢失特征的问题为本文解决的中心问题。 关键词:非平稳时间序列,Transformers |
方法和性质 |
研究对象为时间序列预测任务。 将序列平稳化(如序列分解、归一化)是时间序列预测中的常见手段,平稳后更好预测,一般会提高预测性能。但本文认为,平稳化会存在过度平稳化的问题,导致对于有着不同属性特征的序列,Transformer模型学到的Attention Map很相似,如下图所示:三个不同时段的序列,直接用到Transformer时Attention Map不相似,但平稳化吼在用却很相似,这就是过度平稳化。 因此问题产生: 如何在利用平稳化提高可预测性能的同时,解决过度平稳化的问题呢? 本文提出一个框架如下:包括两个主要模块。一个是平稳化模块(Series Stationarization)用来进行序列平稳化(提高可预测性),一个是去平稳化注意力机制(De-stationary Attention)用来缓解过渡平稳化问题。 1. Series Stationarization 序列平稳化两个模块:输入时归一化(Normalization module)和输出时逆归一化(De-normalization module),归一化计算出的均值和方差会送到归一化层,来还原序列的统计特征。 Normalization module:求均值和方差,将序列归一化再送入模型。 De-normalization module: 利用上面的均值和方差逆归一化。 2. De-stationary Attention 因为我们输入的是平稳化的模型,所以算出的Attention也是平稳化后的序列,存在过度平稳化的问题。但希望得到:模型中的Attention Martrix实际上是非平稳序列的,所以本模块的目的是通过平稳后序列的Attention Matrix来近似原始非平稳序列的Attention Matrix。 推导如下: (Q′, K′, V′ 是由平稳化后序列得到的,而Q, K, V 是由平稳化前序列得到的。) 平稳化前的序列计算Attention如下,其实是我们的目标: (1) 由于平稳化过程是一个归一化过程,可以将平稳化化后的Q′K′T展开为:
然后将(2)带入(1)可得我们目标的Attention Martrix可改写成:
其中后两项是重复在每列操作,都不影响Softmax后的结果。比如对矩阵的任意一行来说,后两项就相当于为该行的每一个元素加上同样的值,并由于Softmax是对矩阵的每一列操作,所以是否加这个相同的值对Softmax的结果没有影响。因此可以直接去掉后两项,(3)直接化简为:
式子4等号后面的第一项中有Q′K′T,这个其实就是平稳后序列的Attention Matrix。所以,式子4搭建了一个从平稳后序列的Attention Matrix来得到平稳前原始序列的Attention Matrix(即我们的目标)的桥梁。 除了Q′K′T,式子4还包括, σx2,(KμQ)T ,但这些是无法从平稳后序列中得到的。因此,可以使用MLP来学习这两个量,即使用额外的两个MLP,一个用来学 τ=σx2 (注意这个量是正数,因此可以学它的对数),另一个用来学 Δ=KμQ ,这里的 τ,Δ 也被称为去平稳因子(de-stationary factors)。MLP的输入其实就是未平稳原始序列及其统计量。注意,要学习的量 σx2和Series Stationarization中的σx2并不一致,因为Series Stationarization中的σx2是整个模型的输入的方差,而要学习的量 σx2是每一层Attention layer的输入的方差,但论文中作者共享所有层Attention layer的去平稳因子。 综上,整个的De-stationary Attention可以写为: |
研究结果 |
效果非常好 采用的数据集为时序任务中常用的数据集: 在Transformer上降低了49.43%的MSE,在Informer上降低了47.34%,在Reformer上降低了46.89。尤其是在长期预测上,表现突出。 提出的非平稳transformer持续大幅提升四款主流transformer性能,并在六个真是数据集中达到SOTA。 |
数据 |
实验结论数据: 相对平稳性检验: |
结论 |
本文从平稳性的角度来探讨时间序列预测。 与以往简单地减弱非平稳性导致过平稳化的研究不同,提出了一种有效的方法来提高序列平稳性,并更新内部机制来重新合并非平稳信息,从而同时提高数据的可预测性和模型预测能力。 实验表明,其在六个真实的基准上显示了良好的通用性和性能。并提供了详细的推导和消融,以证明在我们提出的非平稳transformer框架中每个组件的有效性。 |
研究展望 |
在未来将会探索与模型无关的过平稳化问题的解决方案。因为本文只是依托transformer方法的。 Limitation: De-stationary Attention是通过分析self-attention推导出来的,这可能不是高级注意机制的最佳解决方案。projector也有进一步发展的潜力,包括更多的归纳偏置。此外,所提出的框架仅限于基于transformer的模型,而任何深度时间预测模型如果使用不适当的平稳化方法都可能出现过平稳问题。因此,对过平稳问题的模型不可知的解决方法将是我们今后的探索方向。 |
重要性 |
|
想法和问题 |
De-stationary Attention的设计非常巧妙,用理论推出了新的Attention的形式,但推导的两个假设在非线性激活条件下就不成立了。在计算时,里面的关键是去平稳因子,因为这是避免过渡平稳化现象的核心。但是作者并没有展示关于学习到的去平稳因子、Attention Matrix以及它们具体是怎么作用的。不过其他的定量实验还是很充足的。 |
引用参考:
Non-stationary Transformers: Rethinking the Stationarity in Time Series Forecasting - 知乎
本文仅自学使用,有任何问题可评论指出。
Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting论文阅读相关推荐
- Are Transformers Effective for Time Series Forecasting论文全文翻译
Transformers对时间序列预测有效吗? 摘 要 最近,针对长期时间序列预测(LTSF)任务的基于Transformer的解决方案激增.尽管在过去几年中取得了越来越大的成绩,但我们对这项工作中这 ...
- [论文阅读:姿态识别Transformer] POET: End-to-End Trainable Multi-Instance Pose Estimation with Transformers
[论文阅读:姿态识别&Transformer] 2103 POET: End-to-End Trainable Multi-Instance Pose Estimation with Tran ...
- 【论文精读】Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting
[论文精读]Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting 针对未来的一个多步 ...
- [论文阅读:姿态识别Transformer] TFPose: Direct Human Pose Estimation with Transformers
[论文阅读:姿态识别&Transformer] TFPose: Direct Human Pose Estimation with Transformers 文章目录 [论文阅读:姿态识别&a ...
- Taming Transformers for High-Resolution Image Synthesis 论文阅读
Taming Transformers for High-Resolution Image Synthesis 论文阅读 论文地址 2012.09841.pdf (arxiv.org) 摘要 结合CN ...
- 论文阅读-ViTDet:Exploring Plain Vision Transformer Backbones for Object Detection
目录 A.写在前面 B.有个工作我得说说 C.摘要拆分 D.先看看结果 E.代码细节 1.MaskRCNN部分的修改 2.数据增强部分 3.SFP的实现 F.参考文献 A.写在前面 ViTDet[1] ...
- BERT论文阅读(一): Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT三大核心: pre-training bidirectional==>alleviates the unidirectionality constriant of fine-tuning ...
- 论文阅读(1)--Fine-grained Image Classification by Exploring Bipartite-Graph Labels
这是阅读<Fine-grained Image Classification by Exploring Bipartite-Graph Labels>这篇论文所做的笔记. 这篇论文是来自N ...
- [HSI论文阅读] | HybridSN: Exploring 3-D–2-D CNN Feature Hierarchy for Hyperspectral Image Classification
仅整理个人和组里对下文引用的论文(HybridSN)的学习所获,如有错误,感谢指正~ 更新记录 ⭐️ 2021.3.6 -- 关于本文2.2.2节卷积层参数的计算 ⭐️ 2021.3.8 -- Hyb ...
最新文章
- 机器学习泰斗- Michael I.Jordan最新演讲:机器学习前景与挑战
- python读取excel-Python Pandas读取修改excel操作攻略
- 文献记录(part95)--CCMS: A nonlinear clustering method based on crowd movement and selection
- HT68F30控制GPG96244QS1 TFT液晶屏
- python使用json序列化datetime类型问题处理
- C++ 虚函数表解析(转)
- python 匿名函数 day15
- hdoj 1570 A C
- 计算机房的英语怎么读音,机房位置,Host equipment room,音标,读音,翻译,英文例句,英语词典...
- PHP 实现微信公众号网页授权登录
- linux下文件的total是啥,linux中,ls -l命令显示的total的含义。
- 多种汉语方言语音落地应用,微软智能语音解锁更多交互场景
- Office的Ctrl C,Ctrl V使用过多?一起看看python如何处理
- Windows编程笔记小结
- linux安装卸载软件
- java ant配置环境变量
- 《梁启超家书》笔记三——交友取益,或读书取益,也要方面稍多,才有接谈交换,或开卷引进的机会
- proto3字段值为空时被忽略问题
- 对于c++面向对象的深刻认识和理解--哲学角度看问题(源生论)
- iOS15.2 注册相册变化通知未给相册权限导致崩溃 [PHPhotoLibrary.sharedPhotoLibrary registerChangeObserver:self]
热门文章
- Kali Linux在安卓上下木马病毒并控制
- 为MTK andorid系统添加adb reboot factory命令
- C语言课设-药品管理系统(含代码)
- 读《哈佛凌晨4点半》
- seata-server
- VS2003遇到问题,无法打开d3d9.h
- 分享ricequant量化交易接口是如何执行交易功能?
- 自动化测试robotframework框架(一)
- MATLAB实现数控加工中的逐点比较法直线插补(四个象限,动态显示)
- org.apache.avro.file.DataFileWriter$AppendWriteException: org.apache.avro.UnresolvedUnionException: