机器学习中时间序列数据的训练集、验证集、测试集处理问题
机器学习中对于时间序列的数据进行train、val、test划分时需要注意的问题是,不要将val中的数据出现在train中,准确的说,是选取的val数据的时间节点不能与train中数据时间节点有任何交集。否则,你会发现训练时,val的loss会与train的loss几乎一样,即失去其作用。因为,对于时间序列预测这种任务,如果你的验证集中与训练集中时间上出现重叠,模型会在训练时记忆你训练集中出现的重叠数据,专业的说法是引入未来数据。例如,告诉你5日到10日的收盘价格,让你预测第11日收盘价(验证阶段);同时,给你11日到16日的收盘价,让你记忆第17日的收盘价(训练阶段)。这11日的价格你记忆过,影响了神经单元权重,自然在验证时无法做到客观。
一般有三种处理方案
1,Train-Test split that respect temporal order of observations.
2,Multiple Train-Test splits that respect temporal order of observations.
3,Walk-Forward Validation where a model may be updated each time step new data is received.
具体训练划分处理方案可以参考以下
参考:
How To Backtest Machine Learning Models for Time Series Forecasting
Time Series Nested Cross-Validation
Cross-validation for time series
除了预测姨妈周期,时间序列还能干嘛?
机器学习与时间序列预测
(以上个人理解。试验时反应出的问题,但没有理论验证过,如有错误望指出,谢谢)
机器学习中时间序列数据的训练集、验证集、测试集处理问题相关推荐
- 【小白学PyTorch】 2.浅谈训练集验证集和测试集
文章目录: 经验误差与过拟合 评估方法 经验误差与过拟合 关键词:错误率(error rate),精度(accuracy). 错误率好理解,就是m个样本中,a个样本分类错误,则错误率E = a/m . ...
- 训练集 验证集_训练与验证、测试集数据分布不同的情况
在不同分布的数据集上进行训练与验证.测试 深度学习需要大量的数据,但是有时我们可获得的满足我们真实需求分布的数据并不是那么多,不足以对我们的模型进行训练.这时我们就会收集大量相关的数据加入到训练集中, ...
- 【入门篇】如何正确使用机器学习中的训练集、验证集和测试集?
[注] ·本文为转载文章,原文作者是王树义老师,原文链接为 https://zhuanlan.zhihu.com/p/71961236 训练集.验证集和测试集,林林总总的数据集合类型,到底该怎么选.怎 ...
- 机器学习中训练集、验证集和测试集的区别
通常,在训练有监督的机器学习模型的时候,会将数据划分为训练集.验证集合测试集,划分比例一般为0.6:0.2:0.2.对原始数据进行三个集合的划分,是为了能够选出效果(可以理解为准确率)最好的.泛化能力 ...
- 机器学习中训练集、验证集和测试集的作用
通常,在训练有监督的机器学习模型的时候,会将数据划分为训练集.验证集合测试集,划分比例一般为0.6:0.2:0.2.对原始数据进行三个集合的划分,是为了能够选出效果(可以理解为准确率)最好的.泛化能力 ...
- 如何正确使用机器学习中的训练集、验证集和测试集?
王树义 读完需要 19 分钟 速读仅需7分钟 训练集.验证集和测试集,林林总总的数据集合类型,到底该怎么选.怎么用?看过这篇教程后,你就能游刃有余地处理它们了. 1 问题 审稿的时候,不止一次,我遇到 ...
- 机器学习典型步骤以及训练集、验证集和测试集概念
1. 机器学习典型步骤 数据采集和标记 数据清洗 特征选择 如房子的面积.地理位置.朝向.价格等. 模型选择 有监督还是无监督,问题领域.数据量大小.训练时长.模型准确度等多方面有关. 模型训练和测试 ...
- [机器学习] 训练集(train set) 验证集(validation set) 测试集(test set)
在有监督(supervise)的机器学习中,数据集常被分成2~3个即: 训练集(train set) 验证集(validation set) 测试集(test set) 一般需要将样本分成独立的三部分 ...
- 机器学习中的数据不平衡问题----通过随机采样比例大的类别使得训练集中大类的个数与小类相当,或者模型中加入惩罚项...
机器学习中的数据不平衡问题 摘自:http://wap.sciencenet.cn/blogview.aspx?id=377102 最近碰到一个问题,其中的阳性数据比阴性数据少很多,这样的数据集在进行 ...
- 训练集(train set) 验证集(validation set) 测试集(test set)
在有监督(supervise)的机器学习中,数据集常被分成2~3个,即:训练集(train set) 验证集(validation set) 测试集(test set). http://blog.si ...
最新文章
- 线程在Linux中的实现
- 打桥位lisp_lisp函数
- Eclipse相关快捷键
- php调用谷歌翻译接口_一个google翻译的php调用方式
- reveal end of document
- amd860k能装黑苹果吗_可以黑苹果,性能比同价位的GTX1650强,RX580 2048SP不香吗?...
- 大道至简第七第八章读后感
- gamit如何添加新的天线类型
- nginx学习-负载均衡-keepalived高可用-反向代理
- EINT DINT ERTM DRTM理解
- 快递鸟 物流跟踪订阅 即时查询快递 预约取件(在线下单)
- 免冠证件照如何制作?制作证件照的简单方法
- react-navigation 6.x 学习(3)
- 蒙特卡洛(Monte Carlo)方法的介绍和应用
- JAVA实现CSV文件转JSON。
- 飞船撞击到外星人后,返回不了底部中央,只能手动设置参数,明天好好研究一下
- B3:Unity制作Moba类游戏——加载地图系统
- 双目立体视觉空间坐标精度分析
- 数据分析思维之从整体出发分析零售行业——全方位多方面细节分析
- 电脑上如何登录两个微信