机器学习中对于时间序列的数据进行train、val、test划分时需要注意的问题是,不要将val中的数据出现在train中,准确的说,是选取的val数据的时间节点不能与train中数据时间节点有任何交集。否则,你会发现训练时,val的loss会与train的loss几乎一样,即失去其作用。因为,对于时间序列预测这种任务,如果你的验证集中与训练集中时间上出现重叠,模型会在训练时记忆你训练集中出现的重叠数据,专业的说法是引入未来数据。例如,告诉你5日到10日的收盘价格,让你预测第11日收盘价(验证阶段);同时,给你11日到16日的收盘价,让你记忆第17日的收盘价(训练阶段)。这11日的价格你记忆过,影响了神经单元权重,自然在验证时无法做到客观。

一般有三种处理方案

1,Train-Test split that respect temporal order of observations.

2,Multiple Train-Test splits that respect temporal order of observations.

3,Walk-Forward Validation where a model may be updated each time step new data is received.

具体训练划分处理方案可以参考以下

参考:

  1. How To Backtest Machine Learning Models for Time Series Forecasting

  2. Time Series Nested Cross-Validation

  3. Cross-validation for time series

  4. 除了预测姨妈周期,时间序列还能干嘛?

  5. 机器学习与时间序列预测

(以上个人理解。试验时反应出的问题,但没有理论验证过,如有错误望指出,谢谢)

机器学习中时间序列数据的训练集、验证集、测试集处理问题相关推荐

  1. 【小白学PyTorch】 2.浅谈训练集验证集和测试集

    文章目录: 经验误差与过拟合 评估方法 经验误差与过拟合 关键词:错误率(error rate),精度(accuracy). 错误率好理解,就是m个样本中,a个样本分类错误,则错误率E = a/m . ...

  2. 训练集 验证集_训练与验证、测试集数据分布不同的情况

    在不同分布的数据集上进行训练与验证.测试 深度学习需要大量的数据,但是有时我们可获得的满足我们真实需求分布的数据并不是那么多,不足以对我们的模型进行训练.这时我们就会收集大量相关的数据加入到训练集中, ...

  3. 【入门篇】如何正确使用机器学习中的训练集、验证集和测试集?

    [注] ·本文为转载文章,原文作者是王树义老师,原文链接为 https://zhuanlan.zhihu.com/p/71961236 训练集.验证集和测试集,林林总总的数据集合类型,到底该怎么选.怎 ...

  4. 机器学习中训练集、验证集和测试集的区别

    通常,在训练有监督的机器学习模型的时候,会将数据划分为训练集.验证集合测试集,划分比例一般为0.6:0.2:0.2.对原始数据进行三个集合的划分,是为了能够选出效果(可以理解为准确率)最好的.泛化能力 ...

  5. 机器学习中训练集、验证集和测试集的作用

    通常,在训练有监督的机器学习模型的时候,会将数据划分为训练集.验证集合测试集,划分比例一般为0.6:0.2:0.2.对原始数据进行三个集合的划分,是为了能够选出效果(可以理解为准确率)最好的.泛化能力 ...

  6. 如何正确使用机器学习中的训练集、验证集和测试集?

    王树义 读完需要 19 分钟 速读仅需7分钟 训练集.验证集和测试集,林林总总的数据集合类型,到底该怎么选.怎么用?看过这篇教程后,你就能游刃有余地处理它们了. 1 问题 审稿的时候,不止一次,我遇到 ...

  7. 机器学习典型步骤以及训练集、验证集和测试集概念

    1. 机器学习典型步骤 数据采集和标记 数据清洗 特征选择 如房子的面积.地理位置.朝向.价格等. 模型选择 有监督还是无监督,问题领域.数据量大小.训练时长.模型准确度等多方面有关. 模型训练和测试 ...

  8. [机器学习] 训练集(train set) 验证集(validation set) 测试集(test set)

    在有监督(supervise)的机器学习中,数据集常被分成2~3个即: 训练集(train set) 验证集(validation set) 测试集(test set) 一般需要将样本分成独立的三部分 ...

  9. 机器学习中的数据不平衡问题----通过随机采样比例大的类别使得训练集中大类的个数与小类相当,或者模型中加入惩罚项...

    机器学习中的数据不平衡问题 摘自:http://wap.sciencenet.cn/blogview.aspx?id=377102 最近碰到一个问题,其中的阳性数据比阴性数据少很多,这样的数据集在进行 ...

  10. 训练集(train set) 验证集(validation set) 测试集(test set)

    在有监督(supervise)的机器学习中,数据集常被分成2~3个,即:训练集(train set) 验证集(validation set) 测试集(test set). http://blog.si ...

最新文章

  1. 线程在Linux中的实现
  2. 打桥位lisp_lisp函数
  3. Eclipse相关快捷键
  4. php调用谷歌翻译接口_一个google翻译的php调用方式
  5. reveal end of document
  6. amd860k能装黑苹果吗_可以黑苹果,性能比同价位的GTX1650强,RX580 2048SP不香吗?...
  7. 大道至简第七第八章读后感
  8. gamit如何添加新的天线类型
  9. nginx学习-负载均衡-keepalived高可用-反向代理
  10. EINT DINT ERTM DRTM理解
  11. 快递鸟 物流跟踪订阅 即时查询快递 预约取件(在线下单)
  12. 免冠证件照如何制作?制作证件照的简单方法
  13. react-navigation 6.x 学习(3)
  14. 蒙特卡洛(Monte Carlo)方法的介绍和应用
  15. JAVA实现CSV文件转JSON。
  16. 飞船撞击到外星人后,返回不了底部中央,只能手动设置参数,明天好好研究一下
  17. B3:Unity制作Moba类游戏——加载地图系统
  18. 双目立体视觉空间坐标精度分析
  19. 数据分析思维之从整体出发分析零售行业——全方位多方面细节分析
  20. 电脑上如何登录两个微信

热门文章

  1. Android 获取屏幕高度、标题高度、状态栏高度详解
  2. U3D特效笔记——砸地特效
  3. 名帖50 王羲之 小楷《乐毅论》
  4. 哪个学校计算机每年招不满,211院校有每年考研招不满的情况吗?
  5. spring在多线程下如何进行事物管理
  6. 使用opencv调取摄像头出现的问题及解决
  7. 2015年大学生网购消费排行榜
  8. 【微信小程序】icon系统图标案例
  9. AXP 202 禁长按关机功能
  10. WinCC笔记:03.趋势图控件 —— (1) 复选框控制趋势显示和隐藏