赛题地址:http://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.VZW16k&raceId=3

登录即可下载数据

题目一句话:根据13年7月到14年8月的申购赎回数据预测14年9月每一天的申购赎回数据。

算法问题:此题可以使用线性回归和时间序列预测,只要特征好效果都还可以。我们使用的是R下面的随机森林+LM  ,决赛只有4次提交机会,第一次我们26名,后面每天都降,这些火箭简直太可怕了,最后天我们运气好稳定在了47名。后来问过那些火箭才知道他们使用的是STL时间序列预测,因为这个方法预测的值偏大,刚好答案也是偏大。所以会出现大量火箭。

预处理问题:题目给出的是每天用户的操作数据,我们需要按日期汇总为申购赎回数据,因为提交结果也是按天的

汇总下来好像是427条,观察之后可以发现13年到14年前期都不太稳定,所以我们可以取稳定后的数据,3-8或者4-8月都可以。

另外既然取了3-8月的数据,就代表没有去年国庆前期的数据了,这个问题比较大,因为需要预测14年9月的,9月末的数据跟13年9月的数据趋势有相关性。但是13年9月的数据变化比较剧烈,由于比赛不准单点,没法自己去插入14年9月30号这天的数据,怎么办呢?我们前期测了下20140930的值,和9月29的值比例大概是11:9-11:8的样子。所以我们手动在训练集中插入了一调20130930的申购赎回数据来拟合14年预测结果。不知道这样还算不算调单点?

特征问题:官方给出的baseline是使用了星期的7个特征使用LM建模。我们分析过数据后发现跟星期并没强烈相关性,反而更上班休假有强烈相关性(第一赛季其实是跟股票有强烈相关,第二赛季数据量大倒没多大影响了)

所以我们设计了如下特征:

--一周正常第1/5天上班, 周末第1/2天,休假第1/3天,休假前/后正常上班的一天
--上班前一天休假,工作日,休假,月初月中月末(10天周期),每月第一天
--上一个波峰/波谷是几天前
--上班最后天后要放几天假(2-3,7 3个01特征)
--上班第一天前放了几天假(2-3 2个01特征)
--两天的假,三天的假
--周日补班
-- 股票波浪理论,135浪

另外所有特征均为01特征,为什么这样做大家可以自行思考下。

其中19个特征在part1的时候纯lm可以达到203分

所有特征在PART2的时候lm+RF可以达到201分

【天池竞赛系列】资金流入流出预测思路相关推荐

  1. 天池比赛:资金流入流出预测

    赛题解读 赛题介绍:https://tianchi.aliyun.com/competition/entrance/231573/introduction 数据集介绍及下载:https://tianc ...

  2. Datawhale~数据挖掘实践之序列问题处理~天池·资金流入流出预测-挑战Baseline~Day01~数据探索与分析

    写在前面✍ 本系列笔记基于天池平台上"资金流入流出预测-挑战Baseline"学习赛,记录如何完整的打一次数据挖掘类比赛.同时,该比赛属于序列建模问题,希望学习完成这个任务,可以对 ...

  3. 天池竞赛-资金流入流出预测总结

    天池竞赛-资金流入流出预测总结 1.竞赛背景 时序问题:根据2013年7月份到2014年8月份的用户数据,预测支付宝每日的资金流入流出情况. 数据集情况 数据集主要包括四个表格:1.用户信息表主要记录 ...

  4. 【算法竞赛学习】资金流入流出预测-挑战Baseline_建模预测

    赛题简介 蚂蚁金服拥有上亿会员并且业务场景中每天都涉及大量的资金流入和流出,面对如此庞大的用户群,资金管理压力会非常大.在既保证资金流动性风险最小,又满足日常业务运转的情况下,精准地预测资金的流入流出 ...

  5. 【算法竞赛学习】资金流入流出预测-挑战Baseline_特征工程

    赛题简介 蚂蚁金服拥有上亿会员并且业务场景中每天都涉及大量的资金流入和流出,面对如此庞大的用户群,资金管理压力会非常大.在既保证资金流动性风险最小,又满足日常业务运转的情况下,精准地预测资金的流入流出 ...

  6. 【算法竞赛学习】资金流入流出预测-挑战Baseline_时间序列规则

    赛题简介 蚂蚁金服拥有上亿会员并且业务场景中每天都涉及大量的资金流入和流出,面对如此庞大的用户群,资金管理压力会非常大.在既保证资金流动性风险最小,又满足日常业务运转的情况下,精准地预测资金的流入流出 ...

  7. 【算法竞赛学习】资金流入流出预测-挑战Baseline_数据探索与分析1

    赛题简介 蚂蚁金服拥有上亿会员并且业务场景中每天都涉及大量的资金流入和流出,面对如此庞大的用户群,资金管理压力会非常大.在既保证资金流动性风险最小,又满足日常业务运转的情况下,精准地预测资金的流入流出 ...

  8. 资金流入流出预测(上)(阿里云天池大赛)

    文章目录 前言 比赛介绍 采用不同的模型预测以及结果分数 prophet模型 1数据加载 2数据探索与预处理 2.1数据特征探索 2.2按照时间聚合目标值total_purchase_amt和tota ...

  9. [天池竞赛系列] 历届天池竞赛答辩PPT和视频

    1.阿里移动推荐算法: 答辩视频:https://space.dingtalk.com/c/gQHOEnXdXw 2.资金流入流出预测: 答辩视频:https://space.dingtalk.com ...

最新文章

  1. Effective C++ Item 30 inline里里外外
  2. php 输入汉字自动带出拼音和英文
  3. python3基础知识一
  4. 备战蓝桥杯—枚举——[USACO Nov08]成交
  5. django进阶02websocket
  6. 高质量程序设计指南c++/c语言(14)--函数指针
  7. python发送电子邮件
  8. jq 改数组的k值_在JSON jq中修改键值数组
  9. java实现:判断是否是素数
  10. 图森冲刺全球无人驾驶第一股!创办5年融资40亿,新浪是大股东
  11. win10系统无打印机服务器,win10打印机后台程序服务没有运行该如何解决?
  12. 高级驾驶辅助系统各子系统一览
  13. PADS打开.asc文件
  14. Debian系统源码安装usb网卡驱动
  15. 数字图像处理与Python实现-图像信号处理-图像坏点修复
  16. 如何获取微软官方原版Windows 10 ISO镜像文件
  17. 大学html5毕业设计任务书,2021届本科生毕业设计(论文)工作的通知
  18. 记录repast4py的前两个example——rndWalker和Rumer Agent
  19. 概率密度函数及其在信号方面的简单理解(中)频谱密度函数
  20. 谈出自己在网优谷培训前端亲身经历,以及给想去IT培训的人一些建议

热门文章

  1. Android 音频录制 的三种方式
  2. 阀门定位器应根据哪些方面进行选型
  3. 计算机电源 方案,PC电源功率如何确定? 电源选择的终极方案来了~
  4. 123457123457#0#----com.ppGame.YinYu45--前拼后广--儿童yinyu-pp
  5. vue-cli目录结构
  6. 第一次安装win10+ubuntu双系统的经验及踩过的坑
  7. 查看oracle数据库服务器配置,数据库服务器配置Oracle数据库的配置方案完全分析...
  8. 贪吃蛇游戏实践(附源码),链表的应用!
  9. Unity协程那些事儿
  10. Shell中字符串拼接方法