当我第一次听到这个比赛的时候,其实我是拒绝的。后来我还是默默地报名的参加了,虽然已经不是第一次报名天池组织的大数据竞赛,但是之前都是因为各种各样的原因报了名也没真花时间去做,所以这次狠下心来要大干一场。现在回过来想想还是蛮有意思的,这个过程中学到了很多,尤其是现学现卖的本领。

这个题目本身还是很有意思的,根据提供的历史用户申购赎回数据预测14年9月每天的申购赎回总量。自己之前参加过数学建模竞赛,在这个预测方面有一些基础,但最后发现然并卵。

初赛是在线下进行的,数据量也比较小,因此操作起来不是很麻烦。这个预测从总体上可以分为时间序列预测和回归两个大的方向。我们首先尝试的方法是概率模型,计算出每个用户在一周7天每一天产生申购或者赎回行为的概率,并计算出该用户在这一天申购或赎回的均值。最后需要预测的9月份就用每个用户在当天产生行为的概率乘以均值然后求和,最后测评的成绩是114分。第二天我们分析对这个模型进行了分析,我们用的概率模型存在几个问题。第一,用户的数量每天都在增加,我们的模型中没有考虑;用户每天的申购赎回金额用一个均值来表示误差比较大。我们又对题目进行了剖析,题目需要我们预测9月份每一天申购和赎回的总量,对于预测总量我们觉得对单个用户分析就不合适了,应该也要从总量来处理。然后我们查阅了一些资料,想从时间序列预测入手,时间序列预测比较经典的模型就是ARIMA模型,运用ARIMA模型需要原始序列是平稳的。而对于历史的每天的申购总量序列和赎回总量序列的平稳性也只能大概的判断,利用R语言的forecast包进行了自动ARIMA模型预测,没有其他的任何特征,最后的测评结果比概率模型高了一些。后来通过改进,加入季节性特征,并自己不断尝试p,d,q三个参数的值,因为初赛的测评机会比较多,所以尝试了很多次,选择了一个比较好的参数。如果ARIMA模型不加其他特征,是很难取得突破性的提高。在选取特征方面无从下手后,我们对历史的申购和赎回序列进行了其他的处理,尝试了指数平滑但是效果并不好。后来把这个序列类比成信号,对其利用emd经验模式动态分解,然后对分解后的每个信号进行预测并相加。尝试了无数的方法,但是并没有在某一种方法上进行很深的研究,因此成绩也不是很好。而原始的数据集的影响也是很大的,在换了数据集以后,原先的模型可能根本不适用了,原先的特征在新的数据集中也没有体现出来,因此在模型的鲁棒性上还是需要不断提高。初赛前500名进入复赛,相对来说还是比较容易,最后以156名进入复赛。

复赛实在天池平台——御膳房上操作,这个一开始确实有点棘手,熟悉这个平台花了1、2天的时间,我们团队在这个ODPS平台上主要用的是ODPS_SQL和R脚本。首先还是依葫芦画瓢,实现了论坛上的baseline,这个中间也遇到了不少的问题,主要还是对平台不太了解,一些R脚本在本地可以运行但是放到平台上就各种报错,然后就去找阿里的平台工程师求救。后来渐渐熟悉了这个平台,也用的比较得心应手了,这次我们准备多模型结合来做,因为初赛的经验发现单模型再怎么都很难有很大的提高。也是从时间序列和回归两个方向入手,时间序列还是采用的ARIMA模型,加入了星期的特征。回归采用的是R中的lm——多元线性回归,把申购和赎回看作是星期的函数,星期是一个0-1变量,星期几对应的那个就是1,其他就是0。初次测评的成绩还算不错,但是渐渐大家都开始在baseline上改进,排名就蹭蹭蹭的掉了。考虑到申购中从支付宝余额和从银行卡购买是不一样的,因此我们将申购拆分为了这两个部分,分别用lm进行预测,同样的赎回分为了消费和转出两个部分来计算。由于lm模型中并未加入新的特征,因此提高的很有限。最后就把ARIMA预测的结果和lm预测的结果加权,不断进行调整权值,可能是原先的两个模型计算的结果并不是很好,因此怎么调整提高也不多。在和其他组交流以后,发现我们之前都没有考虑节假日的影响,其实9月有中秋节和国庆前,这些节假日用模型是很难预测。我们组的方法是借鉴历史数据的端午节等节日,假设节日相似,然后进行了一些单点调试。测评结果显示这些节假日确实影响挺大的,碍于方法上没有突破,最后虽然以100名进入part2但是最终的排名是110名。

总结一下,通过这次比赛发现自己对数据的特征提取还是比较差,也就是说对数据的敏锐的嗅觉还不够。相信最后的前几名都是深挖了这些数据中的一些内在特征。同时也是第一次参加天池的大数据比赛,抱着试试看的心态,因为对自己最后的成绩也还算满意,总之收获还是很多的。

天池大数据竞赛——资金流入流出预测赛后感想相关推荐

  1. 天池竞赛-资金流入流出预测总结

    天池竞赛-资金流入流出预测总结 1.竞赛背景 时序问题:根据2013年7月份到2014年8月份的用户数据,预测支付宝每日的资金流入流出情况. 数据集情况 数据集主要包括四个表格:1.用户信息表主要记录 ...

  2. 阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!...

    阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!          天池大数据竞赛是由阿里巴巴集团主办,面向全球新生代力量的高端算法竞赛.通过开放海量数据和"天池& ...

  3. AI比赛-NER:“万创杯”中医药天池大数据竞赛——中药说明书实体识别挑战

    大赛概况 疫情催化下,人工智能正在持续助力中医药传承创新加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作.通过挖掘中药说明书构建中药合理用药的知识图谱,将为中医规范诊疗奠定较好基础.挑战旨在通过抽 ...

  4. 【TIANCHI】天池大数据竞赛(学习赛)--- 淘宝用户购物行为数据可视化分析

    目录 前言 一.数据集的来源和各个字段的意义 二.数据分析 1.引入库 2.读入数据 3.查看数据数量级 4.PV(Page View)/UV访问量 5.漏斗模型 6.用户购买商品的频次分析. 7.A ...

  5. 阿里天池大数据竞赛——口碑商家客流量预测 A2

    阿里天池大赛koubeiyuce1 2017年二月份,天池大数据比赛,口碑商家客流量预测,参赛地址及详情: https://tianchi.shuju.aliyun.com/competition/i ...

  6. 天池大数据竞赛第一名,上海交通大学人工智能实验室如何用AI定位肺结节

    癌症,犹如黑暗中的魔鬼,带给人们恐惧与绝望.而肺癌,在我国作为发病率.死亡率最高的一类癌症,伤害着无数家庭.在我国每年都有近60万人死于肺癌.然而,癌症的死亡率与首次发现癌症的时期紧密相关,早期肺结节 ...

  7. 9个比赛7进top10,阿里天池大数据竞赛思路分享

    向AI转型的程序员都关注了这个号

  8. 阿里天池大数据竞赛第一名,如何用AI检测肺癌

    向AI转型的程序员都关注了这个号

  9. 阿里天池大数据竞赛(一)用ODPS提取特征

    //2015年4月30日 提取特征之所以难,是因为我们写出的sql语句往往只能提取一个特征. 而在ODPS上却不一样,一条语句可以提取很多特征. 如提取最近1.2.3.4天四种行为的数量 重点是dec ...

  10. ​阿里云天池工业AI大赛暨中国“印象盐城,数创未来”大数据竞赛正式启动

    记者 | 张俊潇 官网 | www.datayuan.cn 微信公众号ID | datayuancn 10月11日,"2017杭州·云栖大会"在万众期待中盛大召开,会上马云宣布组建 ...

最新文章

  1. 面经 cisco 2
  2. java Runtime.getRuntime().exec 获取反弹shell
  3. MySQL 架构组成—存储引擎
  4. python 中文字符串截取,Python实现针对含中文字符串的截取功能示例
  5. mybatis反射的核心类
  6. 从数据类型 nvarchar 转换为 numeric 时出错_Python数据分析类库系列Numpy之ndarray的数据类型...
  7. cocos2d-x游戏开发 跑酷(四) 关联与物理世界
  8. Redis站点流量统计HyperLogLog
  9. 16软件1班安卓第二学期学习总结
  10. VMware ESXi版本回退
  11. sublime php错误提示,sublime中检查php语法错误
  12. 如何提升微服务的幸福感 | 凌云时刻
  13. 在Mac上保存网页上的图片
  14. linux shell有哪些变量,Linux Bash Shell有关变量
  15. 计算机辅助设计学哪个软件,高校有必要进行计算机辅助设计软件的教学.pdf
  16. Ubuntu中禁用触摸板
  17. iOS 答题功能实现
  18. 阿里云域名购买与域名解析使用教程
  19. 汽车VIN码识别功能实现资料,轻松实现VIN码识别
  20. 二叉树的度为2的节点和叶子节点的关系

热门文章

  1. 衣米魔兽世界怀旧服:相关网友和测试玩家的提问,王乾亨以及衣米魔兽官方的解释与回答内容精选
  2. 武汉工程大学计算机学院吴云韬,周华兵-武汉工程大学计算机科学与工程学院...
  3. access考试素材_access数据库考试试题及答案.doc
  4. SQL 2008升级SQL 2008 R2完全教程或者10 00 1600升级10 50 1600
  5. 服务器上怎么强制删除文件夹,Windows10系统强制删除文件的方法
  6. 探索Perl的世界(更新到第十七章57集)
  7. Sqlite可视化工具sqliteman安装
  8. 2019中兴捧月·总决赛心得
  9. 数据可视化技术:python数据可视化工具库汇总(共21个)
  10. 绿色奖学金申请答辩PPT模板