转载的博主blog链接在此
wepon第一名代码

workflow

数据探索 EDA

  • 熟悉数据的分布、特点等等,为数据预处理和特征工程做基础。

数据预处理

  • 不属于同一量纲
  • 信息冗余
  • 定性特征不能直接使用
  • 将定性特征转换为定量特征
  • 存在缺失值
  • 信息利用率低

特征工程: 主要是来自wepe的特征
特征主要分为这几类:

  • 用户线下相关的特征
  • 用户线上相关的特征
  • 商家相关的特征
  • 用户-商家交互特征
  • 优惠券相关的特征
  • 其它特征

这里对于特征的选择,我大量参考了别人的代码和第一届比赛后的开源代码。首先搜集到尽可能足够多的特征,然后再去判断特征是否有用,考虑是否删除还是其他操作。

  • 特征选择时候可以考虑使用过拟合训练的方法,使用100%数据集训练,使用100%数据集测试,观察auc
  1. 当auc距离1越远的时候,说明你的特征不足够多,再去探索寻找更多的特征,直到这里的auc接近1
  2. 然后,过拟合训练完成后,输出特征重要性。删除一些特征重要性低的特征,不断过拟合训练,保持auc基本不变。
  3. 最后你得到的是尽可能少的特征数量,但又能足够表示这批数据的特性。

模型选择: 尝试尽可能多的回归和分类模型

  • wepe当时只使用了三个模型,这里你可以尝试更多的模型,比他做的更好。
  • 尝试所有分类回归的模型,只要这些模型的表现还可以,就尽可能的单模型调到最优。
    (使用CV本地验证即可,一般来说本地CV和线上LB是基本一致的)
  • 我当时只是使用了8个模型,然后直接blending,加权融合(我首先单个模型依次提交,给auc高的模型打高的权重,但这其实是很容易过拟合的)
  • 训练多个基模型完成后,使用stacking或者bagging进行模型融合

建议 or 上分指南

  • 特征一定要保证合适
  • 训练足够多的基模型,使用stacking
    第一层使用基模型训练出多个预测的auc
    第二层使用逻辑回归(或者其他模型)来拟合第一层的输出作为这一层的输入,然后输出最终的auc

tips:集成学习
常见的 Ensemble 方法:
Bagging
Boosting
Blending
Stacking
从理论上讲,Ensemble 要成功,有两个要素:
Base Model 之间的相关性要尽可能的小
Base Model 之间的性能表现不能差距太大

生活大实惠:O2O优惠券使用预测相关推荐

  1. 天池 O2O 优惠券使用预测思路解析与代码实战

    个人网站:redstonewill.com 前阵子因为机器学习训练营的任务安排,需要打一场 AI 比赛.然后就了解到最近热度很高且非常适合新人入门的一场比赛:天池新人实战赛o2o优惠券使用预测.今天, ...

  2. O2O优惠券使用预测项目总结

    O2O优惠券使用预测笔记 前言 项目介绍 数据 评价方式 赛题分析 基本思路 数据集划分 特征工程 模型选取 过程及代码 导入python库 导入与划分数据集 特征工程 模型训练与调参 预测测试集 总 ...

  3. 【机器学习】天池O2O优惠券使用预测_系统性总结与心得

    Preface:上半年参加天池的O2O优惠券预测赛排名第二,同时参加了学校数据仓库老师的课程改革建设团队,于是把参赛经验总结成文,准备分享给该课程的学弟学妹.现在我把总结的参赛教程文章也发到CSDN上 ...

  4. 天池比赛:o2o优惠券使用预测

    一.比赛背景 O2O:全称Online To Offline,线上线下电子商务,是把线上的消费者带到现实的商店中去:在线支付线下商品.服务,再到线下去享受服务.通过打折(例如团购).提供信息.服务(例 ...

  5. 天池o2o优惠券使用预测(入门)

    一.前言 近期学习了一下天池中o2o优惠券使用预测的学习赛,主要任务是通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券.这次的参与主要是学习为主,牛刀小试. 二.解决方案 数据分析:对于给定 ...

  6. Sklearn:天池新人实战赛o2o优惠券使用预测 part1

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 阿里云官网:天池新人实战赛o2o优惠券使用预测 数据集下载链接 ...

  7. Sklearn:天池新人实战赛o2o优惠券使用预测 part2

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 阿里云官网:天池新人实战赛o2o优惠券使用预测 数据集下载链接 ...

  8. W12 - 999、O2O优惠券使用预测

    初学耗时:999h 注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端. 『   因为要去见那个不一般的人,所以我就不能是一般人.』  W99.阿里大学征服路 - W系列总纲   ...

  9. 天池O2O优惠券使用预测

    参考文献: 题目简介: https://tianchi.aliyun.com/getStart/information.htm?raceId=231593 https://blog.csdn.net/ ...

  10. 『 天池竞赛』O2O优惠券使用预测思路总结

    目录 数据与评价方式 解决方案 数据划分 特征工程 算法及模型融合 模型融合 应用 线下评估 回顾 赛题地址:https://tianchi.shuju.aliyun.com/competition/ ...

最新文章

  1. linux shell head tail 用法简介
  2. Servlet的认识
  3. 摔跤视频软件测试,Apple Watch 4摔倒检测立功:成功救人一命,网友:马上入手!...
  4. 计划得一步一步实施,题库首先是第一步!
  5. java编写一个移动物体_java编写一个可以上下移动的小球:运行后,可以通过上下左右键进行移动...
  6. js让显示层居中且有遮挡层(IE,火狐,Chrome均可)
  7. mysql 8 配置参数优化_MySQL性能优化之参数配置
  8. MarkDown安装后不能预览问题(awesomium_sdk的下载)
  9. eversync safari_印象笔记 Evernote 同步插件 for WordPress
  10. python数据结构题目_python数据结构_递归python数据结构_python数据结构 面试题 - 云+社区 - 腾讯云...
  11. 红色警戒2修改器原理百科(七)
  12. Android专业获取设备信息如:AndroidID、唯一设备ID、制造商、型号、版本号、版本码等
  13. linux生成license,License生成秘钥
  14. kaggle篇章二,新手入门泰坦尼克号的幸存者预测实验的超详细全过程记录
  15. 以简洁且简单的方式安装Kali虚拟机(VirtualBox),以及安装后的简单配置
  16. 手机号码归属地查询 - 一刀工具
  17. 计算机等考试三级-网络技术考点总结
  18. windowsXP用户无法远程桌面连接天翼云2008云主机
  19. 闲谈fail-fast机制
  20. LoRa技术特点和芯片总结

热门文章

  1. Java 学习一篇文章就够了 (珍藏版)
  2. mac 去掉文本文单词下的红线
  3. 3GPP 5G协议规范说明
  4. MySQL(三)-数据类型
  5. 自定义数据类型——结构体
  6. linux设置开机自动启动网卡驱动,redhat 上网 网卡配置 驱动安装
  7. 喝啤酒喝出的数学问题
  8. 模电——比较器与放大器的联系与区别
  9. 华为2020届勇敢星面试经历--研发岗
  10. 求最长数字串(华为勇敢星笔试第一题)