【数据竞赛】学特征工程就看这篇,解析IJCAI18亚军方案之特征工程
1 搜索竞赛特征工程总结
很多搜索推荐的工业界大模型的特征工程核心可以分为用户侧,商品侧还有一些其他侧(一些i2i,u2i等的上游特征)三大类。
本篇文章,不考虑所有时间等因素,直接调研和搜索相关的竞赛,并对其特征和模型训练技巧进行总结。
如果是count特征,我们的[XXX]就直接省略
2 单阶特征
2.1 User侧特征
2.1.1 User单阶特征:groupby(user)[XXX]
user + [time]: 相邻时间戳的最小/最大/均值/中位数(min/max/mean/median(time_diff)), 当前时间与最早一次/最近上一次时间的差值, 与最后一次/最近下一次时间的差值;
反映用户的活动频繁度
user + [query/item/...]:搜索不同query的次数,商品数,... nunique(query/item/shop/brand/city)
反映用户的兴趣是否宽泛
user + [istrade]: 用户连续未购买商品数,用户连续未购买次数; 用户购买的item数和未购买的商品/商店数,以及二者的比例.
用户的近期购买兴趣,仅仅是为了看商品,还是希望买商品
2.2 Item侧特征
2.2.1 Item/shop/brand...单阶特征:groupby(item)[XXX]
item/shop/brand + [buy]: 商品过去每天的曝光次数(count),被购买次数(buysum)
item/shop/brand + [time & buy]: 商品过去一段时间购买的趋势特征(后一天与前一天的购买比例/曝光比例);
item/shop/brand + [time & buy]: 商品第一次被购买的时间与商品第一次曝光的时间差;
item/shop/brand + [time & price/score...]: item近期商品属性的变化,例如price/星级/好评等.(mean,std,val-mean)
2.2.2 Item的内部组合特征
Item在shop/city/country/brand/query下的点击率/购买率排名;
shop在brand/city/country/query下的点击率/购买率排名;
brand在city/query下的点击率/购买率排名;
cate在city下的点击率/购买率排名;
3 组合特征
3.1 User+Query特征(二阶/高阶):groupby(user+query+other)[XXX]
同一个user在Query侧的特征(滑窗)
user + query, (之前/之后)有几次相同的值(count/ratio),(之前/之后)有几次不相同的值(count/ratio)
此处的ratio为count再除以user+query的前后的count
user + query + item/shop/brand/city/context_page_id特征, (之前/之后)有几次相同的值(count/ratio)
user + query + item_category_list特征, (之前/之后)有几次相同的值(count/ratio)
user + query + [time]: 相同query最小/最大时间(min(time))
user + query + [item/shop]: 在该query之前/之后用户访问的item/shop数目
3.2 User + Item特征(二阶/高阶):groupby(user+item+other)[XXX]
user + item + [predict_category_property/query/...],(之前/之后)有几次不同的值(nunqiue)
user + shop + [predict_category_property/query/...],(之前/之后)有几次不同的值(nunqiue)
user + brand + [predict_category_property/query/...],(之前/之后)有几次不同的值(nunqiue)
user + city + [predict_category_property/query/...],(之前/之后)有几次不同的值(nunqiue)
user + item/: 用户在之前之后点击了多少价格更低的商品,销量更高的商品,评价数更多的店铺,好评率高的店铺,星级高的店铺,服务态度高的店铺,物流好的店铺,描述评分高的店铺
4 特征重要性
5 小结
从特征重要性看,除去一些基础特征和穿越特征(例如next diff等),Query相关的特征占比非常大;而且从答辩PPT看来,Query相关的特征也是帮助最大的一波,而这在大模型模块是可以重点参考的;
第二部分是rank相关的特征(某个item在某个品牌下的销量排名等),该部分特征是方案中提升很大的另一部分;
6 参考文献
IJCAI-18亚军分享:https://tianchi.aliyun.com/forum/postDetail?postId=5311
IJCAI-18亚军特征重要性:https://github.com/YouChouNoBB/ijcai-18-top2-single-mole-solution/blob/master/file/fea_importance.csv
答辩PPT:https://tianchi.aliyun.com/forum/postDetail?spm=5176.12586969.1002.9.6d0a48c58rjez0&postId=5311
往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑获取一折本站知识星球优惠券,复制链接直接打开:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群请扫码进群:
【数据竞赛】学特征工程就看这篇,解析IJCAI18亚军方案之特征工程相关推荐
- 【数据竞赛】2020首届海洋目标智能感知国际挑战赛冠军方案分享
作者:欧奕旻.左育莘.杨锐 赛事回顾 2020年12月22日由中国造船工程学会等单位主办,哈尔滨工程大学承办,武汉理工大学协办的首届"海洋目标智能感知国际挑战赛"落下帷幕.秉承 & ...
- 【数据竞赛】消费金融场景下的用户购买预测冠军方案分享
大赛介绍 2000多年前,阿基米德说:"给我一个支点,我可以撬动整个地球".伴随近年来新技术的快速涌现和迅猛发展,大数据或将成为传统金融行业向金融科技转型的"阿基米德支点 ...
- 2022年第三届MathorCup 大数据竞赛 赛道B 北京移动用户体验影响因素研究 完整建模方案及代码实现详解
北京移动用户体验影响因素研究 移动通信技术飞速发展,给人们带来了极大便利,人们也越来越离不开移动通信技术带来的各种便捷.随着网络不断的建设,网络覆盖越来越完善.各个移动运营商,越来越重视客户的网络使用 ...
- 想学IT的必看!深度解析跳槽从开始到结束完整流程万字长文!
前言 说起Spring中循环依赖的解决办法,相信很多园友们都或多或少的知道一些,但当真的要详细说明的时候,可能又没法一下将它讲清楚.本文就试着尽自己所能,对此做出一个较详细的解读.另,需注意一点,下文 ...
- 学CSS选择器,看这篇文章就够了(近2万字详解)
- 《数据竞赛白皮书·下篇》发布,开源办好一场数据竞赛的实践方法论
两周前,我们发布了<数据竞赛白皮书·上篇·1000场竞赛的深度分析>,通过28000字的研究分析.54个高品质图表,讲透了数据竞赛行业发展,带领大家看懂了竞赛高热度背后的逻辑. 上篇发布后 ...
- 【数据竞赛】Kaggle实战之特征工程篇-20大文本特征(下)
作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--文本特征下半篇! 前 言 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...
- 【数据竞赛】可能是全网特征工程实操最通透的...
之前在我写的特征工程方法论里面提了一嘴,用automl搜索+人工启启发式可以高效稳定地完成特征工程,并取得不错的效果. 原文:可能是全网写特征工程最通透的... 不过这篇文章最大的问题是太过于侧重于是 ...
- 【数据竞赛】Kaggle实战之特征工程篇-20大文本特征(上)
作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--文本特征上半篇! 前 言 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...
最新文章
- java6特性_Java6的新特性
- iphone11看信号强度_iPhone11信号怎么样_iPhone11信号差原因|解决办法-太平洋IT百科...
- poj 2777Count Color
- Python Django 多对多表设计
- 四则运算---Java、C语言 写法
- Python sys.stdout sys.stdin
- 为什么设置行高文字就能居中
- 最有价值的编程忠告[转CSDN]
- iOS “[App] if we're in the real pre-commit handler we can't actually add any new fences due
- 【项目实战1】封装虚拟机(封装母盘,建立子虚拟机)
- 程序猿生存指南-41 冬日归乡
- 数字IC所用软件及IP分类
- 三年前找工作的我,希望给正在求职的你一些启发
- MySQL运维(二)MySQL分库分表概念及实战、读取分离详解
- JavaScript常用技巧:stroage封装
- 杜邦分析模型 java_如何用java报表工具Style Report 制作财务分析杜邦分析
- 法国电信公司裁员,导致19名员工自杀身亡,12人自杀未遂!
- 编写一个程序,此程序在运行时要求用户输入一个	整数,代表某门课的考试成绩,程序接着给出“不及格”、“及格”、“中”、“良”、“优”的结论。...
- 运维实践 | 使用K3S之快速搭建精简版本K8S集群环境,助力开发测试环境!
- 极2路由器刷Padavan(老毛子)固件并设置无线中继