一 情景
给定一批原始训练数据,这些数据有各个用户(user_id)多条历史记录。根据这些原始训练数据预测当中的部分或全部的用户(user_id)的可能行为。例如识别羊毛党项目:http://www.dcjingsai.com/common/cmpt/2018年甜橙金融杯大数据建模大赛_赛体与数据.html

二 类似问题的特征工程技巧总结
单特征处理(统计单特征)
1 对于离散特征单特征处理时,引出”广义特征”概念
例如:交易类型这个离散特征,交易类型有"01",“02”,“03"三种,某一UID在历史数据集中"01"有16次,“02"有0次,“03"有45次,那么这个UID的"广义交易类型"就为"160045”(可对交易次数分段再编码以减少类型)。
还有count,nunque,max_val(比如出现次数最多的值),min_val
2 对于连续值特征单特征处理时,某个UID的对应特征可通过统计这个UID这个特征历史数据的sum,mean,max,min,media,nunique,count等来代表这个单特征。
组合特征处理
一般情况是UID与某一离散特征以及另外一个连续特征的组合。
例如:card_id、city_id与purchase_amount的组合,其中card_id是被描述对象。组合不同卡在不同城市的购买情况特征。
t = df.groupby([“card_id”, “city_id”])[“purchase_amount”].mean()
u=pd.DataFrame(t).reset_index().groupby(“card_id”)[“purchase_amount”].agg([“mean”, “min”, “max”])
u.columns = [“city_id”+“purchase_amount”+”_”+ col for col in u.columns.values]
u = u.reset_index()
其他特征处理,比如时间特征等根据实际数据。

类似用户画像预测的特征工程技巧总结相关推荐

  1. 【算法竞赛学习】二手车交易价格预测-Task3特征工程

    二手车交易价格预测-Task3 特征工程 三. 特征工程目标 Tip:此部分为零基础入门数据挖掘的 Task3 特征工程部分,带你来了解各种特征工程以及分析方法,欢迎大家后续多多交流. 赛题:零基础入 ...

  2. 二手车价格预测task03:特征工程

    二手车价格预测task03:特征工程 1.学习了operator模块operator.itemgetter()函数 2.学习了箱线图 3.了解了特征工程的方法 (内容介绍) 4.敲代码学习,加注解 以 ...

  3. 推荐算法 | 预测算法 | 特征工程

    推荐算法有哪些? - 知乎 一.  推荐算法  非个性化推荐  "如果你不知道该推荐什么,那么推荐大家都喜欢的准没错". 基于热门榜单或者最多使用等方式进行的推荐颗粒度较为粗,执行 ...

  4. 【直播】王茂霖:二手车交易价格预测-千变万化特征工程(河北高校数据挖掘邀请赛)

    二手车交易价格预测-千变万化特征工程 目前 河北高校数据挖掘邀请赛 正在如火如荼的进行中.为了大家更好的参赛,王茂霖分享了 从0梳理1场数据挖掘赛事!,完整梳理了从环境准备.数据读取.数据分析.特征工 ...

  5. 天猫用户重复购买预测之特征工程

    特征工程 处理数据 # 全量信息处理,合并数据 all_data = train_data.append(test_data) all_data = all_data.merge(user_info, ...

  6. 【推荐系统】特征工程技巧(kaggle比赛技巧、tx的做法)

    内容总结 前面6点均是常见的特征工程基础知识,第7点时kaggle比赛中常用特征交叉.特征筛选等技巧,第8点从特征提取(数值型.类别型.embedding特征).特征选择(过滤式.封装式.嵌入式).特 ...

  7. 【数据挖掘】心跳信号分类预测 之 特征工程 —— 学习笔记(三)

    目录 三.特征工程 3.1 特征工程概述 3.2 学习目标 3.3 内容介绍 3.4 代码与理论学习 3.4.1 安装.导入依赖并读取数据 3.4.2 数据预处理 3.4.3 使用 tsfresh 进 ...

  8. 二手车交易价格预测:特征工程

    前言 文章数据基于天池零基础入门数据挖掘 - 二手车交易价格预测的比赛:https://tianchi.aliyun.com/competition/entrance/231784/informati ...

  9. 二手车交易价格预测——Task3特征工程

    二手车交易价格预测--特征工程 一.目标 二.异常值处理 (一)删除异常值 三.特征构造 (一)构造时间特征 (二)构造地区特征 四.数据清洗 (一)数据分桶 (二)删除冗余数据 (三)处理数据集中的 ...

最新文章

  1. 最新!百度首发 OCR 自训练平台 EasyDL OCR
  2. SAP RETAIL 根据Merchandise Category Hierarchy Level查询物料清单
  3. 这场景像不像你修Bug的样子?
  4. Spring注解标签详解@Autowired @Qualifier等
  5. Qt C++属性类型提供给 QML调用(二)
  6. android 多态如何组件化,Android组件化之子模块之间通信方案
  7. SQL2008R2 收缩数据库问题 - 日志文件不变小
  8. matlab实验报告的总结,matlab实验报告
  9. Java NIO和IO的区别
  10. 公开课可下载资源汇总
  11. 当powergui fft 中empty
  12. 联通速品简易测试报告
  13. 微信小程序--一--文件夹及内容解析
  14. kubeadm快速部署一套K8S集群
  15. dotween 的学习1.DoTween.To()的了解
  16. 字节跳动 面试 复盘 回顾 2021 过客局
  17. Go语言如何捕获fatal致命错误并输出到日志
  18. 基于Matlab的压力控制论文,基于Matlab \ Simulink的气体辅助注射压力控制系统的建模与仿真...
  19. 百度分享到qq空间失败
  20. RPA:提高日本公司生产性的特效药

热门文章

  1. 广告宣传册印刷应如何吸引人们的注意
  2. 《盗梦空间》全解析_daomengkongjian_腾讯middot;大楚网
  3. CPU关键技术演进路线
  4. TP5 框架 防止 sql注入 + xss攻击 + session盗窃
  5. Base64编码/解码
  6. 2023上海化妆品原料展览会
  7. synology服务器如何建文件夹,Synology Assistant如何创建共享文件夹?新建共享文件夹流程介绍...
  8. 杨过小龙女玉女心经篇--简单工厂模式
  9. 拼多多批量采集 互联网大数据获取API
  10. 【lammps案例教学+ReaxFF力场开发应用】