ML之FE:数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题

目录

特征工程之高维组合特征的处理思路

1、原始数据:语⾔言和类型两种离散特征

2、为了提高拟合能力,语言和类型可以组成二阶特征

3、以逻辑回归算法为例例

4、所有的特征,才开始看起来没有任何问题

问题出现

问题解决


特征工程之高维组合特征的处理思路

1、原始数据:语⾔言和类型两种离散特征

2、为了提高拟合能力,语言和类型可以组成二阶特征

3、以逻辑回归算法为例例

<x_i,x_j>表示x_i和x_j的组合特征,w_ij的维度等于 |x_i|*|x_j| = 2*2 = 4

4、所有的特征,才开始看起来没有任何问题

但当引入ID类型的特征时,就会出现大规模数据。

(1)、⽤用户ID和物品ID对点击的影响

(2)、用户ID和物品ID的组合特征对点击的影响

问题出现

若用户的数量=m,物品的数量为n,那么学习的参数的规模mxn。但是可是,在互联⽹网环境下,数量
都可以达到千万量级,几乎无法学习这么大规模的参数。

问题解决

有效的方法就是将用户和物品分别用k维的低维向量表示(k<<m, k<<n),其中$x_i^’$ 和 $x_j^’$分别表示
x_i和x_j对应的低维向量。


需要学习的参数的规模变成m*k+n*k (实质上就是等价于矩阵分解)。

ML之FE:数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题相关推荐

  1. ML之FE:数据处理—特征工程的简介、使用方法、案例应用之详细攻略

    ML之FE:数据处理-特征工程的简介.使用方法.案例应用之详细攻略 目录 特征工程的引入 特征工程的简介 特征工程的思路 特征工程的关键步骤

  2. 特征工程(1)特征工程的简介

    特征工程入门与实践笔记 特征工程是什么 将数据转换为能更好的表示潜在问题的特征,从而提高机器学习性能 特征工程内容 转换数据的过程 特征工程适用于任何阶段的数据,通常将数据处理成表格形式,数据组织成行 ...

  3. [特征工程系列一] 论特征的重要性

    满打满算,还有十天左右就要过年了,这些天大家或多或少都有点浮躁.反过来想,趁大家都懈怠的时候,正是学习的最佳时机.趁着这几天,也给自己加点码,去认真的再看一下特征工程.我给自己列了下面的这一份学习清单 ...

  4. 特征工程系列:自动化特征构造

    特征工程系列:自动化特征构造 原创: JunLiang 木东居士  今天 0x00 前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.由此可见,特征工程在机器学习中占有相当重要的 ...

  5. ML之LoR:基于LoR算法实现对非线性数据集点进行绘制决策边界

    ML之LoR:基于LoR算法实现对非线性数据集点进行绘制决策边界 目录 基于LoR算法实现对非线性数据集点进行绘制决策边界 1.查看数据集 2.设计代码 3.输出结果 基于LoR算法实现对非线性数据集 ...

  6. word2vec模型评估_特征工程(下)—特征评估

    点击上方"大数据与人工智能","星标或置顶公众号" 第一时间获取好内容 作者丨stephenDC 编辑丨Zandy 这是作者的第15篇文章 本文是特征工程系列的 ...

  7. 机器学习基础之《特征工程(2)—特征工程介绍、特征抽取》

    一.什么是特征工程 机器学习领域的大神Andrew Ng(吴恩达)老师说"Coming up with features is difficult, time-consuming, requ ...

  8. [特征工程系列三]显性特征的衍生

    前一文讲的是一些特征的基础处理方式,包括怎么降维.怎么处理脏数据等等.其实特征工程真正的难点是如何结合业务需求衍生出新的特征.结合业务需求讲的是利用专家经验来提取出数据里对结果影响更大的特征,往往是原 ...

  9. [特征工程系列二]显性特征的基本处理方法

    今天接着前一篇文章讲,主要分享基于显性特征工程的一些最基本的处理方法.关于显性特征是什么,大家可以去看系列文章一.关于显性特征的处理方法可以做这样的类比:不知道大家平时会不会自己做菜,我个人的话基本每 ...

最新文章

  1. 移动端的1px边框问题
  2. 微服务中远程调用Dubbo与Feign对比
  3. 前端学习(3239):react生命周期setstate流程
  4. web开发中遇到的#65279导致网页开头空白
  5. 微信经典飞机大战素材
  6. ASCLL码对照表01(控制字符)
  7. 电子设计教程22:虚短与虚断
  8. 计算机在环境工程专业中的应用,计算机在环境科学与工程方向的应用.pdf
  9. GitHub 和 gitlab 的使用
  10. 编程两年后,我的2018总结
  11. 瑞吉外卖——菜品展示功能(移动端)
  12. Oracle数据库,创建表并给表、字段添加注释.
  13. html5新增属性cookies,关于cookie的SameSite属性
  14. 工具教程第三十一讲:电报的使用(二)
  15. 大数据分析软技能有哪些
  16. 跑批利器--SpringBatch框架
  17. WebGL入门(八)-通过旋转矩阵实现图形(三角形)绕Z轴的旋转
  18. python 文件路径切分
  19. twitter java_将twitter集成到你的Java程序中
  20. 电力微气象多要素监测预警装置

热门文章

  1. php俩个字符串合并,php分割合并两个字符串的函数实例
  2. 展示动图_DNF:多GIF动图展示,暗夜使者个性武器幻化推荐
  3. 阈值Java_亲测有效!一种完美动态阈值白平衡算法 Java实现。
  4. blob照片显示 oracle_保存图片到oracle的blob字段,报ora-01465
  5. Mysql 的 聚簇索引和二级索引
  6. FTP服务器端口说明
  7. 在IIS7中应用Application Request Routing配置反向代理
  8. 学着造轮子-RxLifeCycle
  9. 干货:计算机网络知识总结
  10. Javascript 面向对象编程中的‘new’