在构建推荐系统的过程中,冷启动是我们要面临的一个很现实的问题,而除了加特征,加样本,加图谱,加规则,还有其他方法吗?

推荐系统用户画像,是解决冷启动兴趣探索问题一种有效地方法,但item上的标签要通过一种怎么样的方式转移到用户身上呢?常见的做法是用户点击或者购买了某个item,则这个item上标签则被标记到了user身上。那么,除了这种直接的方式,还是否有其他的更系统的方法呢?

本文和大家分享下关于用户画像的一些东西。今天我们先从用户画像的标签权重开始聊起吧。

用户画像:即用户信息标签化,通过收集用户社会属性、消费习惯、偏好特征等各个维度数据,进而对用户或者产品特征属性的刻画,并对这些特征分析统计挖掘潜在价值信息,从而抽象出一个用户的信息全貌,可看做是企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件。

(一)不能把典型用户当作用户画像

每年的微信生活白皮书中,微信官方都会公布典型用户的一天:工作日每天 8 点起床刷朋友圈、8:45 出门路上刷视频号……很多用户看了表示这完全就是自己啊!不过也有不少人吐槽:我也是微信重度用户,但这个典型的一天的跟我怎么完全不符合?

为什么会出现如此截然相反的反馈呢?原来是这些人把「典型用户」跟「用户画像」的概念搞混了。因为以上描述典型用户这些特点,只是把用户特征抽象出来,组合在一起,事实上典型用户是虚构的,并不真实存在。而用户画像是把用户以标签的形式表现出来,每一个真实存在的用户都有对应的用户画像。

(二)用户画像不是用户标签的简单组合

这也是大部分人都可能存在的错误认知,即把用户画像简单理解成由用户标签构成。用户标签是用来概括用户特征的,比如说姓名、性别、职业、收入、养狗、喜欢吃零食等等。这些标签表面上看没有什么问题,但是实际上组成用户画像的标签要跟业务/产品结合。不同业务的画像标签体系并不一致,这需要数据和运营目的性的提炼。

举个夸张的例子,喜茶要做用户画像,最后列出来小明是一个大学生、高富帅、独生子、四川人,爱玩游戏、爱看动漫等用户标签。而事实上,对于喜茶而言,用户帅不帅、是否爱玩游戏真的没有关系

(三)用户画像的有效性

如果你能够建立真正有效的用户画像标签,才算正确理解从而提升运营效果。这就涉及到构建用户画像最大的难点了。

举个例子,某知识付费团队要卖课,那么建立用户画像最核心的诉求就是:提高课程购买数量。如果能通过用户画像了解用户购买课程的意愿,然后采取相应的运营策略,效率便会大幅度提高。而这个购买课程意愿度,就是我们最需要放在用户画像里的标签。

又比如,我们建立用户画像之后,计算出来甲购买课程的意愿是 40%,乙购买课程的意愿是 90%。为了进一步提高购买量,我们会对购买意愿在 40% 的用户(甲)发放优惠券。如果没有建立这样一个用户画像标签,我们就会对甲和乙发放同样的优惠券。而乙类用户原本是不需要用优惠券进行激励的,这么一发,便会增加很多成本。这就牵扯到了另外一种营销模型的构建了,在这里就不做展开说明了。

先举个场景,程序员小Z在某电商平台上注册了账号,经过一段时间在该电商平台的web端/app端进行浏览、所搜、收藏商品、下单购物等系列行为,该电商平台数据库已全程记录该用户在平台上的行为,通过系列建模算法,给程序员小Z打上了符合其特征的标签(如下图所示)。此后程序员小Z在该电商平台的相关推荐版块上总能发现自己想买的商品,总能在下单前犹豫不决时收到优惠券的推送,总是在平台上越逛越喜欢....

如上图所示,一个用户标签表里面包括常见的字段如:用户id、用户姓名、标签id、标签名称、用户与该标签发生行为的次数(如搜索了两次“大数据”这个关键词)、行为类型(不同的行为类型对应用户对商品不同的意愿强度,如购买某商品>收藏某商品>浏览某商品>搜索某商品),行为时间(越久远的时间对用户当前的影响越小,如5年前你会搜索一本高考的书,而现在你会搜索一本考研的书)。

最后非常重要的一个字段是标签权重,该权重影响着对用户属性的归类,属性归类不准确,接下来基于画像对用户进行推荐、营销的准确性也就无从谈起了。下面我们来讲两种权重的划分方法。

TF-IDF算法是什么思想,这里不做详细展开,简而言之:一个词语的重要性随着它在该文章出现的次数成正比,随它在整个文档集中出现的次数成反比。

比如说我们这里有3个用户和4个标签,标签和用户之间的关系将会在一定程度上反应出标签之间的关系。这里我们用w(P , T)表示一个标签T被用于标记用户P的次数。TF(P , T)表示这个标记次数在用户P所有标签中所占的比重,公式如下图:

对上面的图来说,用户1身上打了标签A 5个,标签B 2个,标签C 1个,那么用户1身上的A标签TF=5/(5+2+1) 。

相应的IDF(P , T)表示标签T在全部标签中的稀缺程度,即这个标签的出现几率。如果一个标签T出现几率很小,并且同时被用于标记某用户,这就使得该用户与该标签T之间的关系更加紧密。

然后我们根据TF * IDF即可得到该用户该标签的权重值。到这里还没结束,此时的权重是不考虑业务场景,仅考虑用户与标签之间的关系,显然是不够的。还需要考虑到该标签所处的业务场景、发生的时间距今多久、用户产生该标签的行为次数等等因素。我用个图总结下:

关于时间衰减的函数,根据发生时间的先后为用户行为数据分配权重。

时间衰减是指用户的行为会随着时间的过去,历史行为和当前的相关性不断减弱,在建立与时间衰减相关的函数时,我们可套用牛顿冷却定律数学模型。牛顿冷却定律描述的场景是:一个较热的物体在一个温度比这个物体低的环境下,这个较热的物体的温度是要降低的,周围的物体温度要上升,最后物体的温度和周围的温度达到平衡,在这个平衡的过程中,较热物体的温度F(t)是随着时间t的增长而呈现指数型衰减,其温度衰减公式为:

F(t)=初始温度×exp(-冷却系数×间隔的时间)

其中α为衰减常数,通过回归可计算得出。例如:指定45分钟后物体温度为初始温度的0.5,即 0.5=1×exp(-a×45),求得α=0.1556。

这个相关系数矩阵听title挺困难,其实道理十分简单。举个例子:用户1身上打上了5个A标签、2个B标签、1个C标签;用户2身上打上了4个A标签,3个B标签;用户3身上打上了4个C标签、1个D标签。

用个图形象表示一下:

那么同时打上A、B标签的用户有两个人,这就说明AB之间可能存在某种相关性,当用户量、标签量级越多时,标签两两之间的相关性也越明显。

参考资料

  • 1、https://zhuanlan.zhihu.com/p/27828271
  • 2、htps://http://www.zhihu.com/question/31429786
  • 3、相关内容已获作者授权
更多干货,请关注公众号:炼丹笔记

当推荐系统遇上用户画像:你的画像是怎么来的?相关推荐

  1. 搜推广遇上用户画像:Lookalike相似人群拓展算法

    在<当推荐系统遇上用户画像:你的画像是怎么来的?>一文中,我们介绍了怎么通过TF-IDF的方式得到用户的画像.而在本文中,我们来聊一下在搜索.推荐.计算广告系统中"画像是怎么用的 ...

  2. 推荐系统遇上深度学习(八十七)-[阿里]基于搜索的用户终身行为序列建模

    本文介绍的论文是<Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Thr ...

  3. “直男变暖男”—— 当推荐系统遇上知识图谱

    本文转载自文旅记,详情可以扫描下方二维码: 作为一个文科生,深知文化娱乐.旅游休闲.市场营销等领域正在迎接推荐算法的洗礼,传统的分析.内容生产,势必会发生改变.因此笔者一直关注技术领域,斥巨资(狗头保 ...

  4. 推荐系统遇上深度学习,9篇阿里推荐论文汇总!

    作者 | 石晓文 转载自小小挖掘机(ID: wAIsjwj) 业界常用的推荐系统主要分为两个阶段,召回阶段和精排阶段,当然有时候在最后还会接一些打散或者探索的规则,这点咱们就不考虑了. 前面九篇文章中 ...

  5. 推荐系统遇上深度学习(三十九)-推荐系统中召回策略演进!

    推荐系统中的核心是从海量的商品库挑选合适商品最终展示给用户.由于商品库数量巨大,因此常见的推荐系统一般分为两个阶段,即召回阶段和排序阶段.召回阶段主要是从全量的商品库中得到用户可能感兴趣的一小部分候选 ...

  6. 知识图谱论文阅读(八)【转】推荐系统遇上深度学习(二十六)--知识图谱与推荐系统结合之DKN模型原理及实现

    学习的博客: 推荐系统遇上深度学习(二十六)–知识图谱与推荐系统结合之DKN模型原理及实现 知识图谱特征学习的模型分类汇总 知识图谱嵌入(KGE):方法和应用的综述 论文: Knowledge Gra ...

  7. 推荐系统遇上深度学习(九十二)-[腾讯]RecSys2020最佳长论文-多任务学习模型PLE

    今天介绍的是腾讯提出的一种新的多任务学习个性化推荐模型,该论文荣获了RecSys2020最佳长论文奖,一起来学习下! 1.背景 多任务学习通过在一个模型中同时学习多个不同的目标,如CTR和CVR,最近 ...

  8. 推荐系统遇上深度学习(一三九)-[阿里]商品属性变化感知的分层注意力演化网络CAEN...

    今天给大家带来Recsys2022上阿里中稿的一篇文章.商品的属性如价格,评分等对于用户在电商场景下的行为决策起着较为重要的作用,但过往的推荐系统大都关注用户历史行为的建模,而对于商品属性的变化很少关 ...

  9. 当推荐系统遇上多模态Embedding

    在微信视视频号推荐算法大赛中,给出来融合了OCR.ASR.图像.文字的多模态的内容理解特征向量Feed Embedding,共512维向量.对于给定的一定数量到访过微信视频号"热门推荐&qu ...

最新文章

  1. qcustomplot圆_QCustomPlot使用心得五:坐标轴常用属性设置
  2. Fisher准则一维聚类
  3. 分享一个在线301跳转代码生成工具
  4. 全国计算机三级网络技术题库南开,计算机三级上机-适用于三级网络技术数据库等(南开100题).doc...
  5. 软件测试记录包括哪些,bug记录里通常包括哪些内容?
  6. 基于Jenkins和Kubernetes流水线实现应用的自动发版
  7. pip下载报错:pip._vendor.urllib3.exceptions.SSLError: [SSL: DECRYPTION_FAILED_OR_BAD_RECORD_MAC] decry
  8. 苹果手表 WatchKit 应用架构简介
  9. 这几个 GitHub 项目真带劲
  10. LaTeX 使用心得:节标题(section)中使用数学符号
  11. 全国计算机四级之网络工程师知识点(五)
  12. Python培训课程怎么学
  13. 【网络流】【二分图最大匹配】Buaacoding1043 难题·Beihang Couple Pairing Comunity 2017
  14. 1064 例题5-1-5 连续自然数求和
  15. ScheduledExecutorService内线程异常导致任务中断
  16. 使用VISA编程入门教程
  17. 情感分类——Attention(前篇)
  18. 软件项目范围变更流程与过程控制研究
  19. matlab:栅格地图转化为邻接矩阵
  20. 帝国霸业银河生存开服教程——游戏

热门文章

  1. linux命令学习之:ifconfig
  2. ArcObject开发,“异常在 ESRI.ArcGIS.Version.dll”错误
  3. 【Noip模拟By yxj】
  4. 《一江春水向东流》——任正非
  5. 工厂模式IDAL具体解释
  6. PHP二维数组排序函数
  7. 使用 QT 时遇到的问题及解决办法
  8. 28笔记本USB接口案例分析
  9. pycharm安装包时各种报错,且pip无法安装
  10. JavaWeb(四)——在IDEA中配置Tomcat、pom文件