当推荐系统遇上用户画像：你的画像是怎么来的？

在构建推荐系统的过程中，冷启动是我们要面临的一个很现实的问题，而除了加特征，加样本，加图谱，加规则，还有其他方法吗？

推荐系统用户画像，是解决冷启动和兴趣探索问题一种有效地方法，但item上的标签要通过一种怎么样的方式转移到用户身上呢？常见的做法是用户点击或者购买了某个item，则这个item上标签则被标记到了user身上。那么，除了这种直接的方式，还是否有其他的更系统的方法呢？

本文和大家分享下关于用户画像的一些东西。今天我们先从用户画像的标签权重开始聊起吧。

用户画像：即用户信息标签化，通过收集用户社会属性、消费习惯、偏好特征等各个维度数据，进而对用户或者产品特征属性的刻画，并对这些特征分析统计挖掘潜在价值信息，从而抽象出一个用户的信息全貌，可看做是企业应用大数据的根基，是定向广告投放与个性化推荐的前置条件。

（一）不能把典型用户当作用户画像

每年的微信生活白皮书中，微信官方都会公布典型用户的一天：工作日每天 8 点起床刷朋友圈、8:45 出门路上刷视频号……很多用户看了表示这完全就是自己啊！不过也有不少人吐槽：我也是微信重度用户，但这个典型的一天的跟我怎么完全不符合？

为什么会出现如此截然相反的反馈呢？原来是这些人把「典型用户」跟「用户画像」的概念搞混了。因为以上描述典型用户这些特点，只是把用户特征抽象出来，组合在一起，事实上典型用户是虚构的，并不真实存在。而用户画像是把用户以标签的形式表现出来，每一个真实存在的用户都有对应的用户画像。

（二）用户画像不是用户标签的简单组合

这也是大部分人都可能存在的错误认知，即把用户画像简单理解成由用户标签构成。用户标签是用来概括用户特征的，比如说姓名、性别、职业、收入、养狗、喜欢吃零食等等。这些标签表面上看没有什么问题，但是实际上组成用户画像的标签要跟业务/产品结合。不同业务的画像标签体系并不一致，这需要数据和运营目的性的提炼。

举个夸张的例子，喜茶要做用户画像，最后列出来小明是一个大学生、高富帅、独生子、四川人，爱玩游戏、爱看动漫等用户标签。而事实上，对于喜茶而言，用户帅不帅、是否爱玩游戏真的没有关系。

（三）用户画像的有效性

如果你能够建立真正有效的用户画像标签，才算正确理解从而提升运营效果。这就涉及到构建用户画像最大的难点了。

举个例子，某知识付费团队要卖课，那么建立用户画像最核心的诉求就是：提高课程购买数量。如果能通过用户画像了解用户购买课程的意愿，然后采取相应的运营策略，效率便会大幅度提高。而这个购买课程意愿度，就是我们最需要放在用户画像里的标签。

又比如，我们建立用户画像之后，计算出来甲购买课程的意愿是 40%，乙购买课程的意愿是 90%。为了进一步提高购买量，我们会对购买意愿在 40% 的用户（甲）发放优惠券。如果没有建立这样一个用户画像标签，我们就会对甲和乙发放同样的优惠券。而乙类用户原本是不需要用优惠券进行激励的，这么一发，便会增加很多成本。这就牵扯到了另外一种营销模型的构建了，在这里就不做展开说明了。

先举个场景，程序员小Z在某电商平台上注册了账号，经过一段时间在该电商平台的web端/app端进行浏览、所搜、收藏商品、下单购物等系列行为，该电商平台数据库已全程记录该用户在平台上的行为，通过系列建模算法，给程序员小Z打上了符合其特征的标签（如下图所示）。此后程序员小Z在该电商平台的相关推荐版块上总能发现自己想买的商品，总能在下单前犹豫不决时收到优惠券的推送，总是在平台上越逛越喜欢....

如上图所示，一个用户标签表里面包括常见的字段如：用户id、用户姓名、标签id、标签名称、用户与该标签发生行为的次数（如搜索了两次“大数据”这个关键词）、行为类型（不同的行为类型对应用户对商品不同的意愿强度，如购买某商品>收藏某商品>浏览某商品>搜索某商品），行为时间（越久远的时间对用户当前的影响越小，如5年前你会搜索一本高考的书，而现在你会搜索一本考研的书）。

最后非常重要的一个字段是标签权重，该权重影响着对用户属性的归类，属性归类不准确，接下来基于画像对用户进行推荐、营销的准确性也就无从谈起了。下面我们来讲两种权重的划分方法。

TF-IDF算法是什么思想，这里不做详细展开，简而言之：一个词语的重要性随着它在该文章出现的次数成正比，随它在整个文档集中出现的次数成反比。

比如说我们这里有3个用户和4个标签，标签和用户之间的关系将会在一定程度上反应出标签之间的关系。这里我们用w（P , T）表示一个标签T被用于标记用户P的次数。TF（P , T）表示这个标记次数在用户P所有标签中所占的比重，公式如下图：

对上面的图来说，用户1身上打了标签A 5个，标签B 2个，标签C 1个，那么用户1身上的A标签TF=5/（5+2+1）。

相应的IDF（P , T）表示标签T在全部标签中的稀缺程度，即这个标签的出现几率。如果一个标签T出现几率很小，并且同时被用于标记某用户，这就使得该用户与该标签T之间的关系更加紧密。

然后我们根据TF * IDF即可得到该用户该标签的权重值。到这里还没结束，此时的权重是不考虑业务场景，仅考虑用户与标签之间的关系，显然是不够的。还需要考虑到该标签所处的业务场景、发生的时间距今多久、用户产生该标签的行为次数等等因素。我用个图总结下：

关于时间衰减的函数，根据发生时间的先后为用户行为数据分配权重。

时间衰减是指用户的行为会随着时间的过去，历史行为和当前的相关性不断减弱，在建立与时间衰减相关的函数时，我们可套用牛顿冷却定律数学模型。牛顿冷却定律描述的场景是：一个较热的物体在一个温度比这个物体低的环境下，这个较热的物体的温度是要降低的，周围的物体温度要上升，最后物体的温度和周围的温度达到平衡，在这个平衡的过程中，较热物体的温度F(t)是随着时间t的增长而呈现指数型衰减，其温度衰减公式为：

F(t)=初始温度×exp(-冷却系数×间隔的时间)

其中α为衰减常数，通过回归可计算得出。例如：指定45分钟后物体温度为初始温度的0.5，即 0.5=1×exp(-a×45)，求得α=0.1556。

这个相关系数矩阵听title挺困难，其实道理十分简单。举个例子：用户1身上打上了5个A标签、2个B标签、1个C标签；用户2身上打上了4个A标签，3个B标签；用户3身上打上了4个C标签、1个D标签。

用个图形象表示一下：

那么同时打上A、B标签的用户有两个人，这就说明AB之间可能存在某种相关性，当用户量、标签量级越多时，标签两两之间的相关性也越明显。

参考资料

1、https://zhuanlan.zhihu.com/p/27828271
2、htps://http://www.zhihu.com/question/31429786
3、相关内容已获作者授权

更多干货，请关注公众号：炼丹笔记