最近在做短视频推荐,和别的部门配合着做,我们部门做用户画像这一部分。回头看看,我们部门以前做的用户画像只能称之为“所谓的用户画像”。如果一个人不懂用户画像还好指挥来指挥去真的让人无言,不知道其他公司的有没有这样的人儿那,哈哈,扯远了,言归正传。这篇文章只是对文献[1]的一个总结与实践,像我这种才学浅显的人只能照猫画虎了。
1、标签&标签问题
用户可以对物品打标签,这些标签存在:
(1)标签冗余。比如“父亲”与“爸爸”标签是一个意思。
(2)标签语意不明。如“苹果”可以是苹果手机、水果,也可能是纽约。
(3)各种噪音。拼写错误等。
既然存在问题,有没有能够缓解这种问题的办法呢?聚类就是其中的方法之一
2、标签聚类&聚类算法
“用聚类就行了,多简单!”总是说这句话的人要么是大牛,要么是浅薄。从概率上讲,大牛总是少的,浅薄总是多的,哈哈,老想扯点题外话,收拢回来。
聚类为什么可以缓解标签冗余、模糊和噪音等问题那。
(1)通过聚类,冗余的标签可能归结为一个簇。例如“父亲”与“爸爸”都是一个簇里的标签
(2)某一个标签语义可以通过簇里其他标签的语义加以明确。例如有一个簇:橘子,香蕉,苹果。在该簇中,苹果就是水果。
…………
说道聚类,就会涉及聚类算法。聚类算法很多,这里简单说一下“层次聚类算法”层次聚类PDF。这里借助一个例子简单说一下层次聚类。

如上图所示为层次聚类算法结果图。最上边的水平轴代表了相似度(combination similarity)。举例来说,当我们选择相似度为0.4作为分裂点的时候,我们就可以得到24个聚类簇。选择相似度0.1作为分裂点,就可以得到12个聚类簇。层次聚类不需要事先设定聚类的个数。
3、基于标签的个性化搜索算法
现在,标签已经聚类完成,那么则么计算用户与每个标签簇的关系,物品与每个标签簇的关系?
对于用户u对簇c的兴趣可以计算:

其中A表示<用户、物品、标签>记录条数,R表示物品(资源)集合,简单地说,就是用户大的标签中属于簇c的个数比上用户打的标签的总个数。
物品r对簇c的关系可以计算:

有了用户与标签簇的关系以及物品与标签簇的关系,那么就可以计算出用户对物品的感兴趣程度:

多说一句,计算出relevance(u,r)后就可以作为一种推荐粗过滤的线下模型,为线上推荐提供候选数据。
那么接下来的问题就是,如果用户输入一个标签,怎样根据用户画像为用户返回个性化推荐呢?
对于一个搜索q来说,可以计算出q与物品r的相似度,然后降序排列得到返回列表rankscore(q,r),如果把用户和物品之间的相似度考虑进来,对rankscore(q,r)进行重新排序,则可以返回个性化搜索结果:

到此,我们把用户profile,标签聚类,查询q作为输入,返回了个性化搜索结果p_rankscore

[1]Personalization in Folksonomies Based on Tag Clustering
Jonathan Gemmell, Andriy Shepitsen, Bamshad Mobasher, Robin Burke

推荐系统 用户画像 标签聚类 个性化搜索相关推荐

  1. 万字用户画像标签体系建设分析指南!

    转自:大数据梦想家 01 什么是用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特 ...

  2. 全网超详细!用户画像标签体系建设指南!

    大家好,最近工作之余看了很多用户画像的文章,要么描述浅显.要么相对片面,对于数据分析人员来说算是窥中豹管. 今天我将结合日常工作实践和理解,整理了一份用户画像的文章,内容偏向数据分析方法论,个人觉得这 ...

  3. 用户画像标签维度_一文看懂用户画像标签体系(包括维度、应用场景)

    一文看懂用户画像标签体系(包括维度.应用场景) 互联网相关企业在建立用户画像时一般除了基于用户维度(userid)建立一套用户标签体系外,还会基于用户使用设备维度(cookieid)建立相应的标签体系 ...

  4. 深度学习在用户画像标签模型中的应用

    原文地址:https://blog.csdn.net/chaishen10000/article/details/79324016 最近一段时间都在学习深度学习,想着在用户画像标签模型中看能不能用上, ...

  5. 用户画像标签维度_用户画像标签 数据挖掘系列:用户头像的用户标签

    在寻找人的业务场景中,用户可以直接找到各个垂直类别的专家帐户,并且可以通过跟踪专家帐户直接获取各个垂直类别的高质量内容.在热门的微博业务场景中,内容流来自垂直类别的专家帐户:在发布特定类别的高质量内容 ...

  6. 只需8步,轻松构建用户画像标签体系

    随着互联网流量红利的逐渐消失及用户需求的日渐碎片化,APP无论是进行拉新获客还是用户全生命周期管理,或是商业变现,都需要更精准地洞察用户需求,从而为用户提供高质量贴心服务,实现精细化运营. 于是,构建 ...

  7. 三分钟入门大数据之用户画像标签的分类

    哈喽,大家好,我是汉斯老师.近几年来,互联网行业由于较高的薪资收入,受到许多人的追捧.很多年轻的学子,或是其他行业的有志青年,都想要投身到这个行业中来.然而一方面受到"互联网寒冬" ...

  8. 用户画像标签数据存储之Elasticsearch存储

    目录 0. 相关文章链接 1. Elasticsearch简介 2. 应用场景 3. 工程化案例 4. 用户画像标签数据存储总结 注:此博文为根据 赵宏田 老师的 用户画像·方法论与工程化解决方案 一 ...

  9. 企业级360°全方位用户画像:标签系统[四]

    絮叨两句: 博主是一名软件工程系的在校生,利用博客记录自己所学的知识,也希望能帮助到正在学习的同学们 人的一生中会遇到各种各样的困难和折磨,逃避是解决不了问题的,唯有以乐观的精神去迎接生活的挑战 少年 ...

最新文章

  1. Spring Security的RBAC数据模型嵌入
  2. 升级ESXi Host
  3. java人脸识别_Python 实现在 App 端的人脸识别!手机解锁人脸识别
  4. JavaSE各阶段练习题----异常
  5. linux7切断防火墙,Linux7关闭防火墙
  6. 标志位鼠标Java_检查标志位java
  7. java 子类tostring,JAVA中Object类的toString()方法,objecttostring
  8. sizeof,strlen用法详解
  9. 项目Beta冲刺(团队)总结
  10. php获取sqlserver时间,PHP_php操作sqlserver关于时间日期读取的小小见解,上周五,要做一个php 同时对mys - phpStudy...
  11. python身份证号码共18位_Python实现身份证号码解析
  12. QtCreator总是崩溃卡死的问题
  13. java 定义整数数组_定义一个由整数组成的数组,要求求出其中的奇数个数和偶数个数...
  14. RocketMQ Topic是如何注册和保存的
  15. 图解计算机基础网站上线了
  16. 【数据分析实战】杭州2019年链家在售房源数据分析
  17. gc日志一般关注什么_理解GC日志
  18. 错位解读:细节的反义词不是粗心,…
  19. BaseAdapter 的notifyDataSetInvalidated 和notifyDataSetChanged
  20. 泰勒公式--泰勒多项展开以及应用

热门文章

  1. python 柱状图 居中_Python matplotlib 柱状图
  2. npm: command not found
  3. 在博客中自定义Google代理搜索
  4. STM32驱动MLX90614红外测温模块
  5. 【uniapp】微信小程序发布后提醒用户更新版本
  6. 【SE】Week7 : Silver Bullet Cathedral and Bazaar Big Ball of Mud Waterfall ...
  7. 聚观早报|中国制造成世界杯交通主力;特斯拉拟召回32万辆车
  8. C标准-->C89/C99/C11
  9. Golang单元测试坑盘点
  10. 谷粒学院(七)讲师列表前端实现