2019独角兽企业重金招聘Python工程师标准>>>

0、背景

用户流量从搜索引擎为入口的增量时代到移动互联网普及人口红利不再的存量时代,这个变化对每个公司的获客成本,运营思路都产生了很大的影响,在流量日益枯竭,获客成本越来越高的时代,伴随着大数据、精细化运营、人工智能、机器学习等一大波新技术和概念的崛起、普及,它们之间有何关联?如今互联网产品又该如何运营、攻城略地?本文介绍的用户画像或许能带来一点思路。

1、用户画像的作用与意义

1.1 作用

用户画像承载了两个业务目标:一是如何准确的了解现有用户;二是如何在茫茫人海中通过广告营销获取类似画像特征的新用户。比如在了解用户的基础上明确产品定位,“投其所好”;获取一个新用户/新订单;售前的精准营销、售中的个性化推荐匹配,以及售后的增值服务等。

1.2 用户流量的三大终极问题:认知用户

  • “用户是谁?”(用户画像与特征)

    • 现存客户 (Existing Customer) - 我的现存客户是怎么样,喜欢什么,什么消费习惯,哪些客户最值钱等等
    • 潜在客户 (Prospect Customer) - 我的潜在客户在哪,他们喜欢什么,通过什么渠道获取,获客成本是多少等等
  • “用户从哪里来?”(用户来源渠道与效果)
  • “用户到哪里去?”(用户流失与召回)

1.3 效果广告/精准推送/用户变现/用户召回

著名广告大师约翰•沃纳梅克提出:我知道我的广告费有一半浪费了,但遗憾的是,我不知道是哪一半被浪费了。这句话深刻的道出了广告营销海量投放下面临的几个问题:

  • 不精准:受众窄
  • 不友好:骚扰多
  • 不经济:费用高

而如果在精准营销大行其道的今天通过筛选标签对特定属性的用户推送针对性的内容,则可以大幅提升CTR和变现效果,同时还能降低广告、运营成本,总结起来就是:在对的时间,向对的客户,通过对的渠道,推荐对的产品。

比如 DSP、流失预测、沉默用户分析(代金券发放)、非活跃用户(短信\push召回)、
忠诚用户(极速退款、VIP客服)等

1.4 搜索/推荐

用户画像时下一个比较重要的场景是搜索推荐,把画像数据和特征结合使用,可以有效提升 CTR,结合搜索、query意图识别与推荐,常见的方向有:

  • 关联推荐
  • 向上推荐
  • RFM营销

1.5 风控

这个方向在电商、金融、初创公司是很重要的,如何避免或者降低羊毛党、黄牛、欺诈对业务的风险和用户损失,保障正常用户的利益,是个永恒的话题。比如可以利用用户画像对个人及企业级信用评分进而做到欺诈识别,现在 芝麻信用 就是个很好的例子,利用它做用户征信可以有效提升用户体验,降低企业成本与风险,比如共享单车免押金,酒店免押金预订后付费等。

1.6 大数据分析

产品精细化运营,个性化分析支持,这个就无需赘言了,比较广泛的应用场景,主要用数据解决产品运营过程中 what 和 why 层面的问题。

1.7 小结

总的来说,用户画像是精细化运营、数据化运营的需求产物,大数据的本质是消除不确定性,结合大数据我们可以更加精准的分析了解用户特征/用户行为,以便更好更多地服务于大多数用户,比如发送较少的优惠券和补贴,同时还能做到反作弊避免薅羊毛行为。

从用户角度而言,用户画像可以应用于用户的整个服务生命周期:

  • 用户拉新、提升用户体验、个性化推荐及交叉推荐以便提高用户转化率、用户挽留、用户激励等等

从产品角度而言,用户画像可以应用于产品的整个生命周期:

  • 包括优惠券发放、反欺诈、动态调价、用户与服务产品及商家的智能匹配、PUSH消息推送等等

2、用户画像数据定义

用户画像是根据用户社会属性、生活习惯和消费行为等信息/数据而抽象出的一个标签化的用户模型。
构建用户画像的核心工作即是给用户贴“标签”——用数据来描述人的行为和特征,用通过对用户信息分析而来的高度精炼的特征标识(标签)从不同的维度来表达一个人,是对现实世界中用户的数学建模,是数据策略的基石。从数据结构角度而言,用户画像是一个(用户,标签列表)二元组。

3、用户画像的几个关键技术点

3.1 IDMapping

截止2016年5月31日,三大运营商用户数分别为 8.5亿、2.6亿、2.0亿,上月底微信 MAU 已达 9.5亿,从这些数字来看,中国的互联网普及率还是很高的,但在大数据统计分析、用户画像等场景中,经常会面临的一个问题是怎样识别和标示唯一用户?像微信、QQ这种天然闭环的业务相对容易,但像信息流、分类信息类非闭环业务怎么办?用户不需要登录即可浏览信息使用服务,比如头条网易新闻客户端、百度搜索引擎、58同城等,这样当用户有跨屏行为、跨业务客户端场景时,很难持续的追踪、准确的刻画一个用户的全貌。从技术上而言,cookie 这种技术在移动互联网时代追踪用户是极其不稳定和准确的,另外用户标识还可能有如下形式存在:IMEI、Token、IDFA、CellNO、UserID、IP、MAC,如何将这些原始ID聚集关联到真实用户上,将之和多渠道信息、多渠道的产品打通,这其中横跨了数据治理、数据整合、业务打通等几个难点。

3.2 打标签

用户标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识,它是一种相关性很强的关键字,可以简洁的描述和分类人群。比如好人和坏人、90后80后,星座、白领等。具体流程一般是从纷乱复杂、琐碎的用户行为流(日志)中挖掘用户在一段时间内比较稳定的特征,即给用户打上标签,标签的确定,一般是先人工筛选小样本规则,进行验证标注,规则合理后,在通过算法扩展。最后是评估画像的好坏:小样本的真实验证;A/B Test; 在实际的case 中迭代验证,这点从技术角度而言会有些挑战,比如怎么保证准确率和覆盖率。

3.2.1 标签建模

3.2.1.1 属性标签:

比如自然属性标签里的性别、年龄、星座等,社会属性里的职业、社交、出生地、电话号码等

这块有一定的门槛,因为不再是基于事件行为的事实统计了,需要一定的挖掘算法做预测,咱们以性别为例:

性别属于个人隐私,不是每个用户都愿意填写,而且出于保护自己或者其它目的,填了也不一定是真实的,此时你想给用户打上性别标签,就需要用到机器学习相关的算法了,而且需要对准确性和覆盖率负责,一般来说我们会采用如下策略中的一种或多种来预测用户性别:

整体的技术方案和模型算法如下:

  • 参考:画像在外卖智能调度的实践

3.2.1.2 事实标签

比如购买行为、位置包括常驻地出差地等、使用设备、社交属性等,这类一般都可以直接从日志中直接提取,加以简单的聚类算法辅助即可。

3.2.1.3 营销标签

这块比较偏业务属性了,往往带有明确的业务目标建模而成的,比如LTV用户价值、活跃度、忠诚度、兴趣爱好、白领、高奢、有房一族、购买偏好等。

3.2.1.4 预测标签

比如之前提到的性别,其实在大部分场景下也属于一个预测标签,一般而言,我们需要一定的数据挖掘算法,集合用户日志提取APP特征、事件特征、浏览内容特征,对非结构化数据来说,通常要经历“分词”、“过滤”和“特征提取”三个步骤。另外一块是数据建模,选用合适的算法训练数据,比如到底是分类还是聚类,朴素贝叶斯,逻辑回归,SVM,神经网络哪一个合适?在模型的优化过程中,调参优化是非常重要的一步,在调参优化过程中我们通常会遇到过拟合,样本不均等情况,从整个业界来看,整体模型也差不太多,能拉开差距的基本还是对数据的理解和数据处理上,再举个例子:咱们要打个大学生标签,那么有哪些思路?基于 LBS 数据?APP 关联数据比如特殊APP/四六级、考研、超级课程表?

3.2.1.5 技术方案

技术这块涉及到存储和计算,一般根据公司的业务体系来设计,存储有HDFS,HBASE,ES等等,计算有 HIVE、Storm、Kylin、Spark 等,标签的更新频率分场景:每日更新,每周、每月更新。

标签数据的验证也是个比较耗资源的事情:

  • 查准率:一种是有事实标准的,譬如生理性别;无事实标准的,譬如用户的忠诚度,只能验证过程,具体效果需要通过线上业务A/B Test 进行验证
  • 查全率:到底有多少用户覆盖到了,但这两个方面一般没有办法同时满足的。现实业务中无法追求100% 完备的标签体系。

3.2.2 标签体系

不同的标签是对用户不同侧面的量化描述,而一系列的标签集合则构成了标签体系,比如用户画像,商家画像、产品画像。

标签体系的构建策略可以按扁平结构或层级结构来分比如下图两者都有体现:

标签体系也叫群体画像,群体画像与个体画像两者都是对人的描述,但群体画像归纳的是人群所呈现出的共性,而非多样性特征。比如想得到美甲用户群体的画像,就需要用一定的方法寻找他们的共性,除了统计手段可实现外,更简单的办法是把这些个体的年龄\性别\职业\收入等标签作为数据挖掘聚类算法的输入,
聚成较少的几类比如2类或3类,如果某个类别的用户所占比例较高,那么这个类别的群体特征就代表了整个群体的画像,画像标签可能是:女性\年龄25-30岁\自由职业\收入万元以上。

在标签的构建手段上,不仅是数据挖掘,根据业务经验的判断往往更行之有效简单易行:业务经验结合大数据分析为主勾画的人群,此类画像由于跟业务紧密相关,更多的是通过业务人员提供的经验来描述用户偏好。比如:根据业务人员的经验,基于司机路程偏移、时薪和当天服务用户数等等,建立多层综合指标体系,从而对用户的欺诈可能性进行分级,生成司机信用评级的画像。

3.3 数据采集与挖掘计算

画像标签构建涉及到大数据采集、存储、建模、计算、可视化展现全链路,除了对算法有要求,对工程架构能力还是有比较高的要求的。

3.3.1 一个典型的工程架构如下:

3.3.2 一个典型的画像算法架构如下:

3.4 平台建设

我们不能靠层出不穷的业务需求来驱动,反之,我们要总结过往经验和潜在的画像标签需求,形成一个标签体系形成一个动态的、完整的、闭环自我优化的画像系统,并将其包装成服务升级为策略并推广到平台的各个应用中去。比如平台需要支持业务数据接入、应用场景落地、画像搜索、人群分析、人群定向、API、数据反馈与闭环。

4、总结

本文比较系统性的从业务需求与场景、概念原理、技术方案、架构与难点对用户画像比较全面的进行了阐述。画像系统是个系统工程,横跨全量业务与数据,同时涉及机器学习、大数据存储与计算等诸多技术,对技术的掌控和业务的理解要求比较高,最终如果能平台化,则对业务的价值无疑是巨大的。

注:本文部分图片、思路来自于各大技术大会上的分享,由于作者、地址过于分散且没有存档,在此一并表示感谢,而不再一一列举。

__END__

5、Refer

[1] 用户画像之用户性别识别

http://bit.ly/2rSLZXI

[2] 看完后,别再说自己不懂用户画像了

http://bit.ly/2tWfQDL

[3] 华为张华:降临-用户画像

http://bit.ly/2wMJonN

[4] 用户标签实践:如何建立标签体系实现精准营销?

https://www.pmcaff.com/article/index/1268568503023744?from=selection

[5] 47页PPT,用户画像架构、指标标签、ETL性能及案例一站通

https://zhuanlan.zhihu.com/p/41547953

[6] 外卖O2O的用户画像实践

https://tech.meituan.com/waimai_ups.html

[7] 用户画像:标签化就是数据的抽象能力

https://time.geekbang.org/column/article/75056

[8] 用户画像

http://bit.ly/2ZveLyP

https://zhuanlan.zhihu.com/p/36390522

转载于:https://my.oschina.net/leejun2005/blog/906225

用户画像从入门到挖坑相关推荐

  1. 深度学习核心技术精讲100篇(七十四)-教你如何最快入门用户画像

    前言 大家可能经常会听到用户画像这个词,但是具体在做的时候又会觉得无从下手,或者认为只是常规的标签统计,这往往是一个误区. 以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断 ...

  2. 三分钟入门大数据之用户画像标签的分类

    哈喽,大家好,我是汉斯老师.近几年来,互联网行业由于较高的薪资收入,受到许多人的追捧.很多年轻的学子,或是其他行业的有志青年,都想要投身到这个行业中来.然而一方面受到"互联网寒冬" ...

  3. 三分钟入门大数据之什么是用户画像?

    哈喽,大家好,我是汉斯老师.近几年来,互联网行业由于较高的薪资收入,受到许多人的追捧.很多年轻的学子,或是其他行业的有志青年,都想要投身到这个行业中来.然而一方面受到"互联网寒冬" ...

  4. 超硬核 | 一文带你入门用户画像

    本文已收录github:https://github.com/BigDataScholar/TheKingOfBigData,里面有大数据高频考点,Java一线大厂面试题资源,上百本免费电子书籍,作者 ...

  5. RS(2)--从文本数据到用户画像

    点击上方"算法猿的成长",关注公众号,选择加"星标"或"置顶" 总第 122 篇文章,本文大约 5100 字,阅读大约需要  15 分钟 上 ...

  6. 干货 | 搞定用户画像只需5个步骤

    [转]http://www.sohu.com/a/115611583_445326 有一句话是,千万人撩你,不如一人懂你,这句话在互联网圈可以说成是,真正的了解用户,才能得到用户,所以,用户画像的重要 ...

  7. 73页PPT,教你从0到1构建用户画像系统(附下载)

    导读:用户画像就是给用户打标签,那么有哪些标签类型?用户画像的开发包括哪些阶段?每个阶段有哪些输出?用户画像系统有哪些数据结构?--你将在本文分享的PPT中找到这些问题的答案,这份干货将带你全面了解用 ...

  8. 神策数据:打造趁手好用的标签用户画像系统(附PPT下载链接)

    本文根据神策数据产品总监杜明翰在<用户个性化运营-标签体系搭建新机遇>主题沙龙中演讲整理所得. 配套PPT已收录到小程序省时查报告中,大家可以到小程序中查看并下载PPT全文. 关于标签体系 ...

  9. 90%的人都做错的用户画像,到底应该怎么做?

    前几天,有个搞运营的小伙伴向我吐槽,熬了几个夜做出来的用户画像被老板说垃圾.不管是市场人员.运营人员还是产品经理,都躲不开"用户画像",但经常听到伙伴们抱怨,这个词太大了,根本不知 ...

最新文章

  1. git 合并两个分支的某个文件
  2. http传输html图片方式,http怎么样传输图片?二进制流还是base64编码
  3. SQL Prompt 5.1使用
  4. 支付方式之线上和线下
  5. Winsock服务器设计的四个关键问题
  6. statsmodels 笔记:seasonal_decompose 时间序列分解
  7. COM 组件设计与应用(十一)—— IDispatch 及双接口的调用
  8. predefined data types in UI5
  9. 飞畅科技-千兆/百兆/核心/PoE/光纤交换机选型指南
  10. php转调页面,PHP中HTTP防盗链技术
  11. java 0 1背包_浅谈java实现背包算法(0-1背包问题)
  12. http接口返回对象的方法
  13. Android挂断、接听电话
  14. Mozilla Firefox安装Firepath Firebug找xpath最新可用的方法附老版本Firefox下载链接
  15. python对称加密算法库_对称加密算法
  16. C#使用BouncyCastle来实现私钥加密,公钥解密的方法
  17. 精彩回顾 | 苏州农商银行新一代云原生信息科技架构体系实践
  18. java基于springboot水果销售商城管理系统
  19. Unity学习 — 23种设计模式
  20. 转载:【SQL练习】经典SQL练习题

热门文章

  1. 总结几种常见的Word转换PDF方法
  2. 微软teams软件_如何在Microsoft Teams中创建快速投票
  3. 什么是作用域?作用域分类与简介
  4. 编程趋势:21 个热门和 21 个要降温的
  5. 2021年校招启动:清微智能等你来
  6. 小程序wx:if和hidden
  7. 618买哪个牌子的洗地机?家用洗地机排行榜
  8. 4W字的Redis教程!!!!!!
  9. 2022年江苏专转本计算机应用基础
  10. 分享 2 种规划思维和 4 个规划方法