本文选自 | 《Spark 案例上手推荐系统》

作者 | 黄崇远

责编 | 欢欢

精通 Spark 你就超过了地球上百分之 99.9 大数据领域的人。


01

炙手可热的算法工程师

近段时间团队在扩建算法小组,首当其冲的岗位就是推荐算法工程师,然而历经一、两个月的招聘后,却发现一个事实,推荐算法工程师太难招了

要么根本就约不过来,要么就是手里拽着好几个 Offer 骑驴找马不亦乐乎,又或者是给人家发了 Offer,人家根本就不 care。

是的,推荐算法工程师,又或者说算法工程师已经成了一个香馍馍,进一步看招聘市场不难发现,各家都在抢算法以及推荐相关的人才。

一个 App 如果没有个性化推荐的智能元素,似乎已经拿不出手,不好意思说出去。这确实是事实,推荐系统已变得越来越大行其道。

随着移动互联网的进一步发展,从各种各样的渠道不难发现,人们的注意力正在不断的从 PC 端往移动端迁移。

而我们知道,对于移动端,人们的使用时间是高度碎片化,这与我们移动端的使用场景有关,这就意味着,对于任何 App 或者相关的应用,很难维持用户长时间的集中在应用中。

除此之外,虽然中国的基础技术建设方面依然落后于美国等发达国家,但是据传闻中国的互联网应用已经走在了世界的前列,美国很多公司已经在复制中国互联网企业模式。

换种角度说,在国内,各类应用的开发已经到了“丧心病狂”的地步了,即你会发现各个领域,应用的同质化已经非常严重。

上述的两个重大原因,会让用户在单一的应用中,其停留的时间以及注意力将会越来越少,这也就是为何说,人们的耐心正在逐渐的降低。

每个 App 或者说应用都面临着一个问题,那就是如何在最短的时间内抓住用户的焦点,来提升用户的体验。 

面临海量信息选择困难症,如何快速的为用户筛选有效以及有用信息成为了首要解决的问题,于是,能够理解用户以及用于替代海量信息平铺陈列的推荐模式成为了潮流。

02

获取信息的机制


具体聊推荐之前,我们先来了解一下获取信息的两种基本机制,第一是主动获取,第二是被动获取。

主动获取信息很容易理解,我们是抱着很明显的目的去执行,即在获取信息之前对于将要获取的信息已经有了比较明确的定义,在我们去触达的时候,会有比较明确的思路,以及对于即将要获取的信息所付出的成本也有一定的心理预期。

对于信息主动获取的方式,最典型的有两种,一个是搜索,另一个是导航。 

对于搜索,想必大家能最快想到的就是国产大百度,其次便是搜索界一霸谷歌。百度和谷歌通过解决用户的信息主动检索问题,便能成就一个产业,所以对于信息主动获取的需求是很巨大的。

对于另一个主动信息获取的方式,即导航,在门户时代,门户网站的分门别类的各色频道,以及频道下对应的各级菜单其实就是一种导航,再到目前国内遥遥领先世界的电子商务领域,其各色平台,少不了的就是类目导航。

导航提供的是一种通用的目录结构,人们通过对信息的认知,再结合通用的树状结构,逐步检索到自己需要的信息。

同样,通过导航获取信息的方式也需要花费巨大操作成本(与搜索相比),但在主动需求的平衡中,这种成本的支出是可预期的。

但是很遗憾,对于大部分的场景中,至少过半的用户并不是抱着一个很明确的目的去使用的,大部分都是一种随意看看、随便逛逛的心态,这就意味着被动信息获取的场景我们同样需要去满足。

虽然用户是随便看看、随便逛逛,但作为被逛的主体方可不能带着这种心态,我们必须在用户的随便行为中,把用户给牢牢吸引住,不然就不知不觉给逛走了。

03

推荐是一种被动行为


这就是涉及到了被动信息获取机制中的推荐。对于用户来说,推荐是一种被动的行为,主体方意图通过推荐的方式将最吸引用户或者说用户最可能感兴趣的东西被动呈现给用户。

通过推荐的方式,缩短用户与其潜在需求信息的路径,从而提升用户的体验、提升用户的粘性。

搜索有大百度、大谷歌,但也不要小看推荐这种模式的魅力,除非各色各样非典型非代表性的推荐案例,这两年来今日头条就是依靠推荐引擎起家,硬生生成为了信息分发领域里的一霸,包括我们的大百度也在玩命的在其搜索 App 中或者应用中做个性化的信息流,意图切分一份蛋糕。

除此之外,还有一个典型的推荐案例,那就是微信生态中的朋友圈广告,实际上也是一个典型的推荐案例,微信通过对于推荐以及社交关系的研究,大大提升了其广告投放的准确率,一方面不至于浪费流量,另一方面也不会让用户产生过多的厌恶感,毕竟瞎推乱搭的信息对于用户的体验伤害还是很大的。

在上面,对于推荐的大致市场行情,以及推荐产生的背景,以及分析信息获取的几种机制,最终确定推荐系统确实是一个刚需,现在具体来看看一些常见的推荐系统场景,以及分析其具体能解决什么问题。

通过下面的几个例子,对于推荐系统场景化的认识或许可以加强,以及具体推荐以一种什么样的形态去展现。

这是腾讯视频某个视频播放页的推荐场景,在我截图的时候,当前播放主页是《蜘蛛侠3》,我们再来结合当前主体信息来推断其推荐列表的算法机制,不难发现其属性相关占比的权重会比较大,所谓属性相关即与当前主体的相关属性,诸如同一系列、同个主题、同个导演等诸如此类。

当然,这里我们只是做一个场景的熟悉,并不是要去评估一个推荐列表的好坏。

但需要顺带说一下的就是,一个完整的推荐系统,推荐算法并不是它的全部,甚至很多时候一个推荐列表的生成也并不单纯的依赖于某个推荐算法。

整个推荐系统,承载算法的模型层只是其中最重要的一环,除此之外还有整个算法架构、工程架构、策略引擎,甚至包括推荐系统中涉及的一些产品思维,这些在本系列中将会逐一进行阐述。

我们再来看一下腾讯体系下其他的推荐场景,诸如 QQ 音乐平台的歌单推荐。

具体说根据什么逻辑进行的推荐,以及推荐的是否合理,有没有点击的欲望等,这里暂时不做评论。

除了视频音乐领域,我们再来看看网文文学领域,这是同属大腾讯体系下的起点中文网图书主页的推荐列表。

从其推荐理由的设计来看,其推荐列表的生成与当前书本的关联性会比较大,以及通过观测与当前主体的属性关联性也很强。

不难发现,上述列了三个不同领域,三个不同推荐场景其推荐栏位的栏位名称,我们一般更喜欢称其为推荐理由,都是不尽相同的,推荐理由是推荐系统中的一个重要组成成分,甚至很多时候会在推荐转化的过程中,起到重要的作用。

说到推荐的场景,不得不说的就是电商领域,电商平台是最早引入个性化推荐系统的领域,对的,说的就是亚马逊,可谓是推荐系统的鼻祖了,并且整个推荐的发展进程,亚马逊的 Push 作用确实是不容忽视。

据有消息称,亚马逊整个体系中已经有 20%~30% 的 GMV 是通过推荐带来的,我们来看看亚马逊网站的推荐场景。

当然,这只是其中的一个购买主页的场景,其他的场景大家自行去探索。至今为止,各大电商网站平台,推荐已经是一个标配,包括我们熟悉的某宝某东,如果说没有受到亚马逊推荐一定的影响,我是不信的。

如上,我们只是列举了在线视频、在线音乐、网络文学、电商等领域的推荐场景,实际上还有其他我们耳熟能详的一些产品,典型如内容资讯领域,也是推荐系统的“重灾区”。

不止如此,面对着用户时间的碎片化,以及信息的同质化/海量化,以及用户耐心的减少,各个领域都需要解决同样的问题:如何最快的去留住用户,缩减用户获取有用信息的路径。而推荐,或者说个性化推荐系统是当前相对比较好的一种解决方案,推荐正成为所有领域的一种标配。

基于此,我们所有涉及到相关的从业人员,包括数据相关的技术人员、产品甚至是运营,我们对于推荐都需要有一定的了解和认知。

《Spark 案例上手推荐系统》

扫码免费试读

因此,本系列课程诞生了,我们将从推荐系统中的推荐常识讲起,到最核心的常见推荐算法,再到算法架构,到工程架构,再到推荐的核心迭代神器快速实验平台,最后再到推荐系统的产品思维等,来帮助大家逐渐构建起一个相对完善的推荐系统知识体系。

备注:凡购买本课程的读者,可联系作者额外获取完整的工程代码包,第06 课中有作者的联系方式。

点击阅读原文,免费试读了解推荐算法

今日头条的推荐阅读你为什么都喜欢?相关推荐

  1. 今日头条阅读量怎么刷_今日头条阅读量怎么刷 今日头条怎么增加阅读量

    今日头条阅读量怎么刷呢,这是很多小伙伴们都关注的一个问题.今日头条怎么增加阅读量呢,有没有轻松简单的方法? 今日头条阅读量怎么刷?你可以让水军帮你买阅读量,那些几千万阅读量的基本都是靠水军买阅读量.今 ...

  2. 今日头条的推荐算法原理分析(转)

    链接:https://www.jianshu.com/p/b564c19567b7 今日头条发布了后台的算法原理,不过用词比较考究.说的比较深奥,让人感觉云里雾里不知何处,本篇尽量用通俗语言进行解析, ...

  3. python抽取指定url页面的title_Python使用scrapy爬虫,爬取今日头条首页推荐新闻

    爬取今日头条https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面 查看源代码你会发现 全是js代码,说明今日头条的内容是通过js动态生成的. 用火狐浏览器F12查看得知 ...

  4. python刷今日头条阅读量_教你如何提高今日头条号推荐量阅读量播放量

    有许多刚入行自媒体的朋友在问自媒体文章或视频只有"已发表"没有"已推荐"没有"阅读量""播放量"是怎么回事?怎样提高推荐 ...

  5. 今日头条怎么刷文章阅读量_今日头条能刷阅读量吗?

    今日头条目前已成为主流自媒体平台,每日流量可谓非常之大.很多做自媒体的朋友一直发愁如何提高今日头条等自媒体平台的阅读量.自头条号推出新规则后,让很多新手很高兴,因为不用苦苦转正过新手期直接都开通了广告 ...

  6. 今日头条的排名算法_今日头条的推荐机制是怎么算法的?

    机器通过计算得出的用户阅读兴趣用户阅读过的文章分类和关键词: 用户聚类:相似类型用户还喜欢阅读的其他文章类型: 用户在今日头条客户端主动标记「不感兴趣」的实体词或文章类型. 根据以上数据,系统对用户的 ...

  7. 今日头条如何提高阅读量,今日头条怎么提高阅读量,今日头条提高阅读量技巧

    今日头条自媒体文章如何提升阅读量,赚更多收益.现在做运营门槛最低的就是文章输出,所以很多用户选择运营的时候都会选择文章进行运营,打造文章确实不算太难不过要提高阅读量还是有一定的竞争力,其实在做自媒体运 ...

  8. 专家周 |360精确搜索VS今日头条精准推荐算法

    第六期PMCAFF&脉脉专家周 时间:8月16日(周日)下午2:00 本期嘉宾 今日头条 高级产品经理 王冠乔 360搜索事业部 高级产品经理 王艳丽 报名方式 回复"报名线下&qu ...

  9. 2018字节跳动公益数据:今日头条公益图文阅读量突破246亿

    中新网1月16日电 16日,清华大学公益慈善研究院联合字节跳动发布<互联网生态公益方法论--2018年头条公益年度数据>(以下简称<2018年头条公益年度数据>),共同探讨移动 ...

最新文章

  1. 自然语言处理起源:马尔科夫和香农的语言建模实验
  2. 偏心率e用于描述某一轨道与圆轨道的区别
  3. python 用户认证_Python使用LDAP做用户认证的方法
  4. MYSQL视图用户管理
  5. 计算方位角_全站仪各方面应用的原理、操作及计算,看这篇就对了!
  6. Mac OS使用技巧之一:查看Finder中的.bash_profile等系统隐藏文件
  7. 工业以太网交换机的安装流程详解
  8. 【STC15库函数上手笔记】3、外部中断
  9. Java基础05 break和continue比较区别
  10. 安卓案例:使用AChartEngine绘制折线图
  11. 蔚来汽车为国人长脸,牌照和品牌将是今后的两大重点
  12. JS Base64加密解密
  13. (function(){})() 理解
  14. 一个操作系统的实现(8)进程间通信
  15. [16-8-1]每日总结
  16. JNA释放Memory对象分配的内存
  17. 元宇宙时空——元宇宙是什么
  18. dpdk example——l3fwd
  19. Java开发人员的微服务:微服务通信
  20. UR机器人C语言和Python编程控制

热门文章

  1. VMware安装、启动虚拟机报错:无法打开内核设备“\\.\VMCIDev\VMX”: 操作成功完成。是否在安装 VMware Workstation 后重新引导?
  2. rust自创服务器_用Rust写了一个简单的Web服务器
  3. 设置柱状图每根柱子的颜色
  4. 从陈磊接棒后首份财报看拼多多农业版图2.0
  5. unity下图灵机器人的使用
  6. 电脑和手机好用的播放器
  7. HDU and 蓝桥杯 完全背包练习题
  8. 【Arduino实验13 超声波测距】
  9. win10 相机报错0xA00F4244<NoCamerasAreAttached>解决方法
  10. 业务日志告警如何做?