写在前面:京东作为国内最大的自营B2C平台,目前个性化推荐成交的订单数已占到总量的13%。这其中,数据驱动的个性化推荐系统发挥着越来越重要的作用。在7月17~18日即将举行的ArchSummit深圳2015“电商和零售业的转型”专题论坛上,京东推荐搜索部技术总监刘尚堃也将分享《京东数据驱动下的个性化推荐》。在一年一度的“6·18”大促销活动到来之际,InfoQ走进京东,带你领略背后的技术之谜。

\\

受访嘉宾介绍:刘尚堃,京东推荐搜索部技术总监。2011年加入京东组建了京东搜索团队,2013年在继续负责搜索引擎相关工作的同时,开始组建广告算法团队,通过一年的算法优化,京东快车广告系统为公司过亿的收入。2013年年底负责京东推荐系统和搜索系统包括架构、算法、产品在内的全部工作。2014年带领团队全方位向千人千面推荐和搜索产品目标迈进。

\\

InfoQ:首先请介绍下自己及您的团队所负责的事情。

\\

\

刘尚堃:我2011年初加入京东,开始组建搜索团队,并带领团队用C++研发了一套分布式搜索引擎,在此之前京东的搜索是基于开源系统构建的。2012年底系统上线之后,京东的转换率有2%的提升,性能提升了100%。在这个过程中团队也得到了磨练。2012年开始组建了广告团队,并开发了”京东快车”,2013年年中该广告系统已经给京东创造了上亿元的营收。在后来的对比中发现,京东45%的品类点击超过淘宝。2014年广告团队剥离出去独立运作,我开始负责搜索和推荐团队,现在部门有大概80人的规模。

\

\\

InfoQ:您能介绍一下京东的分布式搜索引擎系统的开发过程及其系统架构吗?

\\

\

刘尚堃:简单说一下吧。如上图所示,从上到下。首先是搜索引擎的前台部分,有一个意图分析的模块对用户的类型以及请求query进行分析。然后进入搜索过程,搜索分两部分,一部分是业务逻辑层,一部分是分布式的search引擎阵列。最下面的是数据更新,全量更新与实时增量更新。经过多年的打磨,现在基于Hadoop的数据全量更新每天进行一次,实时增量更新则是滚动进行。我们刚刚采用流水线推送技术进行全量更新,性能比过去提升了20%。

\\

此外,搜索引擎也会连接到用户画像,对其进行更精准的匹配。接下来就是数据分析的部分了。一般我们每周会进行3次小流量的算法改进,主要是对GMV(Gross Merchandise Volume)和转化率的调整测试。

\

\\

InfoQ:有一个问题我问过不同的相关公司,也想再问下您,商品推荐、广告推荐与内容推荐有哪些异同?在技术实现上各有什么特点?

\\

\

刘尚堃:其实商品推荐更侧重用户的购买行为,即把大量的商品定位到海量的人群中去,促成订单的成交,这可以用明确的财务指标来衡量;广告的重点是吸引用户点击,以满足商家的推广与展示需求;内容推荐的衡量比较负责,需要看用户兴趣、内容新颖度、以及点击率等多维度指标。

\\

因此,商品与广告的财务指标更容易激起团队的成就感与激情。

\\

\\

这三者的技术实现是有一些通用的步骤可循。以我们京东的推荐系统为例,首先是召回模型,即底层架构和计算平台,比如数据提取、分布式任务的调度与计算等;上面是离线模型,主要是对用户画像、协同过滤以及关联度匹配,这一层用户实时行为对结果的影响更大;再之上是排序模型部分,主要是规则排序、机器学习等。比如我们近期上线了leaning to rank对排序优化提升了20%;再之上是A/B测试的框架以及业务架构。

\\

广告推荐更类似于离线部分以及排序里的CTR(Click-through Rate)预估。有一个很大的不同在于,广告系统里的产品池远小于商品推荐的规模,因此更侧重RPM(注:广告请求每千次展示收入,(Estimated earnings / Number of ad requests) * 1000),客户关注的是ROI(Return On Investment)。

\

\\

InfoQ:京东快车系统在持续优化的过程中,遇到了哪些比较有代表性的或者说有意思的问题?这些问题是怎么解决的?

\\

\

刘尚堃:现在广告系统叫”精准通”。2014年之后独立运作了我了解不多,我说一下2014年之前的吧。我们广告系统刚上线的时候,广告商品的库存量比较小,这时候定向投放的相关性会比较差,但是又不能过度增加其曝光量,否则会破坏京东用户的体验。为了保证二者的平衡,我们采取减少曝光、保证用户体验和广告主利益,但是牺牲了部分收入的做法。

\\

这类似于”饥饿营销”,也源于我们当时的谨慎。由于精准度较高,商家的热情一下子被拉起来了。但是广告资源有限,后期随着广告资源的不断丰富,我们才逐渐放开了这个限制。

\

\\

InfoQ:今年QCon北京的时候我们就深度学习方面的内容采访了一下李成华博士。您能否谈谈深度学习/机器学习在京东现有业务系统中的应用?

\\

\

刘尚堃:现在深度学习的主要应用是智能机器人方面,我们团队有一位从Google过来的博士在做。客服机器人第一步是对用户的问题与20多个大类进行匹配是最难的,这一步主要用了很多DNN(Deep Neural Network)的算法。

\

\\

InfoQ:作为一个用户量超大的网站,您所负责的系统架构有没有经过大的调整或重构?

\\

\

刘尚堃:现在更多的是只对系统的痛点部分进行改进。比如,以前全量数据传输比较慢,我们后来用流水线推送进行改进。我们更像是在高速公路上一边跑一边随时随地换轮胎。每次的改进都是一次突破,所有的优化都是立足在架构层面的,比如使得我们的调用更加透明、系统性能更为稳定,使业务开发更加迅速。底层的优化根据我们的具体需求在持续地改进。

\

\\

\\

InfoQ:在最近这两年的618活动中,千人千面计划的实施取得了哪些突破?618活动对系统和你的团队有哪些挑战?

\\

\

刘尚堃:京东的618可能有点不一样。千人千面作为用户画像的部分,在促销活动中所起的作用主要是对商品的排序。

\\

目前这已经是我第五次做618这样的活动了。这个跟你们理解的不大一样,该做的事情平时和618之前我们都做完了,团队已经成长起来,我们也都习以为常。否则我也不能坐这里接受你们的采访,而应该在上面忙活着。

\

\\

InfoQ:明天就是618了,您所负责的推荐与搜索系统对历次618活动的销售预测情况如何?有什么可以透露的消息吗?

\\

\

刘尚堃:谈到技术,说的最多的是我们要扛过去啊,其实这是对系统最基本的要求。技术的支撑作用是毋庸置疑的。

\\

现在技术更主要的是推动作用。我们的工程师针对今年的618开发了一个促销搜索的PC端产品,可以对促销商品的真实性、优惠力度、排序等比较接地气的功能,这里面技术实现了很多。

\\

我们对618的原则是,只要能卖出去就不怕赔。今年的预测应该会超过去年淘宝的双十一。到时候在ArchSummit深圳2015大会上我在给大家做更详细的分享。

\

京东618:揭秘大促销背后的个性化推荐相关推荐

  1. 线下活动 | 揭秘大数据背后的京东虚拟平台(免费报名中)

     ▍仅需两步: 1.在社区认真提一个问题. 发布问题请补充详细的背景/条件信息,字数不少于60字,否则无法通过审核喔.点击立即认真提问 2.添加小助手的微信(pmcaffzs2),并发送你的问题截图. ...

  2. 京东11.11大促背后,那些系统架构经历了些什么

    一年一度的京东11.11电商大促,是一次用户的狂欢,也是一次京东智联云架构师们的大型测验.在海量流量.高频用户访问和大量不确定性的DDos攻击之下,系统架构面临了太多考验.在今年京东11.11期间,京 ...

  3. 爱奇艺火爆的背后,个性化推荐排序是如何配合的?

    作者:Michael,推荐算法助理研究员,2014年硕士毕业于北京邮电大学后加入爱奇艺.从事推荐算法的研发和管理工作,对于机器学习和深度学习在推荐上的应用有着丰富的经验. 在当前这个移动互联网时代,除 ...

  4. 揭秘网易云音乐的个性化推荐算法【黑科技】

    在"精准推荐者得民心"的今天,推荐系统已成为各大互联网公司的标配.但由于现实中很多数据是非欧氏空间生成的(例如,社交网络.信息网络等),一些复杂场景下的业务需求很难通过协同过滤等基 ...

  5. [转]个性化推荐--能否造就下一代霸主?

    推荐引擎未来的价值是否要比搜索引擎大?社交会成为推荐的主要推动力吗?还有哪些垂直领域可以Social起来?3月24日,在公关部举办的第三期"产品家"沙龙上,浪淘金CEO周杰.搜狗副 ...

  6. Just Waiting for You!个性化推荐带你领略不一样的算法之美

    2016年,SDCC·中国软件开发者大会相继走进了上海.深圳.成都.杭州各地.11月18日-20日将在北京完美收官,届时年度最受欢迎的企业.讲师将在这里齐聚一堂,约百位讲师将围绕电商架构.编程语言.前 ...

  7. 【恩墨学院】京东618大促网关承载十亿调用量背后的架构实践

    京东618大促网关承载十亿调用量背后的架构实践 王栋 京东618大促,其网关承载了几十亿的流量和调用,在这种情况下,网关系统必须保证整个系统的稳定性和高可用,保证高性能和可靠,以支撑业务.他们面临的是 ...

  8. 亿级流量背后战场,京东11.11大促全方位技术揭秘

    作为一名开发者,你经历过最可怕的流量是怎样的呢?对京东的这群架构师而言,京东11.11大促无疑是一场巨大的流量考验.摆在擂台上的是2715亿元的成交额,而在擂台背后,是一场关乎亿级.十亿级.百亿级流量 ...

  9. 盗号、薅羊毛、机器注册、恶意爬虫——618大促背后涌动的欺诈暗流

    又一年618年中大促,京东.天猫.拼多多都卯足了劲.不仅有满减红包.0点底价等折扣活动,更有真金白银补贴,以更大力度激活人们的消费热情和潜力,助力市场活跃度的恢复和提升. 电商购物节不仅是消费者的饕餮 ...

  10. 实战分享:从京东618数据井喷看大数据平台峰值处理制胜关键

    一.大数据综述 随着DT(数据技术)时代的到来,人们能比以往更容易地获取更丰富的数据.数据作为一种新的能源形式,正在源源不断地发挥其巨大的价值,帮助我们激发更多的技术驱动力,提供更优质的服务. 在京东 ...

最新文章

  1. Quickhit快速击键
  2. ACM图灵奖获得者:想从大数据中获益,先解决集成问题!
  3. Google 修补多项 Android 高危漏洞
  4. 我的WAF Bypass实战系列
  5. CTFshow 信息收集 web15
  6. ifm virtual check in part 2
  7. [LOJ500]ZQC的拼图
  8. Onew积极开拓国际市场,为全球用户提供全方位金融服务
  9. sparkstreaming 读取mysql_第十篇|SparkStreaming手动维护Kafka Offset的几种方式
  10. 更复杂的缓存穿透怎么解决
  11. vnc远程软件,四款值得使用的vnc远程软件推荐
  12. 关于增量模型和迭代模型的区别
  13. 物质模拟器4.0版 改了bug,爆炸时也可移动
  14. mysql导入表空间太慢_Oracle 11g统计表空间使用率很慢
  15. war包安装jenkins时报错
  16. 阿奇霉素联合甲泼尼龙治疗30例小儿难治性支原体肺炎的效果及安全性探讨
  17. 猫眼APP影院静态界面
  18. 北京联通201校园宽带详解与解除限制方法
  19. 东软 牛人学院 面试
  20. linux开启校时服务,NTP校时服务

热门文章

  1. 我在文心一言APP挑战宿管阿姨!打不赢,根本打不赢!
  2. 【转】欧盟物联网研究战略路线图(5)
  3. Effective java 总结7- 方法
  4. 教育O2O在学校落地,学堂在线瞄准混合式教学
  5. html5 球形选择,HTML5/SVG使用D3.js构建的随机球形(球幕)照片墙
  6. Python爬虫初级(一)—— Requests 库入门
  7. 广西有没有学计算机的学校,广西哪些大学有人工智能专业
  8. 内网渗透工具——Natapp的注册和使用
  9. JavaScript 案例--平年还是闰年
  10. 【JAVASE系列】四大内部类