推荐算法Slope one的原理

Slope One的基本概念很简单, 例子1, 用户X, Y和A都对Item1打了分. 同时用户X,Y还对Item2打了分, 用户A对Item2可能会打多少分呢?

User Rating to Item 1 Rating to Item 2
X 5 3
Y 4 3
A 4 ?

根据SlopeOne算法, 应该是:4 - ((5-3) + (4-2))/2 = 2.5. 
解释一下. 用户X对Item1的rating是5, 对Item2的rating是3, 那么他可能认为Item2应该比Item1少两分. 同时用户Y认为Item2应该比Item1少1分. 据此我们知道所有对Item1和Item2都打了分的用户认为Item2会比Item1平均少1.5分. 所以我们有理由推荐用户A可能会对Item2打(4-1.5)=2.5分;

很简单是不是? 找到对Item1和Item2都打过分的用户, 算出rating差的平均值, 这样我们就能推测出对Item1打过分的用户A对Item2的可能Rating, 并据此向A用户推荐新项目.
这里我们能看出Slope One算法的一个很大的优点, 在只有很少的数据时候也能得到一个相对准确的推荐, 这一点可以解决Cold Start的问题.

加权算法
接下来我们看看加权算法(Weighted Slope One). 如果有100个用户对Item1和Item2都打过分, 有1000个用户对Item3和Item2也打过分. 显然这两个rating差的权重是不一样的. 因此我们的计算方法是
(100*(Rating 1 to 2) + 1000(Rating 3 to 2)) / (100 + 1000)

上面讨论的是用户只对项目的喜好程度打分.还有一种情况下用户也可以对项目的厌恶程度打分. 这时可以使用双极SlopeOne算法(BI-Polar SlopeOne).

以上是Slope one的原理,接下来看看它在Mahout中是如何设计与实现的。

Mahout中Slope one的设计思路以及代码实现

先简单介绍下,Mahout是Apache的一个开源项目,由Lucene项目组和Hadoop项目组分离出来,它实现了推荐引擎中的大部分经典算法,有兴趣的朋友可以研究研究 

首先我们需要基础数据,即用户对产品的评分,这部分数据可以来自数据库也可以来自文件,Mahout中对此设计了一个简单的数据库表,SQL如下:

?
1
2
3
4
5
6
7
8
CREATE TABLE taste_preferences (
     user_id BIGINT NOT NULL ,
     item_id BIGINT NOT NULL ,
     preference FLOAT NOT NULL ,
     PRIMARY KEY (user_id, item_id),
     INDEX (user_id),
     INDEX (item_id)
)

其次,Mahout在启动时,会对这部分数据进行处理,算出每对产品间的平均评分差值,已Map<ItemId, Map<ItemId, Average>>的数据结构存放在内存中(当然这帮牛人没有用Java中Map的实现,自己写了一个叫FastByIDMap的类)。处理基础数据的计算代码如下:

1. 首先获取所有评过分的用户id (7,而dataModel就是用于存放我上面提到的基础)

2. 然后依次计算每个用户评分过的产品间的平均评分差值 (9,具体在processOneUser中实现)

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
private void buildAverageDiffs() throws TasteException {
    log.info( "Building average diffs..." );
    try {
      buildAverageDiffsLock.writeLock().lock();
      averageDiffs.clear();
      long averageCount = 0L;
      LongPrimitiveIterator it = dataModel.getUserIDs();
      while (it.hasNext()) {
        averageCount = processOneUser(averageCount, it.nextLong());
      }
      
      pruneInconsequentialDiffs();
      updateAllRecommendableItems();
      
    } finally {
      buildAverageDiffsLock.writeLock().unlock();
    }
  }

3. 首先取出该用户所有评分过的项目和评分值(4)

4. 依次计算这些项目间的平均评分差值(6 ~ 26),并存储在内存中。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
private long processOneUser( long averageCount, long userID) throws TasteException {
     log.debug( "Processing prefs for user {}" , userID);
     // Save off prefs for the life of this loop iteration
     PreferenceArray userPreferences = dataModel.getPreferencesFromUser(userID);
     int length = userPreferences.length();
     for ( int i = 0 ; i < length - 1 ; i++) {
       float prefAValue = userPreferences.getValue(i);
       long itemIDA = userPreferences.getItemID(i);
       FastByIDMap<RunningAverage> aMap = averageDiffs.get(itemIDA);
       if (aMap == null ) {
         aMap = new FastByIDMap<RunningAverage>();
         averageDiffs.put(itemIDA, aMap);
       }
       for ( int j = i + 1 ; j < length; j++) {
         // This is a performance-critical block
         long itemIDB = userPreferences.getItemID(j);
         RunningAverage average = aMap.get(itemIDB);
         if (average == null && averageCount < maxEntries) {
           average = buildRunningAverage();
           aMap.put(itemIDB, average);
           averageCount++;
         }
         if (average != null ) {
           average.addDatum(userPreferences.getValue(j) - prefAValue);
         }
       }
       RunningAverage itemAverage = averageItemPref.get(itemIDA);
       if (itemAverage == null ) {
         itemAverage = buildRunningAverage();
         averageItemPref.put(itemIDA, itemAverage);
       }
       itemAverage.addDatum(prefAValue);
     }
     return averageCount;
   }

以上是启动时做的事,而当某个用户来了,需要为他计算推荐列表时,就快速许多了(是一个空间换时间的思想),下面的方法是某一个用户对其某一个他未评分过的产品的推荐值,参数UserId:用户ID;ItemId:为评分的产品ID

1. 再次取出该用户评分过的所有产品(4):PreferenceArray prefs中保存着ItemID和该用户对它的评分

2. 取得上一步得到的prefs中的所有物品与itemID代表的物品之间的平均评分差值(5),其中

DiffStoragediffStorage对象中存放中每对产品间的平均评分差值(而上面启动时的计算都是在

MySQLJDBCDiffStorage中实现的,计算后的值也存于其中,它是DiffStorage接口的实现),所以

取得的流程很简单,这里不贴代码了

3. 最后就是依次推算评分过的产品到未评分的产品的一个推荐值 = 平均评分差值(两者间的) + 已评分的分值(用

户对其中一个评分),然后将这些推荐值取个平均数(7 ~ 37),其中11行判断是否要考虑权重。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
private float doEstimatePreference( long userID, long itemID) throws TasteException {
     double count = 0.0 ;
     double totalPreference = 0.0 ;
     PreferenceArray prefs = getDataModel().getPreferencesFromUser(userID);
     RunningAverage[] averages = diffStorage.getDiffs(userID, itemID, prefs);
     int size = prefs.length();
     for ( int i = 0 ; i < size; i++) {
       RunningAverage averageDiff = averages[i];
       if (averageDiff != null ) {
         double averageDiffValue = averageDiff.getAverage();
         if (weighted) {
           double weight = averageDiff.getCount();
           if (stdDevWeighted) {
             double stdev = ((RunningAverageAndStdDev) averageDiff).getStandardDeviation();
             if (!Double.isNaN(stdev)) {
               weight /= 1.0 + stdev;
             }
             // If stdev is NaN, then it is because count is 1. Because we're weighting by count,
             // the weight is already relatively low. We effectively assume stdev is 0.0 here and
             // that is reasonable enough. Otherwise, dividing by NaN would yield a weight of NaN
             // and disqualify this pref entirely
             // (Thanks Daemmon)
           }
           totalPreference += weight * (prefs.getValue(i) + averageDiffValue);
           count += weight;
         } else {
           totalPreference += prefs.getValue(i) + averageDiffValue;
           count += 1.0 ;
         }
       }
     }
     if (count <= 0.0 ) {
       RunningAverage itemAverage = diffStorage.getAverageItemPref(itemID);
       return itemAverage == null ? Float.NaN : ( float ) itemAverage.getAverage();
     } else {
       return ( float ) (totalPreference / count);
     }
   }

Slope one 的源码已分析完毕。

其实Slope one推荐算法很流行,被很多网站使用,包括一些大型网站;我个人认为最主要的原因是它具备如下优势:

1. 实现简单并且易于维护。

2. 响应即时(只要用户做出一次评分,它就能有效推荐,根据上面代码很容易理解),并且用户的新增评分对推荐数据的改变量较小,应为在内存中存储的是物品间的平均差值,新增的差值只需累加一下,且范围是用户评分过的产品。

3. 由于是基于项目的协同过滤算法,适用于当下火热的电子商务网站,原因电子商务网站用户量在几十万到上百万,产品量相对于之则要小得多,所以对产品归类从性能上讲很高效。

Slope one推荐算法原理相关推荐

  1. 搜狐新闻推荐算法原理 | “呈现给你的,都是你所关心的”

    导读 在当前这个移动互联网时代,各种信息内容爆炸,面对海量数据,用户希望在有限的时间和空间内,找到自己感兴趣的内容,这就是推荐需要解决的问题.接下来主要讲解新闻推荐的算法原理. 01.新闻推荐算法架构 ...

  2. 3分钟了解今日头条推荐算法原理

    今日头条的内容分发算法一直颇神秘低调.自12年开发运营起进四次改版,从未透露核心内容. 2018年1月,今日头条资深算法架构师曹欢欢博士,终于首次公开今日头条的算法原理,以期推动整个行业问诊算法.建言 ...

  3. 今日头条推荐算法原理全文详解之一

    本次分享将主要介绍今日头条推荐系统概览以及内容分析.用户标签.评估分析,内容安全等原理. 今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第1张 一.系统概览 推荐系统,如 ...

  4. 基于用户的协同过滤推荐算法原理和实现分析

    本文转载自nieson  基于用户的协同过滤推荐算法原理和实现 在推荐系统众多方法中,基于用户的协同过滤推荐算法是最早诞生的,原理也较为简单.该算法1992年提出并用于邮件过滤系统,两年后1994年被 ...

  5. 抖音推荐算法原理全文详解

    阅读目录 一.系统概览 二.内容分析 三.用户标签 四.评估分析 五.内容安全 抖音推荐算法原理全文详解 本次分享将主要介绍今日头条推荐系统概览以及内容分析.用户标签.评估分析,内容安全等原理. 回到 ...

  6. 今日头条推荐算法原理全文详解之四

    三.用户标签 内容分析和用户标签是推荐系统的两大基石.内容分析涉及到机器学习的内容多一些,相比而言,用户标签工程挑战更大. 今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 ...

  7. 欧几里得最短距离公式_推荐算法原理(二)欧几里得距离计算物品间相似度

    在上篇文章中介绍了如何利用余弦定理计算两个物品间的相似度:KiKlaus:推荐算法原理(一)余弦定理计算物品间相似度​zhuanlan.zhihu.com 这种计算方法虽然简单,但是在衡量空间两个向量 ...

  8. 万字长文揭秘今日头条、抖音的推荐算法原理!

    点击上方"开发者技术前线",选择"星标" 18:50 在看 真爱 来自:今日头条 编辑:可可 www.toutiao.com/a6511211182064402 ...

  9. 常见的推荐算法原理介绍

    常见的推荐算法原理介绍,随着互联网的发展短视频运营越来越精准化,我们身边常见的抖音.火山小视频等软件让你刷的停不下来,这些软件会根据你的浏览行为推荐你感兴趣的相关内容,这就用到了很多推荐算法在里面. ...

最新文章

  1. Docker + FastDFS + Spring Boot 一键式搭建分布式文件服务器
  2. python3 pyinstaller 打包后执行文件运行错误 No such file or directory 和 Cannot load native module 解决方法
  3. Winform判断一个窗口是否以模态化方式打开
  4. 【Python】学习笔记五:缩进与选择
  5. linux怎么看日期,linux 怎么用命令查看日期
  6. Spring mvc中自定义拦截器
  7. Linux下gcc编译器的使用
  8. React 深入学习:React 更新队列
  9. 1.15-1.16 sqoop action
  10. mysql不带加密模式jar包_Spring boot jar包加密(防止放在客户端反编译)
  11. 艾伟:WM有约(一):你好,CF
  12. 文件共享服务器 -----ftp服务一
  13. 学生成绩管理系统 需求规格说明书
  14. 拼多多商品详情接口、拼多多商品基本信息、拼多多商品属性接口
  15. Blender物理效果教学:如何自制“牛顿摆”
  16. uva 12307(点集的外接矩形)
  17. NYOJ-599-奋斗的小蜗牛-2013年11月4日22:22:22
  18. C++ Learning 3
  19. 四极管:IIC之AVR 24c64读写
  20. jsp页面之间传值总结

热门文章

  1. 各种主板进入bios的方法汇总
  2. 海鸥表表带太长了怎么拆_手表表带长了怎么办?手表长了怎么拆
  3. 鸿蒙归蝶的反弹,《诛仙2》蒙鸿试炼副本详细攻略
  4. 【紫光同创logos2 FPGA PCIe软件栈设计】
  5. vue 对象继承_JS继承的实现方式
  6. 解决html2canvas截图不全问题
  7. 2022锦江行——非繁城品:疫情之下,存量酒店的突围之道
  8. java网页数据采集器
  9. Android多媒体之照相、录音、录像之视图横拉
  10. 深度学习在省钱快报推荐排序中的应用与实践