Slope one推荐算法原理

Mahout中Slope one的设计思路以及代码实现

先简单介绍下，Mahout是Apache的一个开源项目，由Lucene项目组和Hadoop项目组分离出来，它实现了推荐引擎中的大部分经典算法，有兴趣的朋友可以研究研究

首先我们需要基础数据，即用户对产品的评分，这部分数据可以来自数据库也可以来自文件，Mahout中对此设计了一个简单的数据库表，SQL如下：

CREATE TABLE taste_preferences (

user_id BIGINT NOT NULL ,

item_id BIGINT NOT NULL ,

preference FLOAT NOT NULL ,

PRIMARY KEY (user_id, item_id),

INDEX (user_id),

INDEX (item_id)

)

其次，Mahout在启动时，会对这部分数据进行处理，算出每对产品间的平均评分差值，已Map<ItemId, Map<ItemId, Average>>的数据结构存放在内存中（当然这帮牛人没有用Java中Map的实现，自己写了一个叫FastByIDMap的类）。处理基础数据的计算代码如下：

1. 首先获取所有评过分的用户id （7，而dataModel就是用于存放我上面提到的基础）

2. 然后依次计算每个用户评分过的产品间的平均评分差值（9，具体在processOneUser中实现）

private void buildAverageDiffs() throws TasteException {

log.info( "Building average diffs..." );

try {

buildAverageDiffsLock.writeLock().lock();

averageDiffs.clear();

long averageCount = 0L;

LongPrimitiveIterator it = dataModel.getUserIDs();

while (it.hasNext()) {

averageCount = processOneUser(averageCount, it.nextLong());

}

pruneInconsequentialDiffs();

updateAllRecommendableItems();

} finally {

buildAverageDiffsLock.writeLock().unlock();

}

3. 首先取出该用户所有评分过的项目和评分值（4）

4. 依次计算这些项目间的平均评分差值（6 ~ 26），并存储在内存中。

private long processOneUser( long averageCount, long userID) throws TasteException {

log.debug( "Processing prefs for user {}" , userID);

// Save off prefs for the life of this loop iteration

PreferenceArray userPreferences = dataModel.getPreferencesFromUser(userID);

int length = userPreferences.length();

for ( int i = 0 ; i < length - 1 ; i++) {

float prefAValue = userPreferences.getValue(i);

long itemIDA = userPreferences.getItemID(i);

FastByIDMap<RunningAverage> aMap = averageDiffs.get(itemIDA);

if (aMap == null ) {

aMap = new FastByIDMap<RunningAverage>();

averageDiffs.put(itemIDA, aMap);

}

for ( int j = i + 1 ; j < length; j++) {

// This is a performance-critical block

long itemIDB = userPreferences.getItemID(j);

RunningAverage average = aMap.get(itemIDB);

if (average == null && averageCount < maxEntries) {

average = buildRunningAverage();

aMap.put(itemIDB, average);

averageCount++;

}

if (average != null ) {

average.addDatum(userPreferences.getValue(j) - prefAValue);

}

RunningAverage itemAverage = averageItemPref.get(itemIDA);

if (itemAverage == null ) {

itemAverage = buildRunningAverage();

averageItemPref.put(itemIDA, itemAverage);

}

itemAverage.addDatum(prefAValue);

}

return averageCount;

}

以上是启动时做的事，而当某个用户来了，需要为他计算推荐列表时，就快速许多了（是一个空间换时间的思想），下面的方法是某一个用户对其某一个他未评分过的产品的推荐值，参数UserId：用户ID；ItemId：为评分的产品ID

1. 再次取出该用户评分过的所有产品（4）：PreferenceArray prefs中保存着ItemID和该用户对它的评分

2. 取得上一步得到的prefs中的所有物品与itemID代表的物品之间的平均评分差值（5），其中

DiffStoragediffStorage对象中存放中每对产品间的平均评分差值（而上面启动时的计算都是在

MySQLJDBCDiffStorage中实现的，计算后的值也存于其中，它是DiffStorage接口的实现），所以

取得的流程很简单，这里不贴代码了

3. 最后就是依次推算评分过的产品到未评分的产品的一个推荐值 = 平均评分差值（两者间的） + 已评分的分值（用

户对其中一个评分），然后将这些推荐值取个平均数（7 ~ 37），其中11行判断是否要考虑权重。

private float doEstimatePreference( long userID, long itemID) throws TasteException {

double count = 0.0 ;

double totalPreference = 0.0 ;

PreferenceArray prefs = getDataModel().getPreferencesFromUser(userID);

RunningAverage[] averages = diffStorage.getDiffs(userID, itemID, prefs);

int size = prefs.length();

for ( int i = 0 ; i < size; i++) {

RunningAverage averageDiff = averages[i];

if (averageDiff != null ) {

double averageDiffValue = averageDiff.getAverage();

if (weighted) {

double weight = averageDiff.getCount();

if (stdDevWeighted) {

double stdev = ((RunningAverageAndStdDev) averageDiff).getStandardDeviation();

if (!Double.isNaN(stdev)) {

weight /= 1.0 + stdev;

}

// If stdev is NaN, then it is because count is 1. Because we're weighting by count,

// the weight is already relatively low. We effectively assume stdev is 0.0 here and

// that is reasonable enough. Otherwise, dividing by NaN would yield a weight of NaN

// and disqualify this pref entirely

// (Thanks Daemmon)

}

totalPreference += weight * (prefs.getValue(i) + averageDiffValue);

count += weight;

} else {

totalPreference += prefs.getValue(i) + averageDiffValue;

count += 1.0 ;

}

if (count <= 0.0 ) {

RunningAverage itemAverage = diffStorage.getAverageItemPref(itemID);

return itemAverage == null ? Float.NaN : ( float ) itemAverage.getAverage();

} else {

return ( float ) (totalPreference / count);

}

Slope one 的源码已分析完毕。

其实Slope one推荐算法很流行，被很多网站使用，包括一些大型网站；我个人认为最主要的原因是它具备如下优势：

1. 实现简单并且易于维护。

2. 响应即时（只要用户做出一次评分，它就能有效推荐，根据上面代码很容易理解），并且用户的新增评分对推荐数据的改变量较小，应为在内存中存储的是物品间的平均差值，新增的差值只需累加一下，且范围是用户评分过的产品。

3. 由于是基于项目的协同过滤算法，适用于当下火热的电子商务网站，原因电子商务网站用户量在几十万到上百万，产品量相对于之则要小得多，所以对产品归类从性能上讲很高效。

Slope one推荐算法原理相关推荐

搜狐新闻推荐算法原理 | “呈现给你的，都是你所关心的”
导读在当前这个移动互联网时代,各种信息内容爆炸,面对海量数据,用户希望在有限的时间和空间内,找到自己感兴趣的内容,这就是推荐需要解决的问题.接下来主要讲解新闻推荐的算法原理. 01.新闻推荐算法架构 ...
3分钟了解今日头条推荐算法原理
今日头条的内容分发算法一直颇神秘低调.自12年开发运营起进四次改版,从未透露核心内容. 2018年1月,今日头条资深算法架构师曹欢欢博士,终于首次公开今日头条的算法原理,以期推动整个行业问诊算法.建言 ...
今日头条推荐算法原理全文详解之一
本次分享将主要介绍今日头条推荐系统概览以及内容分析.用户标签.评估分析,内容安全等原理. 今日头条推荐算法原理全文详解今日头条数据分析产品经理产品好文分享第1张一.系统概览推荐系统,如 ...
基于用户的协同过滤推荐算法原理和实现分析
本文转载自nieson 基于用户的协同过滤推荐算法原理和实现在推荐系统众多方法中,基于用户的协同过滤推荐算法是最早诞生的,原理也较为简单.该算法1992年提出并用于邮件过滤系统,两年后1994年被 ...
抖音推荐算法原理全文详解
阅读目录一.系统概览二.内容分析三.用户标签四.评估分析五.内容安全抖音推荐算法原理全文详解本次分享将主要介绍今日头条推荐系统概览以及内容分析.用户标签.评估分析,内容安全等原理. 回到 ...
今日头条推荐算法原理全文详解之四
三.用户标签内容分析和用户标签是推荐系统的两大基石.内容分析涉及到机器学习的内容多一些,相比而言,用户标签工程挑战更大. 今日头条推荐算法原理全文详解今日头条数据分析产品经理产品好文分享 ...
欧几里得最短距离公式_推荐算法原理（二）欧几里得距离计算物品间相似度
在上篇文章中介绍了如何利用余弦定理计算两个物品间的相似度:KiKlaus:推荐算法原理(一)余弦定理计算物品间相似度zhuanlan.zhihu.com 这种计算方法虽然简单,但是在衡量空间两个向量 ...
万字长文揭秘今日头条、抖音的推荐算法原理！
点击上方"开发者技术前线",选择"星标" 18:50 在看真爱来自:今日头条编辑:可可 www.toutiao.com/a6511211182064402 ...
常见的推荐算法原理介绍
常见的推荐算法原理介绍,随着互联网的发展短视频运营越来越精准化,我们身边常见的抖音.火山小视频等软件让你刷的停不下来,这些软件会根据你的浏览行为推荐你感兴趣的相关内容,这就用到了很多推荐算法在里面. ...

Slope one推荐算法原理

推荐算法Slope one的原理

Mahout中Slope one的设计思路以及代码实现

Slope one推荐算法原理相关推荐

最新文章

热门文章

User	Rating to Item 1	Rating to Item 2
X	5	3
Y	4	3
A	4	?