CEPR: A Collaborative Exploration and Periodically Returning Model for Location Prediction

  • Abstract
    • Question
    • Method
    • Model
    • Answer
  • Introduction
    • 作者为什么研究这个课题?
    • 参考模型介绍
      • ① Friendship and mobility: user movement in location-based social networks
      • ② Modelling the scaling properties of human mobility
      • ③ A random walk around the city: New venue recommendation in location-based social networks.
      • ④ Exploiting geographical influence for collaborative point-of-interest recommendation.
    • Innovations and major contributions
  • 相关工作
    • 与现有工作的区别
    • 目前该课题研究进行到的阶段
    • 本文理论基于的假设
  • Conclusion
    • 这篇文章存在的缺陷
    • 作者关于这篇文章的构思
  • Table
    • 新位置预测推荐

Lian D , Xie X , Zheng V W , et al. CEPR: A Collaborative Exploration and Periodically Returning Model for Location Prediction[J]. ACM Transactions on Intelligent Systems and Technology, 2015, 6(1):1-27.

Abstract

Question

由于好奇心的作用,人们会倾向于去探索未去过,但符合个人喜好的地点,而现有的预测算法主要依赖于规则的移动模式。探索新的地点超出了规律,因此现有的预测算法面临着严峻的考验。即预测人们是否会寻找未访问过的地点访问,并向人们推荐这些地点。
如果我们设计新的推荐算法直接对规则性进行建模,它们为用户找到新的合适位置的能力就会减弱,因为这些模型不仅可能由于移动数据的稀缺而不能很好地估计用户之间的相似性,同时,推荐给用户的地点也被他们的同类用户的常规地点所影响。即设计一种既能对移动的规则性进行建模,又能很好估计用户间相似性的推荐算法

Method

预测人们是否会寻找未访问的地点来访问,当人们被预测为要进行性地点的探索后,再应用最先进的推荐算法以寻找最可能的访问地点。

Model

CEPR——基于一种新问题的协同探索以及定期返回的模型

Answer

对签入进行案例研究,并在两个大规模签入数据集上进行评估,分别有6M和36M记录。评估结果表明,EP在两个数据集上的分类错误率约为20%,大大优于基线,与传统的位置预测算法相比,CEPR的性能提高了30%。

Introduction

作者为什么研究这个课题?

① 智能手机的普及,定位技术的发展
② LBSN应用的普及
③ 准确的位置预测有很多积极的作用
④ 人们时常会表现出对新事物探索的倾向
⑤ 为了达到预测人们寻新倾向的目的
⑥ 为了预测人们是否会寻找未访问过的地点访问,并向人们推荐这些地点。
⑦ 为了设计一种既能对移动的规则性进行建模,又能很好估计用户间相似性的推荐算法

参考模型介绍

① Friendship and mobility: user movement in location-based social networks

分析Gowalla数据,发现的一些规律:

1.距离home越远,签到概率越小。但是超过100km时,概率随着距离变化基本不变;
2.好友关系会影响签到,并且强于签到对新好友关系形成的影响;
3.去好友去过的地方,距离越远,效果越强;
4.轨迹线越相似,好友概率越大;
5.用户签到周期性,用香农熵表示,越小,签到规律性越强;

② Modelling the scaling properties of human mobility

CTRW模型告诉我们,下一步探访新地点的概率与S成正比,其中S是不同的地点数量,γ>0是控制寻新倾向的参数。

③ A random walk around the city: New venue recommendation in location-based social networks.

首先,通过使用同时包含用户签到和社交联系的大规模数据集,我们的分析表明,在11个城市中,有60%至80%的用户访问位于过去30天内未曾访问的场所。
然后,我们表明,通过对用户移动性进行约束性假设,包括潜在空间模型在内的最新过滤算法不会产生高质量的推荐。
最后,我们提出了一种基于个性化随机遍历用户位置图的新模型,该模型通过无缝组合社交网络和场所访问频率数据,比其他模型获得了5%到18%的改善,为在基于位置的社交系统中推荐场所的新方法铺平了道路。

④ Exploiting geographical influence for collaborative point-of-interest recommendation.

为快速增长的基于位置的社交网络(LBSNs)提供兴趣点(POI)推荐服务,探索用户偏好、社会关系和位置关系的POI推荐。提出了一个统一的POI推荐框架,该框架将用户偏好与具有社会关系和位置关系的POI融合在一起。

③④两篇关于推荐的文章,利用协同过滤的社会关系和位置关系协助寻找合适的候选地点;否则,将使用一种既包含规律性又包含马尔可夫模型的传统预测算法来确定最可能的访问地点。当EP输出勘探趋势而不是完全准确的预测结果时,它们的输出可以一起插值。

针对③④两个模型,作者发现了两个缺点,并针对这两个缺点提出了改进方案:
1.从用户的活动区域推断 POI 的位置关系带来的影响是不必要的,因为它们的影响通常很小,因此很难出现在用户的候选列表中。
改进:直接执行二维核密度估计(KDE)来推断位置关系带来的影响,而不是假设幂律。
2.协同过滤的社会关系(包括用户偏好和社会影响)与位置关系带来的影响的整合是手动调整的,因此需要大量的人力。
改进:利用一个排序学习算法 (learning-to-rank )

Innovations and major contributions

① 作者提出了一个寻新倾向的预测问题,它预测用户的下一次访问是否是对未访问位置的探索,并将其归结为一个二元分类问题。作者进一步对签入进行了案例研究,并在两个分别为6M和36M的大型签入数据集上进行了评估。
结果表明,EP的分类错误率可达20%左右,大大优于两个数据集的基线。

② 提出了一种基于EP的协同勘探周期回归模型,该模型根据寻新倾向预测的结果,综合了位置推荐和预测算法。然后在前面提到的两个签入数据集上对其进行评估。结果表明,与传统的位置预测算法相比,CEPR算法在两个数据集上的预测效果都提高了30%。

③ 为了应对个人签到数量稀少和每个用户访问过的地点众多的挑战,作者利用核平滑(kernel smoothing)技术对给定地点的时间分布进行建模,并利用语言模型中广泛使用的高阶马尔可夫模型和低阶马尔可夫模型的插值(interpolation)技术来估计马尔可夫模型,它们都被进一步合并到HMM框架中。

④ 针对现有签入位置推荐算法存在的不足,我们提出了一些改进,包括减少计算位置关系的影响的时间复杂度和应用排序学习(learning-to-rank)算法来整合这些重要因素。

相关工作

与现有工作的区别

① 作者的工作不是针对在不寻常的时间访问常规地点,而是访问新的未访问过的地点。
② 它假设寻找新地点的概率不仅因人而异,而且随着时间的推移也会发生变化。
③ 它归结为一个二值分类问题,因此任何特征都可以很容易地合并。
④ 该模型是第一次应用于连接位置预测和位置推荐。

目前该课题研究进行到的阶段

到目前为止,我们已经看到了寻新倾向预测的效果,但寻新倾向预测的精度还不够高。
第一个可能的改进是使用更复杂的分类模型,例如kernel logistic 回归,它不仅具有自然的概率解释,而且可以处理非线性的特征。
第二个改进可能是提出更多的特性,例如,利用朋友寻找新鲜事物的偏好或个性化的时间偏好。除了对EP进行改进之外,还可以更好地利用其结果来将位置预测与推荐相结合,例如,除了现有的策略之外,尝试不同的集成策略。

本文理论基于的假设

① 由于与多巴胺系统有关的喜欢寻求新鲜感的人格特征,人们会表现出寻求新奇事物的倾向,即探索未经访问,但吸引他们的访问点.
② 平均而言,用户每天也会在新的(即以前未经检查的)位置登录超过35%的签到;考虑到每个用户的签到历史记录中有80%被观察到,在每个用户的未观察到的历史记录中的位置的签到占剩余签入的50%以上。由于这种行为的存在和超越规律性的存在,现有的预测算法将面临严峻的挑战。事实上,这种行为的预测不仅依赖于对求新倾向的预测,而且还依赖于如何确定那些未被发现的候选位置。
③ CTRW模型告诉我们,下一步探访新地点的概率与S成正比,其中S是不同的地点数量,γ>0是控制寻新倾向的参数。

Conclusion

这篇文章存在的缺陷

① 寻新倾向预测的精度还不够高.
② 现行策略的特性比较单一.

作者关于这篇文章的构思

① 使用kernel logistic 回归的分类模型,它不仅具有自然的概率解释,而且可以处理非线性的特征。

② 提出更多的特性,例如,利用朋友寻找新鲜事物的偏好或个性化的时间偏好。

通过以上两点来优化模型.

Table


寻新倾向预测评价。在(b)和(e)中,特征的相对重要性在Haste等人的方程式(10.42)中被提出。在(c)和(f)中,新访问位置被视为二分类中的正向类(也就是1),“HistTime”忽略了空间特征的影响,而 “ALL”则考虑了所有三种类型的特征。此外,c是将常规地点分类为新地点的损失与将新地点分类为常规地点的损失之比

Temporal:暂时的。 |时间特征
Spatial:受空间限制的。 |空间特征
Historial:历史的。 |历史特征

A与D比对观察
① 这三种类型的功能对于寻新倾向预测都是有效的,因为将最常用标签确定为签入位置的MostFrequent分类器的错误率分别在Gowalla和Jiepang上分别为0.42和0.49,并且高于所有三种类型分类的效果;
② 在比较三种不同类型的特征时,历史特征和空间特征的表现要优于时间特征,这意味着寻找新地点的概率不会随时间发生很大变化;
③ 这三种类型的特征是相辅相成的,因为每一个成对的组合都优于个体的组合,并且三种类型的特征的组合也优于任何其他配置;
④ 在三种类型的所有特征下,CART的性能均高于LR。 原因可能在于LR中的线性假设,这表明非线性分类器可能更适合寻新倾向的预测。 因此,它将用于以后的实验。
B与E比对观察
① 在Gowalla签到训练得出的模型中,先前位置的新颖性和先前签到的时间间隔扮演着更重要的角色。即在Gowalla上,用户更愿意不断探索。
② 用户熵(我认为是用户的无序混乱程度)在Jiepang中的比非常重要。这可能是由于人类在同一人群中的活动中追求新奇的多样性人格特征造成的。
③ 访问率对两个数据集都非常重要。因此,如果能提前知道下一次签到的实际位置,就能大大提高寻新倾向预测的精准度。
C与F的比对观察
c值越大,false-positive rate 和true-positive rate越小。特别是,当 false-positive rate在0.1左右时,在两个数据集的最佳情况下,使用所有特征和使用历史和时间特征(HistTime)的true-positive rate可以分别超过0.6和0.4。因此,为了更好地服务于位置预测和位置推荐之间的连接,需要仔细调整该参数。

True Positive (真正, TP)被模型预测为正的正样本;
True Negative(真负 , TN)被模型预测为负的负样本 ;
False Positive (假正, FP)被模型预测为正的负样本;即误报
False Negative(假负 , FN)被模型预测为负的正样本;即误报

ROC:接受者操作特性曲线是指在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标,以击中概率P(y/SN)为纵坐标,画得的各点的连线。

观察得出
① 规律性可以胜过HOD以及HOW和MostFreq。
② 没有任何平滑方法的马尔可夫模型比平滑马尔可夫模型差,甚至比MostFreq差。
③ 有回退的Markov比HPYP和Markov-S差。
④ Markov-S可与HPYP相媲美.
⑤ 将正则化和马尔可夫模型相结合的HMM框架优于每一个组成部分,但是与正则化相比,马尔可夫模型的优点是有限的。
本文还研究了距离前一位置对规则位置预测的影响实验结果表明,引入的距离并没有显著提高系统的性能.

新位置预测推荐

关于两个数据集上特征的不同配置的新位置的预测性能如图所示

基于用户的CF(U CF)、基于社会的CF(SC F)和密度(空间分布上的KDE)的组合,即USD.
该图表主要表明这些特征对新的位置预测是相辅相成的。

这些实验表明与常规位置预测(HMM)集成后,新颖的位置预测(推荐)CEPR可以很好地为整体提供预测服务。 将距离这一特征与HMM进行比较,尽管距离这一特征在新颖的位置预测中很重要,但远比HMM差。 这与常规位置预测中距离对HMM的重要贡献是兼容的。(这段话说明距离这一特征在CEPR中表现的并不没有HMM中那么突出,但这一特征对我们的需求是无关紧要的)

未完待续

深度解析论文CEPR: A Collaborative Exploration and Periodically Returning Model for Location Prediction相关推荐

  1. 深度解析论文 基于 LSTM 的 POI 个性化推荐框架

    基于 LSTM 的 POI 个性化推荐框架 Abstract Question Method Model Introduction 作者为什么研究这个课题? 参考模型介绍 ① word2vec ②CB ...

  2. 今晚8点开播 | 深度解析知识图谱发展关键阶段技术脉络

    作为知识图谱领域形成过程的亲历者之一,AI科技大本营此次邀请到文因互联 CEO 鲍捷,他将对知识图谱的历史渊源进行梳理,对该领域几次发展的主要技术突破做深度解析,并分析其工业落地的几个关键点.欢迎大家 ...

  3. 多目标跟踪算法FairMOT深度解析

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨周威@知乎 来源丨https://zhuanlan.zhihu.com/p/259356109 ...

  4. 科普|深度解析5G与未来天线技术

    来源:电子万花筒 过去二十年,我们见证了移动通信从1G到4G LTE的转变.在这期间,通信的关键技术在发生变化,处理的信息量成倍增长.而天线,是实现这一跨越式提升不可或缺的组件. 按照业界的定义,天线 ...

  5. 预训练模型:BERT深度解析《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

    目录 1. 背景 2. 什么是 Bert 及原理? 3. 论文内容<BERT: Pre-training of Deep Bidirectional Transformers for Langu ...

  6. Hologres揭秘:深度解析高效率分布式查询引擎

    简介:从阿里集团诞生到云上商业化,随着业务的发展和技术的演进,Hologres也在持续不断优化核心技术竞争力,为了让大家更加了解Hologres,我们计划持续推出Hologers底层技术原理揭秘系列, ...

  7. YOLO系列:YOLO v2深度解析 v1 vs v2

    概述 第一,在保持原有速度的优势之下,精度上得以提升.VOC 2007数据集测试,67FPS下mAP达到76.8%,40FPS下mAP达到78.6%,可以与Faster R-CNN和SSD一战 第二, ...

  8. yolov3损失函数改进_YOLO V3 深度解析 (下)

    1. 前言 距离上次YOLO V3深度解析(上) ,隔了很久了,其实自己忙着自己的论文+专利+学习任务,在写文章这块也是有点懈怠了,但是事儿不能做一半就结束了(也有小伙伴催更了),所以接着对YOLO ...

  9. [NLP自然语言处理]谷歌BERT模型深度解析

    BERT模型代码已经发布,可以在我的github: NLP-BERT--Python3.6-pytorch 中下载,请记得start哦 目录 一.前言 二.如何理解BERT模型 三.BERT模型解析 ...

最新文章

  1. 用Python分析了582个专业,1281个本科院校,告诉你怎么选择?
  2. Hystrix:HystrixCollapser请求合并
  3. python入门导引
  4. 爬虫进行request请求时User-Agent怎样写
  5. c语言打印树形图形,数据结构C语言版树形结构.ppt
  6. org.springframework.web.servlet.PageNotFound - No mapping found for HTTP request with URI
  7. excel导出_SpringBoot实现快速导出Excel
  8. idea创建web项目运行报404错误_使用IDEA新建Web工程启动报404的错误
  9. 从 Azure 下载 Windows VHD
  10. vue获取url中ip_Kubernetes 集群中这样获取客户端真实 IP
  11. 各大厂面试云集的《520道LeetCode题Java版答案》
  12. android外接键盘打汉字,外接键盘情况下,安卓打字不如windows
  13. 网络层-1、网络层功能概述
  14. 思考力——提升企业竞争力的核心因素
  15. js之win10计算器
  16. python开发app-如何用python写一个安卓APP?(上)
  17. 从神经搜索到多模态应用
  18. 浅谈一下个人基于IRIS后端业务开发框架的理解
  19. mysql扣减库存_扣库存之mysql方案讨论
  20. 高中数学一对一培训高中数学必修一知识点总结

热门文章

  1. win10中最常用快捷键大全
  2. android软键盘回车键改成完成按钮,Android修改软键盘回车键并监听
  3. 企业5S管理清扫阶段存在的问题的解决办法
  4. springboot集成mybatis实现数据库操作
  5. 车联网 python_车联网的数据存储怎样才安全?
  6. Java实现两种方式 RSA签名, RSA签名校验
  7. Undefined subroutine main::floor called
  8. C# 最全面透彻的RabbitMQ指南
  9. 习惯的力量:35岁以前养成好习惯
  10. 这篇文章告诉你pdf转图片软件有哪些,建议收藏