44 R关联分析——Apriori算法

install.packages("gridBase")
install.packages("arules")
install.packages("arulesViz")
install.packages("graphlayouts")library(gridBase)
library(arules)
library(arulesViz)#现有购买记录
tr_list=list(c("Bread", "Milk"),c("Bread", "Diaper", "Beer", "Eggs"),c("Milk","Diaper", "Beer", "Coke"),c("Bread", "Milk","Diaper","Beer"),c("Bread", "Milk", "Diaper","Coke"))#命名各个购物车
names(tr_list)=paste("tr",c(1:length(tr_list)),sep="")tr_list#调用as函数，将链表转化为事务类型
trans=as(tr_list,"transactions")
trans
summary(trans)#####展示事务
##使用LIST函数LIST(trans)###查看数据
inspect(trans)#调用image函数可视化检查事务数据
image(trans)trans@data
trans@data@i
trans@data@p
trans@itemInfo#data.frame model
trans@itemInfo$labels#factor  vector model
trans@itemsetInfo#data.frame model
trans@itemsetInfo$transactionID # shopping cart transactionID#查看每个篮子的商品个数
size(trans)###根据事务大小进行筛选filter_trans=trans[size(trans)>=3]
inspect(filter_trans)###将矩阵格式的数据转化为事务类型tr1=c(0,1,rep(0,3),1)
tr2=c(1,1,0,1,1,0)
tr3=c(1,0,1,1,0,1)
tr4=c(1,1,0,1,0,1)
tr5=c(0,1,1,1,0,1)tr_matrix=matrix(cbind(tr1,tr2,tr3,tr4,tr5),byrow=T,nrow=5)dimnames(tr_matrix)=list(paste("tr",c(1:nrow(tr_matrix)),sep=""),c("Bear","Bread","Coke","Diaper","Eggs","Milk"))
tr_matrix
trans2=as(tr_matrix,"transactions")
inspect(trans2)
trans2@data#将数据框类型的数据转换成事务类型
trID=c(rep(1,2),rep(2:5,each=4))
item=c("Bread", "Milk",
"Bread", "Diaper", "Beer", "Eggs",
"Milk","Diaper", "Beer", "Coke",
"Bread", "Milk","Diaper","Beer",
"Bread", "Milk", "Diaper","Coke")
tran=cbind(trID,item)
tran
trans3=as(tran,"transactionss")#错误做法 Wrong pratice#True
tr_df=as.data.frame(tran)
tr_df=as.data.frame(tran)tr_split=split(tr_df[,"item"],tr_df[,"trID"])
trans3=as(tr_split,"transactions")#也可以这样做
tr_dataf=data.frame(trID=c(rep(1,2),rep(2:5,each=4)),item=c("Bread", "Milk","Bread", "Diaper", "Beer", "Eggs","Milk","Diaper", "Beer", "Coke","Bread", "Milk","Diaper","Beer","Bread", "Milk", "Diaper","Coke"))
tr_dataf
trans4=as(split(tr_dataf[,"item"],tr_dataf[,"trID"]),"transactions")
trans4
inspect(trans4)as.data.frame(tr_dataf[,1])library(openxlsx)
#loading data
readt=read.xlsx("shoppingcart.xlsx")
readt#view data type
apply(readt,2,class)#Transform the data into a form that the apriori algorithm can process
trans5=as(split(readt[,"ProID"],readt[,"UserId"]),"transactions")
inspect(trans5)read2=read.transactions("shoppingcart2.csv",format="single",sep=",",cols=c("UserId","ProId"),header=T)inspect(read2)#When the examples don't have user ID ,you must use foemat="basket"
#read2=read.transactions("shoppingcart2.csv",format="basket",sep=",",cols=c("UserId","ProId"),skip=1)#############################################  remove spaces
# splitblank=function(x){
#   for (i in 1:length(read2[,2])) {
#
# a=unlist(strsplit(read2[,2][i],split=" "))
# b=which(a!="")
# c=paste(a[b],collapse = "")
# read2[,2][i]=c
#   }
#   read2[,2][2]
#
# }
#
# d=splitblank(read2[,2])
# read2
# e=vector()
# for (i in 1:length(read2[,2])){
# a=print(read2[,2][i])
# e=append(e,a)
# }
# e
# read2[,2]=e
# read2
# colnames(read2)[2]=e#View the support of each itemitemFrequency(trans,type="relative")
itemFrequency(trans,type="absolute")#Plot frequency/support bar chart,displays the set of related items for the item
itemFrequencyPlot(trans,col=c("orange","yellow","brown","green","tomato","violet"))#Use Eclat() mining frequency itemsets
freqsets=eclat(trans)
inspect(freqsets)#you also can add parameter restrictionsfrequentsets=eclat(trans,parameter = list(support=0.25,maxlen=10))
summary(frequentsets)
inspect(sort(frequentsets,by="support"))###generate association rules-------------------------------------------------------------------# n items,it has up to 2^n -1 items，up to 3^n-2^(n+1) rulesrules=apriori(trans,parameter =list(support=0.25,confidence=0.5,target="rules"))
inspect(rules)
summary(rules)#Sort rules according to confidence,and view some of the previous rulesrules.sorted=sort(rules,by="confidence",decreasing = T)
rules.sorted
inspect(rules.sorted)#Judge whether the rule is redundanceredundant=is.redundant(rules.sorted)redundant#Find redundant rules
rules.redundant=rules.sorted[redundant]
inspect(rules.redundant)#drop redundant rulesrules.pruned=rules.sorted[!redundant]
inspect(rules.pruned)#relation diagramsortrules=sort(rules,by="lift")
inspect(sortrules)### draw a picturelibrary(arulesViz)
plot(rules.pruned,measure="confidence",method="graph",control=list(type="items"),shading="lift")#interactive
plot(rules,measure = c("support","lift"),shading = "confidence",interactive = T)#View one rule
Milk_rule=apriori(data=trans,parameter = list(support=0.2,confidence=0.5,minlen=2),appearance = list(default="rhs",lhs="Milk"))
inspect(Milk_rule)plot(Milk_rule,by="lift",main="Milk_rule by lift",method="graph",control =list(type="items"))#Draw a balloon diagram of association rules,more than two rules can be drawnplot(c(rules.pruned,Milk_rule),main="Milk_rules by grouped")plot(c(rules.pruned,Milk_rule),method="grouped",main="Milk_rules by grouped")# Using Apriori algorithm to generate the right milk ruleRhs_Milk=apriori(data=trans,parameter = list(support=0.2,confidence=0.5,minlen=2),appearance = list(default="lhs",rhs="Milk"))inspect(Rhs_Milk)redundant1=is.redundant(Rhs_Milk)
Rhr=Rhs_Milk[!redundant1]
inspect(Rhr)install.packages("wordcloud2")
library(wordcloud2)

44 R关联分析——Apriori算法相关推荐

关联分析(Apriori算法) 面包牛奶尿布啤酒 ...
关联分析时,需要处理两个关键问题 1 大量数据集中发现模式,计算代价高 2 某些模式可能是虚假的,因为他们是偶然发生的关联分析例题:从这个商品记录得出顾客喜欢同时购买那几样东西 TID 面包牛奶 ...
数据挖掘之关联分析Apriori算法
文章目录一.理论知识 1.1.定义 1.2.关联规则 1.3.频繁项集的产生二.python实战一.理论知识许多商业企业在运营中积累了大量的数据.例如:普通超市的收银台每天都会收集到大量的用户 ...
关联分析——Apriori算法
Apriori 算法详解当我们在百度搜索里输入一个单词或单词一部分的时候,搜索引擎会自动补全查询词项,比如:输入"机器",百度下拉词项中就会出现"机器人编程" ...
【机器学习】关联分析Apriori算法详解以及代码实现
Apriori算法以及统计学基础什么是关联分析简单的统计学基础 Apriori输出频繁集从频繁项集中挖掘关联规则什么是关联分析从大规模数据集中寻找物品间的隐含关系被称作关联分析.而寻找物品的 ...
挖掘频繁模式、关联和Apriori算法
挖掘频繁模式.关联和Apriori算法 1. 引入 1.1 基本概念频繁模式:频繁出现在数据集中的模式频繁模式挖掘:获取到给定数据集中反复出现的联系注:模式其实可以理解为,你在淘宝购物,你的购物 ...
R语言使用apriori算法进行关联规则挖掘实战：关联规则概念、频繁项集、支持度（support）、置信度(confidence)、提升度(lift)、apriori算法
R语言使用apriori算法进行关联规则挖掘实战:关联规则概念.频繁项集.支持度(support).置信度(confidence).提升度(lift).apriori算法目录
apriori算法_挖掘频繁模式、关联和Apriori算法
挖掘频繁模式.关联和Apriori算法 1. 引入 1.1 基本概念频繁模式:频繁出现在数据集中的模式频繁模式挖掘:获取到给定数据集中反复出现的联系注:模式其实可以理解为,你在淘宝购物,你的购物 ...
关联分析Apriori算法和FP-growth算法初探
1. 关联分析是什么? Apriori和FP-growth算法是一种关联算法,属于无监督算法的一种,它们可以自动从数据中挖掘出潜在的关联关系.例如经典的啤酒与尿布的故事.下面我们用一个例子来切入本文对 ...
无监督学习-关联分析apriori原理与python代码
关联分析是一种无监督学习,它的目标就是从大数据中找出那些经常一起出现的东西,不管是商品还是其他什么 item,然后靠这些结果总结出关联规则以用于后续的商业目的或者其他项目需求. 关联分析原理那么这里 ...

44 R关联分析——Apriori算法

44 R关联分析——Apriori算法相关推荐

最新文章

热门文章