regnam r语言_R语言分析上海日料店价格和评价之前的联系
一.前期数据准备,爬去大众点评上日料的数据,包括,价格,口味,环境,服务,
代码如下:
hy1
left
right
for(i in 1:length(name)){
name[i]
}
name
}
myheader
"User-Agent"="Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) ",
"Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Language"="en-us",
"Connection"="keep-alive",
"Accept-Charset"="GB2312,utf-8;q=0.7,*;q=0.7"
)
library(XML)
library(bitops)
library(RCurl)
date_all
for (j in 1:50){
url
temp
k
name1
left",name1)
right",name1)
for(i in 1:length(left)){
name1[i]
}
name
price1
price")
price
taste1
taste","")
taste
environment1
environment","")
environment
service1
service","")
service
address1
address","")
if (length(name)==length(price)&length(price)==length(taste)&length(taste)==length(environment)&length(environment)==length(service))
{
date_0105
date_all
}
else { print(paste("can't get page",j)) }
}
最终获得一个数据框 数据分别为
name price taste environment service
二.数据分析
1 散点图
library(ggplot2)
hy1
hy1
ggplot(hy1,aes(x=taste,y=price))+geom_point()
2.频率直方图
library(ggplot2)
hy2
ggplot(hy2,aes(x=price))+geom_histogram(binwidth=20,fill="white",colour="black")
3.数据概览
summary(hy0106$price)
#Min. 1st Qu. Median Mean 3rd Qu. Max.
#141.0 168.0 209.0 294.1 315.0 2714.0发现price数据主要集中在209,而且发现日料人均最低都141元,大部分还是209元,还是可以接受的,至于最大的2714元,可能就不是仅仅吃个日料那么简单了。
三.可以进行稍微高级的数据分析(比如探讨下是否价格越高,服务就越好呢)
1.
hy0107
hy2
hy2
hy2$score
ggplot(hy2,aes(x=foodclass,y=score))+geom_boxplot()观察上面的箱线图,发现日本菜和火锅的普遍评价最好。但是西餐和日本菜一些异常评价(评分很低)是最对的。所以去吃日本菜是要谨慎点哈。
2.做一下价格和评价的回归分析
lm_hy
summary(lm_hy)
Call:
lm(formula = price ~ score, data = hy2)
Residuals:
Min 1Q Median 3Q Max
-289.1 -219.5 -138.3 65.8 4770.9
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 447.73 186.20 2.405 0.0165 *
score 16.07 22.34 0.719 0.4721
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 424.3 on 688 degrees of freedom
Multiple R-squared: 0.0007517,Adjusted R-squared: -0.0007007
F-statistic: 0.5176 on 1 and 688 DF, p-value: 0.4721可以看到 p值是0.47 ,远大于0.05,所以价格和评价的相关性不强。
3.检验价格,评价是不是服从正太分布,这里我们有两种方法检验
3.1 Shapiro–Wilk 检测
>shapiro.test(hy2$score
Shapiro-Wilk normality test
data: hy2$score
W = 0.9302, p-value < 2.2e-16
可以看到 P值是远远小于0.05,故得分不服从正太分布
3.2 Pearson 卡方检验
先分组和计数
X
> summary(X)
Min. 1st Qu. Median Mean 3rd Qu. Max.
304.0 364.0 446.5 581.2 649.0 5367.0
> A
p
p
> chisq.test(A,p=p)
Chi-squared test for given probabilities
data: A
X-squared = Inf, df = 9, p-value < 2.2e-16可以看到 P值是远远小于0.05,故价格也不服从正太分布
regnam r语言_R语言分析上海日料店价格和评价之前的联系相关推荐
- java计算机毕业设计喜枫日料店自助点餐系统源码+系统+数据库+lw文档+mybatis+运行部署
java计算机毕业设计喜枫日料店自助点餐系统源码+系统+数据库+lw文档+mybatis+运行部署 java计算机毕业设计喜枫日料店自助点餐系统源码+系统+数据库+lw文档+mybatis+运行部署 ...
- JAVA毕设项目喜枫日料店自助点餐系统(java+VUE+Mybatis+Maven+Mysql)
JAVA毕设项目喜枫日料店自助点餐系统(java+VUE+Mybatis+Maven+Mysql) 项目运行 环境配置: Jdk1.8 + Tomcat8.5 + Mysql + HBuilderX( ...
- java计算机毕业设计喜枫日料店自助点餐系统源代码+数据库+系统+lw文档
java计算机毕业设计喜枫日料店自助点餐系统源代码+数据库+系统+lw文档 java计算机毕业设计喜枫日料店自助点餐系统源代码+数据库+系统+lw文档 本源码技术栈: 项目架构:B/S架构 开发语言: ...
- JAVA计算机毕业设计喜枫日料店自助点餐系统(附源码、数据库)
JAVA计算机毕业设计喜枫日料店自助点餐系统(附源码.数据库) 目运行 环境项配置: Jdk1.8 + Tomcat8.5 + Mysql + HBuilderX(Webstorm也行)+ Eclis ...
- java计算机毕业设计喜枫日料店自助点餐系统源码+数据库+lw文档+系统+部署
java计算机毕业设计喜枫日料店自助点餐系统源码+数据库+lw文档+系统+部署 java计算机毕业设计喜枫日料店自助点餐系统源码+数据库+lw文档+系统+部署 本源码技术栈: 项目架构:B/S架构 开 ...
- 【附源码】计算机毕业设计SSM喜枫日料店自助点餐系统
项目运行 环境配置: Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclis ...
- CSDN ARIMA R语言_R语言实现Fleiss#39; Kappa系数处理多个观察者一致性检验
Fleiss' kappa系数.该检验适用于分析重复测量3次及以上且测量结果是无序分类变量的重测一致性或观察者一致性检验.SPSS没有内置操作模块,但可以通过拓展包输出结果.Fleiss' kappa ...
- r roc曲线 语言_R语言系列6:生存分析中多重时间依赖性ROC曲线绘制 timeROC
上一篇文章,我们讲到R语言实现Cox回归生存预测模型构建,以及如何将Logistic回归中,多条ROC曲线绘制在一个图里 今天主要围绕生存分析中,预测模型验证部分,如何将多条time-depend e ...
- 包r语言_R语言入门之寻找你的R包
关于寻找目标R包,一般可以在官网利用关键词搜索即可获得相关信息,不过米老鼠在这里想给大家介绍一个特别的R包,它可以帮助你寻找你想要的理想R包. 不过,在正式讲解,我想和大家提醒一下安装R包的注意事项: ...
最新文章
- java 打破双亲委派_JVM - 打破双亲委派机制(模拟热加载)
- 传统公司部署OpenStack(t版)简易介绍(八)——Dashboard模块部署
- 【java并发编程艺术学习】(一)初衷、感想与笔记目录
- 即时通讯学习笔记001---XMPP了解认知
- 每个人都有自己的一套投资方法,你买基金的投资战略方法是什么?
- Input禁用文本框
- 芯片巨头三国杀:AI加剧芯片厂商间竞赛,英特尔、英伟达、AMD竞相发力
- linux安装python3.7
- python负数字符串转成_python 转字符
- 青岛市中小学学籍系统服务器,全国各省市中小学学籍网登录入口
- 服务器C盘内存不足,发现C盘TEMP文件夹占用44G
- 厦大C语言上机1382
- python gpu加速库比matlab快吗_Python之Unittest和Requests库详解
- 糅合了《魔兽》和《第二人生》优点的新式游戏闪亮登场!
- 关于VMware虚拟机中调节图标字体大小
- 什么是mes?它的功能有哪些?
- 中国人越来越不愿买新车!二手车电商上半年融资150亿元,谁是大赢家?
- 【初码干货】使用阿里云开放搜索服务快速搭建资源搜索网站
- CloudComparePCL 基于FPFH特征的SAC-IA算法
- 6月书讯:最受欢迎的SQL入门书重磅升级