本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

以下文章来源于乡村四十二,作者至善

背景

最近在调研电商平台黑猪肉市场需求情况,电商平台有效的用户评论,可以用来辅助理解客户需求。

下面对网易未央的一款猪肉评论进行抓取,并做简单分析。

网页分析

京东商城的信息储存在JSON里面,我们首先要找到储存评论的JSON。

使用谷歌浏览器,点击检查—Network,刷新进入,搜索发现储存评论的网址。

第一个网页链接打开后,发现搜索错了,并非是评论储存的地方。我们继续往下找,如下图所示的便是商品评论储存的地方了。观察URL,最后一个数字是“1”,表示评论的页数。我们可以通过for循环,爬取需要的数据。

代码如下

import urllib.request
import json
import time
import xlwt# 爬取评论信息page = int(input('请输入爬取的结束页码:'))
for i in range(0,page):print('第%s页开始爬取'%(i+1))url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=5461917&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'url = url.format(i)headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_0_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36','Referer': 'https://item.jd.com/'}request = urllib.request.Request(url=url,headers=headers)content = urllib.request.urlopen(request).read().decode('gbk')content = content.strip('fetchJSON_comment98vv385();')obj = json.loads(content)comments = obj['comments']fp = open('京东.text','a',encoding='utf8')for comment in comments:#评论内容contents = comment['content']item = {# '评论时间': creationTime,# '用户': nickname,'评论内容': contents,}string = str(item)fp.write(string + '\n')print('第%s页完成' %(i+1))time.sleep(2)fp.close()

分析结论

因需要分析的是“评论内容”,所以未爬取“评论时间”,“用户”等信息。

爬取得完后,常规操作是利用Matplotlib、Pandas等进行数据分析及可视化,现在我们用最简单的词频统计工具分析,后面学会了这些工具,在完善。

此次爬取了200页,总共2000条的评论,生成的词云如下:

从中可以得出用户购买猪肉关注的点:味道、价格、送货速度、外观、健康、售后服务、服务稳定性。这些指标在一定程度为生产经营提供了方向性参考,当然还需要进一步把这些指标拆解成具体的行动。

爬取某东购买猪肉的用户评论,为生产经营提供了方向性参考相关推荐

  1. 爬取Google Play中app的用户评论(2)

    我遇到的下一个困难是如何爬取完整的用户评论 如图,很多评论都是折叠起来的  要是想直接获取完整的用户评论,最后只能得到空值 于是我尝试另外写一个方法来获取完整的评论  结果不尽人意 然后我看书上的实例 ...

  2. python爬取去哪网数据_用户观点:企查查数据爬取技术与Python 爬取企查查数据...

    主体数据来源是全国工商信用网但是每个省的工商系统都不同,要针对每个省的工商系统单独写爬虫每个省的验证码也不同,也要单独做.企查查的原理不是主动爬去数据,而是有人查询该企业时,如果自己的数据库没有该企业 ...

  3. python 爬取直播弹幕视频_调用斗鱼API爬取直播间弹幕信息(用户昵称及弹幕内容)...

    调用斗鱼API爬取直播间弹幕信息(用户昵称及弹幕内容) 查看<斗鱼弹幕服务器第三方接入协议v1.4.1>,了解斗鱼API的使用方法,即如何连接斗鱼弹幕服务器.维持连接及获取弹幕信息 Pyt ...

  4. 爬虫项目实战一:基于Scrapy+MongDB爬取并存储糗事百科用户信息

    爬虫项目实战一:基于Scrapy+MongDB爬取并存储糗事百科用户信息 一.前言 二.项目目标 三.项目的环境配置 四.项目实现 1. 创建QSBK项目 2. 实现Spider 1. 实现一页网页上 ...

  5. 爬取及分析天猫商城冈本评论(二)数据处理

    前言 根据之前我写的 爬取及分析天猫商城冈本评论(一)数据获取 方法,爬取了冈本旗舰店的所有避孕套产品的公开评论,共计30824条. 这次对这3万多条评论去做数据分析前的预处理. 数据值处理 对于搜集 ...

  6. 爬取豆瓣读书的图书信息和评论信息

    最近在做毕业设计,需要收集用户的评分数据做协同过滤算法,同时收集评论数据做情感分析 坑点 豆瓣图书可以没有评分,或者用户评论了但没给评分.而且豆瓣图书的编码方式很无奈呀,热门书籍附近总是冷门书籍,无评 ...

  7. 网络爬虫---抓包分析,用抓包分析爬取腾讯视频某视频所有评论(Fiddler工具包的分享)

    抓包分析,用抓包分析爬取腾讯视频某视频所有评论(Fiddler工具包的分享) 文章目录 抓包分析,用抓包分析爬取腾讯视频某视频所有评论(Fiddler工具包的分享) 一.抓包分析 1.下载工具并安装 ...

  8. 爬取网易云音乐两万条评论储存在MySQL服务器上

    爬取网易云音乐两万条评论储存在MySQL服务器上 最近在公司实习,无聊时看看别人的博客,发现平时学习写写博客是一个很好的学习方法,报平时一些自己写的代码保存下来,遇到的错误踩到的坑也拿出来分享也可也帮 ...

  9. Python爬取京东iphone8的异步加载评论

    运行环境 Python 3.X 寻找评论信息地址 我们打开京东商城,搜索iphone8 iphone8虽然买不起,但是看看也欢迎 我们点击进去查看详情 往下翻,找到商品评价,点击 不仅有评论,而且还有 ...

最新文章

  1. php extension loaded,php中extension_loaded()函数的使用详解
  2. 收藏喜+1!值得使用的100个Python小技巧
  3. 尽快安装修补程序!微软 Word 漏洞影响上百万人
  4. 车提示检测轮胎气压_水淹车估价中心_辽宁中车检
  5. you have mixed tabs and spaces fix this
  6. linux 串口格式化输出字符串,如何把电压这个浮点值转字符串输出到串口
  7. 类名.this与this的区别
  8. 设备驱动基础学习--字符驱动实现
  9. 和quicklook相似的软件_细数软件推荐上万热度出现比例较高的10款软件,看看谁出现最多...
  10. virtualbox安装win7_全网最详细的安装eNSP和HCL步骤和出现的问题及解决方法
  11. rpm包安装mysql的弊端_rpm包安装mysql的常见问题
  12. cdoj 1092 韩爷的梦
  13. 电信中兴f452光猫路由改桥接最简单的方式,亲自体验成功。
  14. Excel学习日记:L4-资料排序
  15. 测试工具大全http://blog.csdn.net/vincetest/archive/2006/12/12/1440353.aspx
  16. Win32 OpenGL 编程(1)Win32下的OpenGL编程必须步骤
  17. 30 道 Vue 面试题,内含详细讲解(涵盖入门到精通,自测 Vue 掌握程度)
  18. yyds,Win10真香!!!
  19. 解析Linux中的系统安全及应用(二)
  20. 名人堂:网络缔造者—互联网之父VintonG.Cerf

热门文章

  1. 中秋家宴 ▎食物才是最好的团圆
  2. KaliLinux钓鱼Wifi搭建
  3. 学习GWAS高效的方法
  4. 程序员值得收藏的网站(持续更新)
  5. 1LL随手记(1LL是什么,1LL怎么用)
  6. 计算机辅助设计capp设计,[高等教育]09第四章 计算机辅助设计与制造技术CAPP.ppt...
  7. oracle安装检查监视器,安装Oracle时检查监视器未通过问题的解决
  8. 有一种胸怀,叫“得理也饶人”!
  9. R语言——GO分析和KEGG分析
  10. OpenCV中的saturate操作(饱和操作)究竟是怎么回事?