1.数据采集逻辑

在进行数据采集之前,明确哪些数据为所需,制定数据Schema为爬取工作做出要求,并根据数据Schema制定出有针对性的爬取方案和采集逻辑。

2.数据Schema

3.数据爬取

抓取平台任一商品的评论信息,此案例抓取的商品是某一店铺的车厘子评价信息。

评论信息是由JS动态加载的,所以直接抓取商品详情页的URL并不能获得商品评论信息。因此我们需要先找到存放商品评价信息的文件,通过使用浏览器的开发者工具进行查找。

目标URL地址:

通过发现可知,productId为当前商品的商品Id,page为页码(从0开始),爬取该商品的所有评价信息只需要改变page参数即可。(商品评价页只显示前100页,所以page最大值为99)

  1. 导入库

import random
import requests
import json
import re
import csv
import time
import pymysql
  1. 对爬虫程序进行伪装

header = {'refer': 'https: // item.jd.com /','cookie': '','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50'}
  1. 抓取商品评论信息

将python程序伪装成浏览器后,就可以对评论信息进行爬取,在前面的分析中,productId和page为重要参数,在本案例中爬取的商品为车厘子,productId已确定,只需要对page进行更改即可达到需要。通过parms提交参数,使代码更有逻辑感并方便更改两个重要参数。

4.防止反爬,每爬取一页数据后,设置程序休眠环节

# 程序休眠
time.sleep(random.randint(40, 80) * 0.1)
print('第%d页正在爬取' % (page + 1))爬取完成后,需要对页面进行编码,不影响后期的数据提取和数据清洗工作。使用正则对数据进行提取,返回字符串。字符串转换为json格式数据。res.encoding = 'gb18030'
html = res.text
data = re.findall('fetchJSON_comment98\((.*?)\);', html)
data = json.loads(data[0])  # 将处理的数据进行解析
comments = data['comments']
print(data['comments'])

4.数据存储

  1. 存储到csv

# 写入csv文件
f = open("evalution_data.csv", "a", newline='', encoding='gb18030')
header = ["id", "content", "creationTime", "score", "productColor", "productSize"]
# 创建一个DictWriter对象,第二个参数就是上面创建的表头
writer = csv.DictWriter(f, header)
writer.writeheader()for i in comments:id = i['id']content = i['content']creationTime = i['creationTime']score = i['score']productColor = i['productColor']productSize = i['productSize']writer.writerow({"id": id, "content": content, "creationTime": creationTime, "score": score, "productColor": productColor,"productSize": productSize})
f.close()
  1. 存储到数据库

# 写入数据库
conn = pymysql.connect(host='', user='', password='', port=, db='')
cursor = conn.cursor()for i in comments:id = i['id']content = i['content']creationTime = i['creationTime']score = i['score']productColor = i['productColor']productSize = i['productSize']sql = "insert into evalution_data(id,content,creationTime,score,productColor,productSize) values('%d','%s','%s','%d','%s','%s')"cursor.execute(sql)conn.commit()cursor.close()
conn.close()

Python爬取商品评价-京东相关推荐

  1. 在当当买了python怎么下载源代码-Python爬取当当、京东、亚马逊图书信息代码实例...

    注:1.本程序采用MSSQLserver数据库存储,请运行程序前手动修改程序开头处的数据库链接信息 2.需要bs4.requests.pymssql库支持 3.支持多线程 from bs4 impor ...

  2. python爬取9000条京东内衣销售数据,最最最最基础的语言和语法;并利用这些数据,基于Aprior算法分析“是否罩杯大的人倾向于买贵一些的bra”

    47[TOC](爬取9000条京东内衣销售数据,最最最最基础的语言和语法,并利用这些数据,基于Aprior算法分析"是否罩杯大的人倾向于买贵一些的bra") 本人刚接触python ...

  3. Python爬取商品信息(一)

    爬取淘宝网商品的名称,价格,付款人数 完整代码 def getHTML()讲解 def findMS(html)讲解 def download(data)详解 需要改进的地方 步骤一:提交商品搜索请求 ...

  4. Python爬取商品信息,包括标题、店铺、价格、评论数量、好评数、差评数、好评率

    Python爬取电商商品信息,包括标题.店铺.价格.评论数量.好评数.差评数.好评率 对电商商城数据的爬取主要是评论数量的爬取,标题.店铺.价格等字段可以直接获取网页源码然后通过etree进行解析,但 ...

  5. python爬取商品信息_python爬取商品信息

    原博文 2014-11-27 02:09 − 老严要爬某网购网站的商品信息,正好我最近在学python,就一起写了一个简单的爬虫程序. 需求:某网的商品信息,包括商品名,市场价和售价 工具:pytho ...

  6. python商品会员打折_双十一商品优惠打折,用Python爬取商品信息分析发现这里套路真深...

    咱们今天就以京东笔记本电脑为例分析一下 首先咱们针对京东商城笔记本的网页进行分析,这回只要在网页源码上分析,就可以获取笔记本价格.标题.评论数.商家名称.商家性质. 想要学习Python.关注小编,私 ...

  7. Python爬取当当、京东、亚马逊图书信息

    注:1.本程序采用MS SQL server数据库存储,请运行程序前手动修改程序开头处的数据库链接信息 2.需要bs4.requests.pymssql库支持 3.支持多线程 from bs4 imp ...

  8. python爬取商品信息_Python基于BeautifulSoup爬取京东商品信息

    今天小编利用美丽的汤来为大家演示一下如何实现京东商品信息的精准匹配~~ HTML文件其实就是由一组尖括号构成的标签组织起来的,每一对尖括号形式一个标签,标签之间存在上下关系,形成标签树:因此可以说Be ...

  9. python爬虫如何爬亚马逊_Python爬取当当、京东、亚马逊图书信息代码实例

    注:1.本程序采用MSSQLserver数据库存储,请运行程序前手动修改程序开头处的数据库链接信息 2.需要bs4.requests.pymssql库支持 3.支持多线程 from bs4 impor ...

最新文章

  1. debug打印的有意思的方法
  2. Django 1.11 bootstrap样式文件无法加载问题解决
  3. openstack的云主机相关命令
  4. java cache缓存_为什么 Java 中“1000==1000”为false,而”100==100“为true?
  5. 红黑树 删除某节点后 旋转3次 举例
  6. 【背包】逃亡的准备 (ssl 1236)
  7. 制作双足机器人用易拉罐_小学生手工小制作用易拉罐做飞机模型的方法
  8. Intel Skylake (Server) 架构/微架构/流水线 (5) - 非时效存储
  9. 80.共享内存实现进程通信
  10. windows下怎么用basename_比较下养殖用铁丝网还是尼龙网,你会怎么选择?
  11. 硅谷大佬们屡次推荐的10本书,你看过几本?
  12. 计算机三级信息安全技术
  13. 适用于Android的最佳笔记应用程序以及如何制作自己的应用程序
  14. 基于MATLAB的模糊聚类
  15. Unity3D发布微信小程序
  16. 访谈完100个年入百万的自媒体人后,我总结了出了他们的共性
  17. vs2013界面内容_我在2013年阅读的内容
  18. 三星S8原生android8.0,三星S8惧怕的全面屏机皇杀到,原生安卓8.0系统
  19. 测温传感器 温度传感器 温度传感器生产厂家 温度变送器 温度感应器 温度测量 热电偶 热电偶传感器 热电偶套管 热电偶温度传感器 热电偶温度计 热电阻传感器 热电阻温度计 电阻温度探测 精密RTD
  20. 米兔机器人第三代测评_米兔智能机器人——年轻人的第一台 31313?

热门文章

  1. pandas dropna()函数
  2. 关于PHP发送邮箱验证码功能介绍
  3. 分享一个Chrome小技巧---多用户登录同一网站不串信息
  4. Visio 转为高质量PDF
  5. 大学体育相关知识/运动学/运动防护
  6. LabVIEW编程基础:事件结构框架编程
  7. FLARToolKit入门教程
  8. iOS 开发基础,HR的话扎心了
  9. 计算机科目三教学设计,科目三详细教案.doc
  10. 如何禁用和重新启用键盘上的”Windows”键