别说了,GKD,滴滴学生卡

不上注释了哦 如果那里我写的不明白就留言哈

# -*- coding: utf-8 -*-
import scrapy,re
from copy import deepcopy
# from book.items import BookItemclass SuningSpider(scrapy.Spider):name = 'suning'allowed_domains = ['suning.com']start_urls = ['https://book.suning.com']def parse(self, response):dl_list = response.xpath('//div[@class="menu-list"]//dl')for dl in dl_list:item = {}item["menu_list"] = dl.xpath('./dt/h3/a/text()').extract_first()for dd in dl_list:item["small_list"] = dd.xpath('./dd/a/text()').extract_first()item["small_href"] = dd.xpath('./dd/a/@href').extract_first()yield scrapy.Request(item["small_href"],callback=self.parse_smallhref,meta={"item":deepcopy(item)})def parse_smallhref(self,response):item = response.meta["item"]li_list = response.xpath('//div[@id="filter-results"]/ul')for li in li_list:item["book_name"] = li.xpath('.//div[@class="res-info"]/p[2]/a/text()').extract_first()item["book_href"] = 'https:' + li.xpath('.//div[@class="res-info"]/p[2]/a/@href').extract_first()yield scrapy.Request(item["book_href"],callback=self.parse_detail,meta={"item":deepcopy(item)})currentpage = int(re.findall('param.currentPage = "(.*?)"',response.text)[0])pagenum = int(re.findall('param.pageNumbers = "(.*?)"',response.text)[0])nextpage = currentpage+1categoryId = re.findall('"categoryId": "(.*?)"',response.text)[0]if currentpage < pagenum:next_url = 'https://list.suning.com/1-{}-{}.html'.format(categoryId,str(nextpage))yield scrapy.Request(next_url,callback=self.parse_smallhref,meta={"item":deepcopy(item)})def parse_detail(self,response):item = response.meta["item"]item["book_price"] = re.findall('"itemPrice":"(.*?)"',response.text)[0]item["book_author"] = response.xpath('//ul[@class="bookcon-param clearfix"]/li[1]/span/text()').extract_first()item["book_public"] = response.xpath('//ul[@class="bookcon-param clearfix"]/li[2]/text()').extract_first()yield deepcopy(item)

Scrapy爬一下苏宁图书相关推荐

  1. scrapy 爬取苏宁图书

    一.项目要求 从每个大分类中获取里面的小分类 从小分类里面获取图书列表,并进行翻页获取 从图书列表里面获取每本书里面的详细信息 二. 需要用到的库 scrapy(整个爬虫的实现) re(需要用正则匹配 ...

  2. scrapy爬取苏宁所有图书

    苏宁图书 https://book.suning.com/ 目标: 爬取苏宁图书下所有书本的系信息 爬取每个大分类(文学艺术)下的中间分类(小说)下的每个小分类(中国当代小说)的书本信息,并且进行翻页 ...

  3. 小福利,带你使用scrapy框架爬取苏宁图书海量信息

    大家好,我是天空之城,今天给大家带来小福利,带你使用scrapy框架爬取苏宁图书海量信息 下图为项目的目录结构 看下最后的数据截图,可以存为excel文件,也可以存入mysql数据库,参见前面文章介绍 ...

  4. 爬虫Scrapy框架学习(三)-爬取苏宁图书信息案例

    爬取苏宁图书案例 1.项目文件架构 2.爬取数据网页页面 3.suning.py文件 # -*- coding: utf-8 -*- import scrapy from copy import de ...

  5. Python集成scrapy和selenium爬取苏宁图书

    Python集成scrapy和selenium爬取苏宁图书 环境:python3.6 pycharm2018.1.3 前言 本人渣渣一枚,为爬虫苏宁图书获取数据,将获得的数据保存在MangoDB中,现 ...

  6. Python进阶之Scrapy抓取苏宁图书数据

    Python进阶之Scrapy抓取苏宁图书数据 1. 需求 2. 代码示例: 创建项目 start.py settings.py iterms.py snb.py pipelines.py 3. 注意 ...

  7. Scrapy爬取当当网图书销售前100

    scrapy爬取当当网图书畅销榜 一.采集任务 爬取当当网图书畅销榜信息,获取热销图书前500相关数据. 二.网页解析 1. 打开当当网,按照图书榜>图书畅销榜 进入当当网图书畅销榜[http: ...

  8. 使用scrapy爬取苏宁易购图书信息

    理论基础详见:https://blog.csdn.net/apollo_miracle/article/details/84987459 # -*- coding: utf-8 -*- import ...

  9. 三级页面爬取苏宁图书

    接上篇文章:https://blog.csdn.net/weixin_43094046/article/details/107930745 还是新创建一个项目suningDemo.其实可以在上次的项目 ...

最新文章

  1. 牛逼的人没有不看书的(送书福利)
  2. HikariCP-史上最快速的连接池
  3. Django (八) 中间件验证码富文本缓存
  4. mysql5.7.19不好用_Mysql 5.7.19 免安装版遇到的坑(收藏)
  5. 关于request.getServletPath(),request.getContextPath()的总结
  6. python爬取小说项目概述_Python实战项目网络爬虫 之 爬取小说吧小说正文
  7. struct和class的区别
  8. winhex的内存搜索法
  9. Java常用的框架有哪些?
  10. 《东周列国志》第四十九回 公子鲍厚施买国 齐懿公竹池遇变
  11. 安装完成后打开CAXACAD时出现的找不到mfc100u.dll等无法执行的问题
  12. Nodejs: redis客户端通过mset方法一次性批量写入多个key的值
  13. 网络术语---数字签名的简单认识
  14. 什么是缓存雪崩、击穿、穿透?
  15. 如何推广你的区块链初创企业,顺利完成ICO及后续发展
  16. 鸿蒙 OS 2 升级用户破千万!(1000+企业共建鸿蒙生态)
  17. C#多线程工业源码 替代传统plc搭载的触摸屏 工控屏幕一体机直接和plc通信
  18. 微信小程序发布详细步骤
  19. c语言while if嵌套,C语言循环嵌套详解
  20. FAT、FAT32和exFAT文件系统

热门文章

  1. 爬虫——手机抓包,fiddler抓取手机qq请求
  2. android自定义阴影,Android自定义边框加阴影
  3. 学习Java,该看什么书?
  4. iOS8 以上 启动界面 LaunchScreen.storyboard 图片不显示的问题
  5. snort mysql 优点_配置snort
  6. flex布局实现整体居中最后一行靠左
  7. 如何判断密文的加密方式
  8. 360 vs QQ, 谁会赢?
  9. (8)uboot之DDR SDRAM理解 五
  10. 《年轻人自救指南》读书笔记