Scrapy爬一下苏宁图书

别说了，GKD，滴滴学生卡

不上注释了哦如果那里我写的不明白就留言哈

# -*- coding: utf-8 -*-
import scrapy,re
from copy import deepcopy
# from book.items import BookItemclass SuningSpider(scrapy.Spider):name = 'suning'allowed_domains = ['suning.com']start_urls = ['https://book.suning.com']def parse(self, response):dl_list = response.xpath('//div[@class="menu-list"]//dl')for dl in dl_list:item = {}item["menu_list"] = dl.xpath('./dt/h3/a/text()').extract_first()for dd in dl_list:item["small_list"] = dd.xpath('./dd/a/text()').extract_first()item["small_href"] = dd.xpath('./dd/a/@href').extract_first()yield scrapy.Request(item["small_href"],callback=self.parse_smallhref,meta={"item":deepcopy(item)})def parse_smallhref(self,response):item = response.meta["item"]li_list = response.xpath('//div[@id="filter-results"]/ul')for li in li_list:item["book_name"] = li.xpath('.//div[@class="res-info"]/p[2]/a/text()').extract_first()item["book_href"] = 'https:' + li.xpath('.//div[@class="res-info"]/p[2]/a/@href').extract_first()yield scrapy.Request(item["book_href"],callback=self.parse_detail,meta={"item":deepcopy(item)})currentpage = int(re.findall('param.currentPage = "(.*?)"',response.text)[0])pagenum = int(re.findall('param.pageNumbers = "(.*?)"',response.text)[0])nextpage = currentpage+1categoryId = re.findall('"categoryId": "(.*?)"',response.text)[0]if currentpage < pagenum:next_url = 'https://list.suning.com/1-{}-{}.html'.format(categoryId,str(nextpage))yield scrapy.Request(next_url,callback=self.parse_smallhref,meta={"item":deepcopy(item)})def parse_detail(self,response):item = response.meta["item"]item["book_price"] = re.findall('"itemPrice":"(.*?)"',response.text)[0]item["book_author"] = response.xpath('//ul[@class="bookcon-param clearfix"]/li[1]/span/text()').extract_first()item["book_public"] = response.xpath('//ul[@class="bookcon-param clearfix"]/li[2]/text()').extract_first()yield deepcopy(item)

Scrapy爬一下苏宁图书相关推荐

scrapy 爬取苏宁图书
一.项目要求从每个大分类中获取里面的小分类从小分类里面获取图书列表,并进行翻页获取从图书列表里面获取每本书里面的详细信息二. 需要用到的库 scrapy(整个爬虫的实现) re(需要用正则匹配 ...
scrapy爬取苏宁所有图书
苏宁图书 https://book.suning.com/ 目标: 爬取苏宁图书下所有书本的系信息爬取每个大分类(文学艺术)下的中间分类(小说)下的每个小分类(中国当代小说)的书本信息,并且进行翻页 ...
小福利，带你使用scrapy框架爬取苏宁图书海量信息
大家好,我是天空之城,今天给大家带来小福利,带你使用scrapy框架爬取苏宁图书海量信息下图为项目的目录结构看下最后的数据截图,可以存为excel文件,也可以存入mysql数据库,参见前面文章介绍 ...
爬虫Scrapy框架学习（三）-爬取苏宁图书信息案例
爬取苏宁图书案例 1.项目文件架构 2.爬取数据网页页面 3.suning.py文件 # -*- coding: utf-8 -*- import scrapy from copy import de ...
Python集成scrapy和selenium爬取苏宁图书
Python集成scrapy和selenium爬取苏宁图书环境:python3.6 pycharm2018.1.3 前言本人渣渣一枚,为爬虫苏宁图书获取数据,将获得的数据保存在MangoDB中,现 ...
Python进阶之Scrapy抓取苏宁图书数据
Python进阶之Scrapy抓取苏宁图书数据 1. 需求 2. 代码示例: 创建项目 start.py settings.py iterms.py snb.py pipelines.py 3. 注意 ...
Scrapy爬取当当网图书销售前100
scrapy爬取当当网图书畅销榜一.采集任务爬取当当网图书畅销榜信息,获取热销图书前500相关数据. 二.网页解析 1. 打开当当网,按照图书榜>图书畅销榜进入当当网图书畅销榜[http: ...
使用scrapy爬取苏宁易购图书信息
理论基础详见:https://blog.csdn.net/apollo_miracle/article/details/84987459 # -*- coding: utf-8 -*- import ...
三级页面爬取苏宁图书
接上篇文章:https://blog.csdn.net/weixin_43094046/article/details/107930745 还是新创建一个项目suningDemo.其实可以在上次的项目 ...

Scrapy爬一下苏宁图书

别说了，GKD，滴滴学生卡

不上注释了哦如果那里我写的不明白就留言哈

Scrapy爬一下苏宁图书相关推荐

最新文章

热门文章

Scrapy爬一下苏宁图书

别说了，GKD，滴滴学生卡

不上注释了哦 如果那里我写的不明白就留言哈

Scrapy爬一下苏宁图书相关推荐

最新文章

热门文章

不上注释了哦如果那里我写的不明白就留言哈