爬取图片资源

spider文件
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
import re
import time
from ..items import ZhuangxiuItemclass ZhuangxiuspiderSpider(CrawlSpider):name = 'zhuangxiuSpider'allowed_domains = ['www.zhuangyi.com']start_urls = ['http://www.zhuangyi.com/xiaoguotu/keting/p1/']rules = (# 提取详情页信息 callback 回调函数, 将相应交给这个函数来处理# 第二步:分类主页的下一页# Rule(LinkExtractor(allow=r'(.*?)/p\d+'), follow=True),# 第三步: 详情页面Rule(LinkExtractor(allow=r'(.*?)\d+.html'), follow=True, callback='parse_item'),)def parse_item(self, response):img_url_list = re.findall(r'http://pic.zhuangyi.com/Member/\d/\d+/./\d+.jpg', response.text)item = ZhuangxiuItem()item['image_urls'] = img_url_listitem['title'] = time.time()yield item

items.py 中import scrapyclass ZhuangxiuItem(scrapy.Item):# define the fields for your item here like:title = scrapy.Field()image_urls = scrapy.Field()

settingsDEFAULT_REQUEST_HEADERS = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en','Referer': 'http://www.zhuangyi.com/'
}IMAGES_STORE = 'img'
ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 300,
}

转载于:https://www.cnblogs.com/wangyue0925/p/11248709.html

Scrapy爬取某装修网站部分装修效果图相关推荐

  1. scrapy爬取知名问答网站(解决登录+保存cookies值+爬取问答数据)--完整版完美解决登录问题

    菜鸟写Python:scrapy爬取知名问答网站 实战(3) 一.文章开始: 可能看到这篇文章的朋友,大多数都是受慕课网bobby讲师课程的影响,本人也有幸在朋友处了解过这个项目,但是似乎他代码中登录 ...

  2. 【python实现网络爬虫(5)】第一个Scrapy爬虫实例项目(Scrapy原理及Scrapy爬取名言名句网站信息)

    Scrapy介绍 总共有五部分组成的:具体的流程可看图示 引擎.调度器.下载器.蜘蛛和项目管道 爬取流程 针对于每个URL, Scheduler -> Downloader -> Spid ...

  3. 来来scrapy爬取各大网站每日热点新闻

    一.背景 最近玩爬虫,各种想爬,scrapy又非常好用.想多爬一点东西,决定爬一爬各大网站的热点新闻. 想到就开始做了哈 二.上代码 1.开始搭建项目 scrapy startproject craw ...

  4. 用Python Scrapy爬取某电影网站并存储入mysql

    爬取目标:javlib,使用框架Scrapy 首先使用在命令行里 scrapy startproject projectname 和 scrapy genspider spidername 指令创建爬 ...

  5. 基于Scrapy爬取伯乐在线网站

    标题中的英文首字母大写比较规范,但在python实际使用中均为小写. 2018年7月20日笔记 Scrapy官方文档网址:https://doc.scrapy.org/en/latest/topics ...

  6. 用scrapy爬取淘车网站,选取宝车

    哈喽你们好啊 最近有这样一个作业,本来想偷懒,在csdn上找一个代码,复制粘贴完成就

  7. 四十一、完成scrapy爬取官方网站新房的数据

    @Author:Runsen 文章目录 前言 分析网页 新建项目 加请求头 搞定item 首页调试 详情页调试 保存json 前言 在前几天,接到一个大学生的作业的爬虫单子,要求采用scrapy爬取链 ...

  8. scrapy爬取表情包使用flask搭建搜索网站

    本文以doutula为演示站点,详细说明搭建一个自己的表情包搜索网站的过程.主要步骤如下: 1. scrapy爬取表情包并存入mysql 2. flask搭建搜索网站 准备工作,anaconda py ...

  9. 西山小菜鸟之Scrapy学习笔记---爬取企查查网站公司基本信息

    前言 本文主要采取cookie登录的方式爬取企查查网站的公司的基本信息,后期会继续发布关于爬取企查查网站上的公司的裁判文书信息.链接为:企查查  本文中若存在不详细的地方欢迎各位大神网友提问,若有错误 ...

  10. python使用 Scrapy 爬取唯美女生网站的图片资源

    python  python使用 Scrapy 爬取唯美女生网站 的资源,图片很好,爬取也有一定的难度,最终使用Scrapy获取了该网站 1.5W多张美眉照片....如有侵权,联系,立删除. ==== ...

最新文章

  1. OpenFeign服务接口调用
  2. tesseract识别图片中文字(一)
  3. Kotlin 文档 .Google 正式确定将 Kotlin为android 开发语言
  4. Report framework entry point CRM_BSP_OIC_1O_SEARCH_FROM_RF
  5. 【云快讯】《微软Sharepoint 2016 Beta版发布,强化混合云搜索功能》
  6. Iplat62---CRUD
  7. php 模拟登陆微信,微信公众平台模拟登陆有关问题
  8. php 港澳台、大陆身份证正则表达式
  9. package.json中安装包的版本说明和符号说明
  10. NYOJ 1238 最少换乘
  11. RDD(python
  12. AR市场不明朗,VR市场方兴未艾
  13. 一本正经的聊聊手机主题颜色随手机壳颜色变化的几种方案
  14. 红旗Linux网卡Bind,红旗linux(sp3)怎么安装网卡驱动啊
  15. Eclipse下格式化xml文件
  16. aardio 编程语言
  17. Python读取dta数据(自己学习专用)
  18. Openstack web界面登录异常处理
  19. Access to the path '' is denied.解决方案
  20. 【Joy of Cryptography 读书笔记】Chapter 8 分组密码的工作模式(Modes of Operation)

热门文章

  1. linux lftp rpm,linux-lftp
  2. win10关机后自动重启_电脑自动关机或重启的解决办法(笔记本)
  3. 诚之和:92年前出生的我,被商家打上了中老年人标签
  4. Pr打开遇到系统兼容性报告问题
  5. 蚂蚁集团深耕海外支付在俄罗斯成立合资企业
  6. 五步轻松搭建RPA卓越中心,助力集团公司加速数字化
  7. 群狼环伺的直播领域,小程序直播如何破局?
  8. 曲线图 分时线android,如何看分时走势图——压箱干货(收藏转发)
  9. php怎么让数组转换为字符串,php如何将数组转换为字符串
  10. android7.0新特性 tv,NV老款Shield TV获更新:Android7.0/4K HDR支持