Scrapy爬取某装修网站部分装修效果图
爬取图片资源
spider文件
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
import re
import time
from ..items import ZhuangxiuItemclass ZhuangxiuspiderSpider(CrawlSpider):name = 'zhuangxiuSpider'allowed_domains = ['www.zhuangyi.com']start_urls = ['http://www.zhuangyi.com/xiaoguotu/keting/p1/']rules = (# 提取详情页信息 callback 回调函数, 将相应交给这个函数来处理# 第二步:分类主页的下一页# Rule(LinkExtractor(allow=r'(.*?)/p\d+'), follow=True),# 第三步: 详情页面Rule(LinkExtractor(allow=r'(.*?)\d+.html'), follow=True, callback='parse_item'),)def parse_item(self, response):img_url_list = re.findall(r'http://pic.zhuangyi.com/Member/\d/\d+/./\d+.jpg', response.text)item = ZhuangxiuItem()item['image_urls'] = img_url_listitem['title'] = time.time()yield item
items.py 中import scrapyclass ZhuangxiuItem(scrapy.Item):# define the fields for your item here like:title = scrapy.Field()image_urls = scrapy.Field()
settingsDEFAULT_REQUEST_HEADERS = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en','Referer': 'http://www.zhuangyi.com/'
}IMAGES_STORE = 'img'
ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 300,
}
转载于:https://www.cnblogs.com/wangyue0925/p/11248709.html
Scrapy爬取某装修网站部分装修效果图相关推荐
- scrapy爬取知名问答网站(解决登录+保存cookies值+爬取问答数据)--完整版完美解决登录问题
菜鸟写Python:scrapy爬取知名问答网站 实战(3) 一.文章开始: 可能看到这篇文章的朋友,大多数都是受慕课网bobby讲师课程的影响,本人也有幸在朋友处了解过这个项目,但是似乎他代码中登录 ...
- 【python实现网络爬虫(5)】第一个Scrapy爬虫实例项目(Scrapy原理及Scrapy爬取名言名句网站信息)
Scrapy介绍 总共有五部分组成的:具体的流程可看图示 引擎.调度器.下载器.蜘蛛和项目管道 爬取流程 针对于每个URL, Scheduler -> Downloader -> Spid ...
- 来来scrapy爬取各大网站每日热点新闻
一.背景 最近玩爬虫,各种想爬,scrapy又非常好用.想多爬一点东西,决定爬一爬各大网站的热点新闻. 想到就开始做了哈 二.上代码 1.开始搭建项目 scrapy startproject craw ...
- 用Python Scrapy爬取某电影网站并存储入mysql
爬取目标:javlib,使用框架Scrapy 首先使用在命令行里 scrapy startproject projectname 和 scrapy genspider spidername 指令创建爬 ...
- 基于Scrapy爬取伯乐在线网站
标题中的英文首字母大写比较规范,但在python实际使用中均为小写. 2018年7月20日笔记 Scrapy官方文档网址:https://doc.scrapy.org/en/latest/topics ...
- 用scrapy爬取淘车网站,选取宝车
哈喽你们好啊 最近有这样一个作业,本来想偷懒,在csdn上找一个代码,复制粘贴完成就
- 四十一、完成scrapy爬取官方网站新房的数据
@Author:Runsen 文章目录 前言 分析网页 新建项目 加请求头 搞定item 首页调试 详情页调试 保存json 前言 在前几天,接到一个大学生的作业的爬虫单子,要求采用scrapy爬取链 ...
- scrapy爬取表情包使用flask搭建搜索网站
本文以doutula为演示站点,详细说明搭建一个自己的表情包搜索网站的过程.主要步骤如下: 1. scrapy爬取表情包并存入mysql 2. flask搭建搜索网站 准备工作,anaconda py ...
- 西山小菜鸟之Scrapy学习笔记---爬取企查查网站公司基本信息
前言 本文主要采取cookie登录的方式爬取企查查网站的公司的基本信息,后期会继续发布关于爬取企查查网站上的公司的裁判文书信息.链接为:企查查 本文中若存在不详细的地方欢迎各位大神网友提问,若有错误 ...
- python使用 Scrapy 爬取唯美女生网站的图片资源
python python使用 Scrapy 爬取唯美女生网站 的资源,图片很好,爬取也有一定的难度,最终使用Scrapy获取了该网站 1.5W多张美眉照片....如有侵权,联系,立删除. ==== ...
最新文章
- OpenFeign服务接口调用
- tesseract识别图片中文字(一)
- Kotlin 文档 .Google 正式确定将 Kotlin为android 开发语言
- Report framework entry point CRM_BSP_OIC_1O_SEARCH_FROM_RF
- 【云快讯】《微软Sharepoint 2016 Beta版发布,强化混合云搜索功能》
- Iplat62---CRUD
- php 模拟登陆微信,微信公众平台模拟登陆有关问题
- php 港澳台、大陆身份证正则表达式
- package.json中安装包的版本说明和符号说明
- NYOJ 1238 最少换乘
- RDD(python
- AR市场不明朗,VR市场方兴未艾
- 一本正经的聊聊手机主题颜色随手机壳颜色变化的几种方案
- 红旗Linux网卡Bind,红旗linux(sp3)怎么安装网卡驱动啊
- Eclipse下格式化xml文件
- aardio 编程语言
- Python读取dta数据(自己学习专用)
- Openstack web界面登录异常处理
- Access to the path '' is denied.解决方案
- 【Joy of Cryptography 读书笔记】Chapter 8 分组密码的工作模式(Modes of Operation)
热门文章
- linux lftp rpm,linux-lftp
- win10关机后自动重启_电脑自动关机或重启的解决办法(笔记本)
- 诚之和:92年前出生的我,被商家打上了中老年人标签
- Pr打开遇到系统兼容性报告问题
- 蚂蚁集团深耕海外支付在俄罗斯成立合资企业
- 五步轻松搭建RPA卓越中心,助力集团公司加速数字化
- 群狼环伺的直播领域,小程序直播如何破局?
- 曲线图 分时线android,如何看分时走势图——压箱干货(收藏转发)
- php怎么让数组转换为字符串,php如何将数组转换为字符串
- android7.0新特性 tv,NV老款Shield TV获更新:Android7.0/4K HDR支持