wallhaven 基于scrapy框架的爬虫

没啥好说的，就一爬虫，想用就老老实实的下载scrapy这个第三方库

爬的是wallhaven网站上的壁纸，经本人验证，壁纸质量挠挠的，以下爬虫爬的是他的top排行榜上的壁纸，建议隔段时间没啥壁纸了就可以运行试试，进你收藏夹里吃灰去吧。

先贴代码吧

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

在设置settings.py里设置为False，没啥好说的

import scrapyclass WallhavenItem(scrapy.Item):img=scrapy.Field()

接着就是items.py里管道的设置，就一个口用来放壁纸的，名字什么的不重要

import scrapy
import time
from scrapy import Request
from bs4 import BeautifulSoup
from ..items import WallhavenItemclass WallhavenSpiderSpider(scrapy.Spider):name = 'wallhaven_spider'allowed_domains = ['wallhaven.cc']start_urls = ["https://wallhaven.cc/toplist?page=" + f"{i}" for i in range(1, 25)]def parse(self, response):soup = BeautifulSoup(response.text, "html.parser")rick = soup.select(".thumb")for i in rick:morty = i.select_one("a").get("href")yield Request(url=morty, callback=self.PortalGun)def PortalGun(self, response):soup = BeautifulSoup(response.text, 'html.parser')meeseeks = str(soup.select("img")[-1])img_src = meeseeks.split("\"")[-2]item = WallhavenItem()item['img'] = img_srctime.sleep(1)yield item

简单易懂啊，就解析网页，get到目标地址，下载，再在pipelines.py输出就好了

然后就是pipelines.py里的东西

import requests
from scrapy.pipelines.images import ImagesPipeline
import scrapyclass WallhavenPipeline(ImagesPipeline):count = 0# 对某一个媒体资源进行请求发送# item就是接收到的spider提交过来的itemdef get_media_requests(self, item, info):r = requests.get(item['img'], stream=True)print(r.status_code)  # 返回状态码if r.status_code == 200:self.count+=1open("./"+str(self.count)+'.png', 'wb').write(r.content)  # 将内容写入图片

说实话，没啥技术含量，希望大家玩了命的copy

QWQ

wallhaven 基于scrapy框架的爬虫相关推荐

基于scrapy框架的爬虫详细步骤（含没有“下一页”按钮的href抓取）
脱离八爪鱼,最近两天用scrapy爬了一个商品网站,本来可以快很多的,其中有一天把时间花在一行代码上最后绕了一大圈改了个参数就解决了??希望大家少走点弯路. 很多都是对慕课网的一个总结,网址:http ...
基于Scrapy框架的Python新闻爬虫
概述该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地详细代码下载:http://www.demoda ...
python新闻爬虫系统的功能_基于Scrapy框架的Python新闻爬虫
一.开发背景 Python作为数据处理方面的一把好手,近年来的热度不断增长.网络爬虫可以说是Python最具代表性的应用之一,那么通过网络爬虫来学习Python以及网络和数据处理的相关内容可以说是再合 ...
scrapy获取a标签的连接_python爬虫——基于scrapy框架爬取网易新闻内容
python爬虫--基于scrapy框架爬取网易新闻内容 1.需求[前期准备] 2.分析及代码实现(1)获取五大板块详情页url(2)解析每个板块(3)解析每个模块里的标题中详情页信息点击此处,获取 ...
19. python爬虫——基于scrapy框架爬取网易新闻内容
python爬虫--基于scrapy框架爬取网易新闻内容 1.需求 [前期准备] 2.分析及代码实现 (1)获取五大板块详情页url (2)解析每个板块 (3)解析每个模块里的标题中详情页信息 1.需 ...
Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息
Python爬虫实战之三 - 基于Scrapy框架抓取Boss直聘的招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于 ...
14. python爬虫——基于scrapy框架爬取糗事百科上的段子内容
python爬虫--基于scrapy框架爬取糗事百科上的段子内容 1.需求 2.分析及实现 3.实现效果 4.进行持久化存储 (1)基于终端指令 (2)基于管道 [前置知识]python爬虫--scr ...
基于Scrapy框架爬取豆瓣《复联4》影评，并生成词云
基于Scrapy框架爬取豆瓣<复联4>影评,并生成词云 1. 介绍及开发环境 2. 爬虫实现 2.1 新建项目 2.2 构造请求 2.3 提取信息 2.4 数据存储 2.4 运行结果 3. ...
scrapy微博反爬虫_基于Scrapy的微博爬虫设计
Data Base Technique • 数据库技术 Electronic Technology & Software Engineering 电子技术与软件工程 • 187 [关键词]Sc ...

wallhaven 基于scrapy框架的爬虫

wallhaven 基于scrapy框架的爬虫相关推荐

最新文章

热门文章