python3爬虫之二：爬取网页图片

Python3抓取网页图片
爬取的路径：URL = https://pixabay.com/zh/editors_choice/?media_type=illustration&pagi=3 (通过多次调试发现这个pagi值是个变量，表示页数，抓取其他页数图片可以修改这个值，或者循环抓取)，废话不多说，
原页面图片：

代码如下：


#coding:utf-8
import requests
import re
import urllib
import os
from bs4 import BeautifulSoupurl = 'https://pixabay.com/zh/editors_choice/?media_type=illustration&pagi=3'
cookies = {'Cookie':'bid=_lOjPCNt9wI; ll="118282"; _vwo_uuid_v2=90A455F697D39C4E7ADE716F87221D41|b2cfd7bec4a7b17a840474041b898d19; __utmc=30149280; _ga=GA1.2.1644812988.1515427525; _gid=GA1.2.1120993180.1526163442; push_noty_num=0; push_doumail_num=0; ct=y; __yadk_uid=1UDWf6kQP5PYke9rFuHb2klf4KbW2B5R; _pk_ses.100001.8cb4=*; __utma=30149280.1644812988.1515427525.1526171405.1526171405.1; __utmz=30149280.1526171405.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmt=1; dbcl2="178599165:Y53LLRSxUvs"; _gat_UA-7019765-1=1; ck=QzdS; _pk_id.100001.8cb4=8ab848a65c47cc4a.1526171404.1.1526171408.1526171404.; __utmv=30149280.17859; __utmb=30149280.3.10.1526171405'
}
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'
}
def getCode(url):r = requests.get(url,cookies = cookies, headers = headers)# print(r.status_code)# print(r.)r.encoding = 'UTF-8'tmp = r.textreturn tmp
def getHtmlTree(url):tmp = getCode(url)htmlTree = BeautifulSoup(tmp,"html.parser")return htmlTree
def getUrlList(url):HtmlTree = getHtmlTree(url)imgList = HtmlTree.find_all('img')UrlList = []for imgUrl in imgList:if imgUrl.get('src') :UrlList.append(imgUrl.get('src'))return UrlList
def saveImg(url):try:img = requests.get(url,cookies = cookies, headers = headers)except requests.exceptions.MissingSchema:print('路径异常!')returnflag = url.split('/')print(flag[-1])imgName = flag[-1]f = open(imgName,'wb')f.write(img.content)f.close()
# cmd = 'del /q /s *.png'
# cmd1 = 'del /q /s *.jpg'
# os.system(cmd)
# os.system(cmd1)
if __name__ == '__main__':UrlList = getUrlList(url)for url in UrlList:saveImg(url)

下载下来的效果图：

python3爬虫之二：爬取网页图片相关推荐

使用JSoup实现爬虫操作（爬取网页图片、文章内容）
一.基础配置: -<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artif ...
java爬虫-简单爬取网页图片
刚刚接触到"爬虫"这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语 ...
node：爬虫爬取网页图片 1
代码地址如下: http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图 ...
一个咸鱼的python_一个咸鱼的Python爬虫之路（三）：爬取网页图片
学完Requests库与Beautifulsoup库我们今天来实战一波,爬取网页图片.依照现在所学只能爬取图片在html页面的而不能爬取由JavaScript生成的图. 所以我找了这个网站 http: ...
【用Java爬取网页图片——爬虫爬取数据】
用Java爬取网页图片--爬虫爬取数据 1.在创建项目中导入jsoup 2.创建一个保存下载图片的路径 3.使用URL读取网页路径,jsoup读取网页内容 4.利用属性标签获取图片连接块 5.因为该路 ...
node.js 爬虫实现爬取网页图片并保存到本地
node.js 爬虫实现爬取网页图片并保存到本地没有废话直接看代码 /*** 请求网站数据* 将数据保存本地文件*/ //不同协议引用不同模块,http https const http = re ...
python3爬虫之多线程爬取英雄联盟所有皮肤图片
python3爬虫之多线程爬取英雄联盟所有皮肤图片线程不要太高,容易出错,大约用时1分钟左右. import requests import json import os import thread ...
上手快！！福利局！新手如何使用python爬虫爬取网页图片（使用正则进行数据解析）当然这个新手是我自己
作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...
使用Python爬取网页图片
使用Python爬取网页图片李晓文 21 天前近一段时间在学习如何使用Python进行网络爬虫,越来越觉得Python在处理爬虫问题是非常便捷的,那么接下来我就陆陆续续的将自己学习的爬虫知识分享给 ...
如何使用PHP开发爬虫功能去爬取网页资讯
如何使用PHP开发爬虫功能去爬取网页资讯一．网页数据分析 A ) 爬取目标: 比如我们现在需要爬取网页https://brands.cnblogs.com/ 中资讯列表数据. 那我们现在应该怎么分析 ...

python3爬虫之二：爬取网页图片

python3爬虫之二：爬取网页图片相关推荐

最新文章

热门文章