python3爬虫之二:爬取网页图片
Python3抓取网页图片
爬取的路径:URL = https://pixabay.com/zh/editors_choice/?media_type=illustration&pagi=3 (通过多次调试发现这个pagi值是个变量,表示页数,抓取其他页数图片可以修改这个值,或者循环抓取),废话不多说,
原页面图片:
代码如下:
#coding:utf-8
import requests
import re
import urllib
import os
from bs4 import BeautifulSoupurl = 'https://pixabay.com/zh/editors_choice/?media_type=illustration&pagi=3'
cookies = {'Cookie':'bid=_lOjPCNt9wI; ll="118282"; _vwo_uuid_v2=90A455F697D39C4E7ADE716F87221D41|b2cfd7bec4a7b17a840474041b898d19; __utmc=30149280; _ga=GA1.2.1644812988.1515427525; _gid=GA1.2.1120993180.1526163442; push_noty_num=0; push_doumail_num=0; ct=y; __yadk_uid=1UDWf6kQP5PYke9rFuHb2klf4KbW2B5R; _pk_ses.100001.8cb4=*; __utma=30149280.1644812988.1515427525.1526171405.1526171405.1; __utmz=30149280.1526171405.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmt=1; dbcl2="178599165:Y53LLRSxUvs"; _gat_UA-7019765-1=1; ck=QzdS; _pk_id.100001.8cb4=8ab848a65c47cc4a.1526171404.1.1526171408.1526171404.; __utmv=30149280.17859; __utmb=30149280.3.10.1526171405'
}
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'
}
def getCode(url):r = requests.get(url,cookies = cookies, headers = headers)# print(r.status_code)# print(r.)r.encoding = 'UTF-8'tmp = r.textreturn tmp
def getHtmlTree(url):tmp = getCode(url)htmlTree = BeautifulSoup(tmp,"html.parser")return htmlTree
def getUrlList(url):HtmlTree = getHtmlTree(url)imgList = HtmlTree.find_all('img')UrlList = []for imgUrl in imgList:if imgUrl.get('src') :UrlList.append(imgUrl.get('src'))return UrlList
def saveImg(url):try:img = requests.get(url,cookies = cookies, headers = headers)except requests.exceptions.MissingSchema:print('路径异常!')returnflag = url.split('/')print(flag[-1])imgName = flag[-1]f = open(imgName,'wb')f.write(img.content)f.close()
# cmd = 'del /q /s *.png'
# cmd1 = 'del /q /s *.jpg'
# os.system(cmd)
# os.system(cmd1)
if __name__ == '__main__':UrlList = getUrlList(url)for url in UrlList:saveImg(url)
下载下来的效果图:
python3爬虫之二:爬取网页图片相关推荐
- 使用JSoup实现爬虫操作(爬取网页图片、文章内容)
一.基础配置: -<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artif ...
- java爬虫-简单爬取网页图片
刚刚接触到"爬虫"这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语 ...
- node:爬虫爬取网页图片 1
代码地址如下: http://www.demodashi.com/demo/13845.html 前言 周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图 ...
- 一个咸鱼的python_一个咸鱼的Python爬虫之路(三):爬取网页图片
学完Requests库与Beautifulsoup库我们今天来实战一波,爬取网页图片.依照现在所学只能爬取图片在html页面的而不能爬取由JavaScript生成的图. 所以我找了这个网站 http: ...
- 【用Java爬取网页图片——爬虫爬取数据】
用Java爬取网页图片--爬虫爬取数据 1.在创建项目中导入jsoup 2.创建一个保存下载图片的路径 3.使用URL读取网页路径,jsoup读取网页内容 4.利用属性标签获取图片连接块 5.因为该路 ...
- node.js 爬虫 实现爬取网页图片并保存到本地
node.js 爬虫 实现爬取网页图片并保存到本地 没有废话直接看代码 /*** 请求网站数据* 将数据保存本地文件*/ //不同协议引用不同模块,http https const http = re ...
- python3爬虫之多线程爬取英雄联盟所有皮肤图片
python3爬虫之多线程爬取英雄联盟所有皮肤图片 线程不要太高,容易出错,大约用时1分钟左右. import requests import json import os import thread ...
- 上手快!!福利局!新手如何使用python爬虫爬取网页图片(使用正则进行数据解析)当然这个新手是我自己
作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...
- 使用Python爬取网页图片
使用Python爬取网页图片 李晓文 21 天前 近一段时间在学习如何使用Python进行网络爬虫,越来越觉得Python在处理爬虫问题是非常便捷的,那么接下来我就陆陆续续的将自己学习的爬虫知识分享给 ...
- 如何使用PHP开发爬虫功能去爬取网页资讯
如何使用PHP开发爬虫功能去爬取网页资讯 一.网页数据分析 A ) 爬取目标: 比如我们现在需要爬取网页https://brands.cnblogs.com/ 中资讯列表数据. 那我们现在应该怎么分析 ...
最新文章
- GitHub开源的最全中文诗歌古典文集数据库
- 新版IntelliJ IDEA Web项目配置完整流程
- 【计算机网络】深入浅出网络层(看不懂你来打我.上)
- Android获取有线和无线(wifi)的IP地址
- iqooneo系统要不要更新_IQOOZ1即将发布,和IQOOneo3、OPPORenoACE对比,谁更值得入手?...
- 怎么画六面体网格_使用Abaqus完成网格重划分分析3网格到网格的解映射
- 那些年做的xmind思维导图
- 网易开源云原生日志系统!
- 【人月神话】浅谈人月神话0.2什么是“人月”,为什么是“神话”?
- html5 svg defs,defs_分类 | Elements_SVG_参考手册_非常教程
- [豆瓣8.1]《教养的迷思》父母的教养方式能否决定孩子的人格发展? 【美】朱迪斯•哈里斯...
- AWS之Glue使用方法
- 用js实现加载本地图片并显示并将图片信息上传至服务端
- linux dd 备份uboot,刷机前如何备份uboot、分区、编程器固件?路由器刷机备份命令使用方法...
- Android源码配置第三方应用电池白名单流程分析笔记
- DirectoryInfo 类
- L2-离散变量分布:Bernoulli分布、二项分布、泊松分布等
- 核心期刊《中国兽医学报》
- oracle consistent gets,Oracle数据库consistent gets使用的特例
- 我爱我妻——可以让男人看一遍哭一遍的文章!