• 啊哈,又见面了,我把学校的项目做完了,然后趁自己还没生爬虫,就做了这个
  • 老样子,还是看的知乎大神
  • 然后这个做的是运用pexels网站,pexels是一个免费搜索图片的网站,然后就是运用它搜索后的url爬图片,好像中文不太好用,我搜的bikini →_→
  • 好了,话不多说上代码
'''根据知乎大神的分享自动下载图片代码作者:高佳乐网站:https://www.pexels.com/
'''##导入库
import requests                                     ##导入requests库,发送请求用的
from lxml import etree                              ##导入lxml库以便xpath解析
import re                                           ##导入re,正则表达式
import os                                           ##导入os创建目录
import time                                         ##爬虫就要有礼貌
import random                                       ##导入随机库,伪装,减少被反##定义类
class images():def __init__(self):                             ##定义结构函数,把原网址放入self.url='https://www.pexels.com/search/'##获取htmldef gethtml(self,url):                          ##定义一个获取html响应,发送请求的方法html = requests.get(url)                    ##html是发送请求后返回的响应html_text = html.content                    ##html_text是发送后返回的内容,如果直接text下边的xpath就会出错,直接在这content和解析utf-8html_text = html_text.decode('utf-8')       ##然后把返回的内容用utf8解析return html_text                            ##返回用utf-8解析后的代码##拼接url后获取def geturl(self,key):                           ##这个方法是用于把你输入的关键字拼接成url然后返回url = self.url+key+'/'                      ##把key 到网址后边拼接return url                                  ##返回拼接后的搜索网页##用xpath获取image并保存def image(self,url):                            ##此方法是保存图片了html = self.gethtml(url)                    ##html是使它获取形参的htmlhtml_text= etree.HTML(html)                 ##用xpath解析以上获得的urlimage=html_text.xpath(".//a[@class='js-photo-link']/img[@class='photo-item__img']/@src")##然后就是获取自己想要的了,对就是图片的url,这个xpath的意思是,在当前页面所有class是js-photo-link的a标签里的class是photo-item_img的img标签里的src属性i=0                                         ##就是低端代码用的计数器=_=for img in image:                           ##在上边获取到的src中遍历img_url = re.compile('(.*?)\?auto=.*?',re.S)   ##然后制定一个正则表达式,因为上边获取的是缩略图的url要想获取原图就要用正则在里边抓取,这个就是抓取前边到?前的urlimg_url = re.search(img_url, img)       ##然后找到使用上边定义的正则在img的url里抓取原图url,search是只获取到第一个然后返回索引啥的url = img_url.group(1)                  ##然后url里边存上边正则时候的第一个匹配到的字符img_name = re.compile('.*?://images.*?/photos/.*?/(.*?)\?.*?',re.S)##然后每个图片有jpg或者jpeg格式,然后自己获取他的最后的名字就是在jpg和JPEG的名字字符img_name = re.search(img_name, img)     ##然后用上边的正则在img获取 到他的名字。name = img_name.group(1)                ##然后name存上边获取到的第一个panduan = os.path.exists(name)          ##然后设置一个判断重复的,这里的os是指判断当前文件夹里有没有这个文件,也就是图片,有就返回true没有就返回falseif panduan:                             ##如果真就是存在print('老板,这个图片已经存在了已存在了,还要他干啥,有空间啊?')else:                                   ##反之就是假就存图片,字啊变的这个user_agents是有十个header以便减小被反user_agents = ['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/602.2.14 (KHTML, like Gecko) Version/10.0.1 Safari/602.2.14','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36','Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0']index = random.randint(0,9)         ##运用随机数随机获取上边列表里的索引user_agent = user_agents[index]     ##然后get是后的header是在上边列表里的各个元素随机选headers = {'User_agent':user_agent} ##然后header是一个字典,因为getheader是字典html_img = requests.get(url,headers)##然后html_img就是获取到url,(url是上边获取到的图片的原图地址),并且请求头是上边的集合里边的fil = open(name,'wb')               ##然后在当前文件夹里创建一个文件名字是上边获取到的jpg或者jpeg格式,然后打开形式是wbfil.write(html_img.content)         ##然后写入是以二进制写入fil.close()                         ##然后随手关闭文件,随手关文件才是好孩子print('报告老板,第%d个图片保存完毕'%i)##然后报告完成i+=1                                ##计数器+1不然就没意义=_=print('老板我这页爬了%d个图片,我太厉害了。'%i)##然后循环保存图片结束后,报告一页的全部图片##创建目录def dir(self,name):                             ##这个方法是创建目录dir = '第'+name+'个文件夹'                   ##dir是提前弄好目录名字,这个name是实参传入时的参数panduan = os.path.exists(dir)               ##然后判断当前文件夹里有没有上边的文件夹if panduan:                                 ##如果有就是真,就报告有了print('老板,这个文件夹已经存在了已存在了,直接在里边写了')else:                                       ##反之就是没有os.makedirs(dir)                        ##就创建这个文件夹print('报告老板,创建成功')               ##报告创建成功return dir                                  ##返回创建好的文件夹##输入页数的方法def all(self,key,star,end):                     ##这个方法是分页处理,输入关键字,开始和结束页数if star == 1:                               ##如果用户输入的开始页是1,chil = os.getcwd()                      ##chil是当前的路径,os.chdir(chil + '\pexels')              ##我这是手动创建了一个pexels的目录,你也可以自己创建,然后这行代码是切入到pexels目录里边key = self.geturl(key)                  ##然后把上边的关键字参数用上边的拼接url方法拼接搜获关键字后的urldir = self.dir(str(star))               ##然后dir是在当前目录创建文件夹,名字是输入时的页数os.chdir(dir)                           ##然后上边创建后进入刚刚创建的文件夹里self.image(key)                         ##然后用self.image获取上边拼接好的关键字的url,image就是上边的保存图片的方法os.chdir('..')                          ##然后返回上一层也就是我手动创建的pexels以便分页创建文件夹star+=1                                 ##上边的是第一页的图片,然后改第二页了,所以让第一页+1for i in range(star,end+1):             ##然后循环,从第二页和尾页之间key =key+'?page='+str(star)         ##然后这里的关键字就是航变的关键字+?page=页数,页数就是第几页就是i,star也行因为我star+1了dir = self.dir(str(star))           ##然后dir是创建文件夹,名字就是页数os.chdir(dir)                       ##然后切入刚创建的目录time.sleep(3)                       ##爬虫要有礼貌,就要这样等待三秒,好吧我怕被反self.image(key)                     ##然后就获取并保存上边的拼接关键字urlos.chdir('..')                      ##然后返回上一级的文件夹就是pexels,以便下一个文件夹,star+=1                             ##然后star+1 就是页数要一页一页的+,也可以取消这个上边直接用iif star == end+1:                   ##然后如果+1的页数=结尾的页数+1就停止函数returnelse:                                       ##反之,就是开始不是输入的是第一页比如输入了,2,4就是从第二页开始了chil = os.getcwd()                      ##也是获取当前路径os.chdir(chil + '\pexels')              ##然后在进入当前路路径的pexels,我是手动,你也可以自动创建,就是判断当前有没有这个文件夹,有就跳过,没有就创建for i in range(star,end+1):             ##然后就从输入的第几页开始key = self.geturl(key)+'?page='+str(star)   ##这就直接拼接搜索后的url的详情页数dir = self.dir(str(star))           ##然后创建当前页数的目录os.chdir(dir)                       ##然后切入新建目录time.sleep(3)                       ##咳咳咳,爬虫要有礼貌self.image(key)                     ##然后就开始爬图片了,爬的url是上边拼接好的keyos.chdir('..')                      ##在当前也就是新的目录里存完图片后就退出当前目录,返回pexels以便下一个文件夹star+=1                             ##然后star+1就是页数+1if star == end+1:                   ##如果输入的页数慢慢的长到了尾页数就停止函数returnzhangsan = images()
zhangsan.all(key=input('老板,你要搜索那个图片'),star=int(input('老板,你要从第几页搜')),end=int(input('老板,给个尾页不然很累的,还被反')))
  • 以上的就是运用我所学的,菜菜的自动下载图片的小爬虫
  • 好了,上几张我爬到的图片

  • 好了图片我也上传了= =
  • 希望这些可以帮助你们。砸门下次见

Good bye

鸟与虫(四)pexels搜到的我都想要,相关推荐

  1. 鸟与虫(三)贴吧,我想粗去玩

    哈罗啊,又见面了,这几天考试+各种事情,耽误了点时间,不够我终于又做了个案例 还是看着知乎大神的帖子Wakingup的帖子 话不多说,上代码 '''根据知乎大神代码作者:高佳乐''' ##先导入各种库 ...

  2. 掉价最快的手机排行榜_目前降价最厉害的四款手机,每款都是超高性价比,你入手了吗?...

    原标题:目前降价最厉害的四款手机,每款都是超高性价比,你入手了吗? [科技秘曝]10月25日,众所周知,如今的手机市场竞争非常激烈,所以,有很多手机厂商对旗下机型不得不进行了大降价处理.以下就是目前降 ...

  3. 奔四的技术人,内心都有哪些波澜?

    曾几何时,作为二十多岁的技术人,我也常常关注关于三十多岁技术人的话题,而恍惚间,我不再关注这个话题了,而是关注关于四十多岁技术人的话题,这是因为自己,正在奔四的路上了嘛.知乎上蛮多关于四十岁后失业的话 ...

  4. 华为p40pro如何升级鸿蒙,可以升级到鸿蒙OS的四款华为手机,相信都没有后悔入手!...

    最近一段时间,华为公布了可以升级到EMUI11的名单,里面包含了很多机型,甚至有很多旧机型也在内,这说明两点.第一点就是华为没有忘记老用户,即使是前几年的机型也可以升级到最新的系统:第二点就是升级到E ...

  5. 输出由1、2、3、4四个数字组成的每位都不相同的所有三位数

    编写程序,输出由1.2.3.4四个数字组成的每位都不相同的所有三位数 #编写程序,输出由1.2.3.4四个数字组成的每位都不相同的所有三位数 for i in range(1,5): i=1 2for ...

  6. ABCD四个人说真话的概率都是1/3。假如A声称B否认C说D是说谎了,那么D说过的那句话真话的概率是多少...

    ABCD四个人说真话的概率都是1/3.假如A声称B否认C说D是说谎了,那么D说过的那句话 真话的概率是多少 记"A声称B否认C说D说谎"为X,那么由贝叶斯公式,所求的P(D真)P( ...

  7. ABCD四个人说真话的概率都是1/3。假如A声称B否认C说D是说谎了,那么D说过的那句话真话的概率是多少

    ABCD四个人说真话的概率都是1/3.假如A声称B否认C说D是说谎了,那么D说过的那句话 真话的概率是多少 记"A声称B否认C说D说谎"为X,那么由贝叶斯公式,所求的P(D真)P( ...

  8. rust和漫漫长夜_令玩家拍手叫好的四款生存游戏,好评率都超高

    原标题:令玩家拍手叫好的四款生存游戏,好评率都超高 生存类游戏一直以来都是游戏行业中的热门类别,我们现在生活在一个物资丰富.充满和谐的世界里面,很多玩家想要从游戏当中感受到生命的可贵,活着的艰辛,在这 ...

  9. 华为手机会升级鸿蒙,可以升级到鸿蒙OS的四款华为手机,相信都没有后悔入手!...

    最近一段时间,华为公布了可以升级到EMUI11的名单,里面包含了很多机型,甚至有很多旧机型也在内,这说明两点.第一点就是华为没有忘记老用户,即使是前几年的机型也可以升级到最新的系统:第二点就是升级到E ...

最新文章

  1. 用Spark机器学习数据流水线进行广告检测
  2. lua-5.2.3编译问题记录quot;libreadline.so: undefined reference to `PC#39;quot;
  3. 7-5 jmu-Java-03面向对象基础-05-覆盖 (3 分)
  4. [CQOI2012] 局部极小值(状压DP + 容斥 + 搜索)
  5. 计算机意外关闭原因 安全问题,win7弹出“计算机意外地重新启动或遇到错误”处理方法...
  6. 好快!京东推出全新快递服务: 最快30分钟送达
  7. 华为否认窃密;贾跃亭陪许家印考察FF;谷歌或被罚95亿欧元 | 极客头条
  8. 一文学会哈希法解题,助你事半功倍(leetcode哈希表面试高频题目总结)
  9. 剑指offer(28)—数组中出现次数超过一半的数字
  10. 基础知识(四)C++常用函数.txt
  11. 魔兽世界服务器重置时间,大芒果魔兽世界单机版 如何更改所有副本的重置时间?...
  12. 软件测试价值提升之路--第2部分“扫门前雪”-第3章“拦截缺陷”-读书笔记
  13. you-get下载bilibili视频
  14. 【HCIP】BGP实验(联邦,路由反射器,手工汇总)
  15. 微信个人订阅号简单实现在线收款
  16. uniapp制作人像动漫化
  17. 正则表达式匹配 整数和正整数
  18. 基本排序算法 之六 ——归并排序
  19. ​12个很棒的Pandas和NumPy函数,让分析事半功倍
  20. U盘数据不见了怎么恢复?

热门文章

  1. android视频动态壁纸app,短视频动态壁纸转换
  2. 从各大APP年度报告看用户画像——标签,比你更懂你自己
  3. C# vb .net实现淡色效果滤镜
  4. h5海报页面定位中的元素居中
  5. 联网获取360数据,识别骚扰电话,java实现
  6. 3月18日短线黑马牛股公开验证
  7. 微信营销诀窍:有朋自各方来
  8. 电脑任务栏图标为白色解决方法
  9. Supplementary Materials for The spread of true and false news online 解读
  10. android 自定view 网状结构图