爬取妹子网的低级教程连接如下:[爬妹子网](https://blog.csdn.net/baidu_35085676/article/details/68958267)

ps:只支持单个套图下载,不支持整体下载

在说说我的这个爬虫代码的设计思路:

①当我们浏览这个网站时,会发现,每一个页面的URL都是以网站的域名+page+页数组成,这样我们就可以逐一的访问该网站的网页了

②当我们看图片列表时中,把鼠标放到图片,右击检查,我们发现,图片的内容由ul包裹的li组成,箭头所指的地方为每个套图的地址,这样我们就可以进入套图,一个这样的页面包含有24个这样的套图,我们用BeautifulSoup,处理。

③我们进入套图,鼠标放到40处,右击,发现该套图图片的最大图片数为第十个span的值,而且每个套图的url同①原理相同为套图的url+第几张图片(如下图3为第二张图片),最后下载的url由一个class为main-titleDIV组成。提取img标签的src属性即可获得下载链接

from bs4 import BeautifulSoup

import requests

import os

#反‘反盗链’

header = { 'Referer':'http://www.mzitu.com'}

for x in range(11,20):

#盗取第十一页到19页图片

html_a=requests.get(base_url+str(x),headers=header)

soup_a=BeautifulSoup(html_a.text,features='lxml')

#解析第一个网页

pages=soup_a.find('ul',{'id':'pins'}).find_all('a')

#选出a标签,如第二步的箭头所指的地方

b=1

for y in pages:

if(b%2!=0):

#因为一个li标签里面有两个a标签,所以要去除重复

html=requests.get(y['href'],headers=header)

soup_b=BeautifulSoup(html.text,features='lxml')

#进入套图,解析套图

pic_max=soup_b.find_all('span')[10].text

#选出该套图的最大图片数

tittle=soup_b.find('h2',{'class':'main-title'}).text

os.makedirs('./img/'+str(tittle))

#制造一个目录

for i in range(1,int(pic_max)+1):

#循环,下载套图图片,

href=y['href']+'/'+str(i)

html2=requests.get(href,headers=header)

soup2=BeautifulSoup(html2.text,features='lxml')

pic_url=soup2.find('img',alt=tittle)

html_name=requests.get(pic_url['src'],headers=header,stream=True)

file_name=pic_url['src'].split(r'/')[-1]

with open('./img/'+str(tittle)+'/'+file_name,'wb') as f:

#按32字节下载

for x in html_name.iter_content(chunk_size=32):

f.write(x)

b=b+1

print('ok')#判断程序是否结束

from bs4 import BeautifulSoup

import requests

import os

import re

base_url='

header = { 'Referer':'http://www.mzitu.com'}

for x in range(61,62):

html_a=requests.get(base_url+str(x),headers=header)

soup_a=BeautifulSoup(html_a.text,features='lxml')

pages=soup_a.find('ul',{'id':'pins'}).find_all('a')

test=re.findall('"href":"(.*?)"',pages)

print(test)

b=1

for y in pages:

if(b%2!=0):

html=requests.get(y['href'],headers=header)

soup_b=BeautifulSoup(html.text,features='lxml')

pic_max=soup_b.find_all('span')[10].text

tittle=soup_b.find('h2',{'class':'main-title'}).text

u=str(tittle).replace(':','').replace('!','').replace('?','').replace(',','').replace(' ','')

os.makedirs('./img/'+u)

for i in range(1,int(pic_max)+1):

href=y['href']+'/'+str(i)

html2=requests.get(href,headers=header)

soup2=BeautifulSoup(html2.text,features='lxml')

pic_url=soup2.find('img',alt=tittle)

html_name=requests.get(pic_url['src'],headers=header,stream=True)

file_name=pic_url['src'].split(r'/')[-1]

with open('./img/'+u+'/'+file_name,'wb') as f:

for x in html_name.iter_content(chunk_size=32):

f.write(x)

b=b+1

print('ok')

以上代码为原创代码,

python爬图片教程_python爬去妹子网整个图片资源教程(最详细版)相关推荐

  1. python爬虫爬图片教程_python爬去妹子网整个图片资源教程(最详细版)

    爬取妹子网的低级教程连接如下:[爬妹子网](https://blog.csdn.net/baidu_35085676/article/details/68958267) ps:只支持单个套图下载,不支 ...

  2. 去哪儿网2015春季校招笔试--回忆版

    去哪儿网2015春季校招笔试--回忆版 第一次做笔试题,好激动.今年研发类的有三道题目,干净利落,比较喜欢去哪儿的题目类型,晚上回去做腾讯的在线笔试就比较坑了,各种多选与程序天空,各种C++语法... ...

  3. 做一个python的旅游系统_Python爬取13个旅游城市,告诉你新年大家最爱去哪玩?...

    2020年马上就要到了,放一天假,很多人只是选择周边游,因为时间不是很充裕,各个景点成了人山人海,拥挤的人群,甚至去卫生间都要排队半天,那一刻我突然有点理解灭霸的行为了. 今天,通过分析去哪儿网部分城 ...

  4. python可以爬什么山_Python爬取13个旅游城市,告诉你五一大家最爱去哪玩?

    今年五一放了四天假,很多人不再只是选择周边游,因为时间充裕,选择了稍微远一点的景区,甚至出国游.各个景点成了人山人海,拥挤的人群,甚至去卫生间都要排队半天,那一刻我突然有点理解灭霸的行为了. 今天,通 ...

  5. python制作手机壁纸_Python爬取手机壁纸图片

    使用Python爬取图片. 1 说明 本文通过爬虫程序的编写,实现了一个简单易懂的爬虫程序,方便初学者理解,主要程序分为网页获取函数,以及保存下载函数,这就是所有爬虫程序的基本思想.(本文不涉及反爬, ...

  6. python爬取王者_Python爬取王者荣耀英雄图片及装备!你玩吗?

    在玩王者荣耀的时候一直想把装备合英雄的图片保存下来,但是官网的单个图片保存太慢一气之下写了个爬虫. 1.爬取装备 import requests from bs4 import BeautifulSo ...

  7. python爬取酒店信息_python selenium爬取去哪儿网的酒店信息(详细步骤及代码实现)...

    准备工作 1.pip install selenium 2.配置浏览器驱动.配置其环境变量 Selenium3.x调用浏览器必须有一个webdriver驱动文件 Chrome驱动文件下载chromed ...

  8. python微信爬取教程_python爬取微信文章方法

    本文给大家分享的是使用python通过搜狗入口,爬取微信文章的小程序,非常的简单实用,有需要的小伙伴可以参考下 本人想搞个采集微信文章的网站,无奈实在从微信本生无法找到入口链接,网上翻看了大量的资料, ...

  9. python分析b站_Python爬取并分析B站最热排行榜,我发现了这些秘密

    现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...

最新文章

  1. php写的接口返回数据的页面,PHP怎么解析 WEBSERVICES接口返回的数据
  2. MySQL 索引与优化
  3. linux下的动态链接库和静态链接库到底是个什么鬼?(一)静态链接库的编译与使用...
  4. opencv进阶学习笔记6:使用鼠标在图像上绘制矩形框或者多边形框
  5. asp.net core监控—引入Prometheus(六)
  6. android在主程序中调用图片,009android初级篇之APP中使用系统相机相册等集成应用...
  7. 不填写内容用哪个斜杠代替_python3用单反斜杠代替双反斜杠
  8. 用python 把视频转换为图片
  9. 【21.09-21.10】近日Paper Quichthrough汇总
  10. 7 Papers Radios | 矩阵乘法无需相乘,速度提升100倍;一个神经元顶5到8层神经网络...
  11. Jasmine中describe和it
  12. 如何用C语言在控制台输出437代码页编码下的ASCII字符
  13. c语言中getc函数,C语言中getc怎么用?
  14. CCC3.0 蓝牙OOB配对
  15. 南京恩博:绿水青山的守卫者
  16. 2020年美容师(初级)多少钱及美容师(初级)模拟考试题库
  17. iOS从相册选择视频和保存视频到相册
  18. 大数据技术发展影响因素有哪些?
  19. Atmel爱特梅尔AT89S52单片机开发实训装置,QY-DPJ12
  20. 创维电视android,当贝市场创维酷开专用版

热门文章

  1. error: Error: No resource found for attribute ‘layout_scrollFlags’ in package‘包名’
  2. 转 spring配置文件
  3. Solr定时重建索引和增量更新
  4. 使用Dom4j操作XML数据
  5. Uva 3767 Dynamic len(set(a[L:R])) 树套树
  6. Ruby: Ruby脚本在测试中的使用
  7. 《帝企鹅日记》观后感
  8. C++Primer学习笔记(二)
  9. 父子表关联在窗体中的绑定显示和浏览
  10. 为绑定的NSArrayController设置默认的排序