好几天没更图片爬虫了,今天就简单的趴一下美桌网:
运行效果如下:




其中,每位明星单独一个文件夹,写真的册也是单独一个文件夹,非常的银杏

源码:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2020/12/15 18:14
# @Author  : huni
# @File    : 美桌网.py
# @Software: PyCharm
import requests
from lxml import etree
import os
if __name__ == '__main__':headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'}url = 'http://www.win4000.com/mt/star.html'resp = requests.get(url=url,headers=headers).texttree = etree.HTML(resp)li_list = tree.xpath('/html/body/div[4]/div/div[2]/ul/li')for li in li_list:href = li.xpath('./a/@href')[0]resp1 = requests.get(url=href,headers=headers).texttree1 = etree.HTML(resp1)href1_list = list(set(tree1.xpath('/html/body/div[4]/div/div[3]/div[1]/div[2]/div//@href')))href1_list.append(href)title = tree1.xpath('/html/head/title/text()')[0]m_path = './明星图片'if not os.path.exists(m_path):os.mkdir(m_path)title_path = m_path + f'/{title}'if not os.path.exists(title_path):os.mkdir(title_path)for href1 in href1_list:resp2 = requests.get(url=href1,headers=headers).texttree2 = etree.HTML(resp2)href2_list = tree2.xpath('/html/body/div[4]/div/div[3]/div[1]/div[1]/div[2]/div/div/ul//@href')for href2 in href2_list:resp3 = requests.get(url=href2,headers=headers).texttree3 = etree.HTML(resp3)page_num = int(tree3.xpath('/html/body/div[4]/div/div[2]/div/div[1]/div[1]/em/text()')[0])name = tree3.xpath('/html/head/title/text()')[0]name_path = title_path + f'/{name}'if not os.path.exists(name_path):os.mkdir(name_path)for i in range(1,page_num+1):every_href = href2.replace('.html',f'_{i}.html')resp4 = requests.get(url=every_href,headers=headers).texttree4 = etree.HTML(resp4)src = tree4.xpath('//*[@id="pic-meinv"]/a/img/@src')[0]jpg_data = requests.get(url=src,headers=headers).contentjpg_name = src.split('/')[-1]jpg_path = name_path + f'/{jpg_name}'with open(jpg_path,'wb') as fp:fp.write(jpg_data)print(jpg_name,'下载完成')

单线程如此,多线程内容还可以参考我之前的博客

好了,今天就码到这里来,如果各位看官觉得不错,可以多多投喂小编哟

python 爬虫 美桌网 50行代码爬取明星写真摄影图片相关推荐

  1. python pyquery不规则数据的抓取_爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网...

    爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网 前言 上篇文章 PyQuery (一) 回顾.今天来介绍具体 PyQuery 的使用方法. 穷游网目标与分析 开始之前,按照之前的套路一步 ...

  2. pyquery获取不到网页完整源代码_爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网...

    爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网 前言 上篇文章 PyQuery (一) 回顾.今天来介绍具体 PyQuery 的使用方法. 穷游网目标与分析 开始之前,按照之前的套路一步 ...

  3. 【Python】爬虫初体验,40行代码爬取双色球2003年至今的开奖号码

    爬虫爬取的双色球开奖号码 按我目前的理解,爬虫的工作原理大致是: 获取目标网页,在网页(html文件)中筛选目标数据,最后把数据导出 利用爬虫爬取数据看似很"高深莫测",只需几分钟 ...

  4. 真厉害用python只要50行代码爬取黑丝美眉纯欲高清图

    要说最美好的欲望莫过于看黑丝美眉. 一.技术路线 requests:网页请求 BeautifulSoup:解析html网页 re:正则表达式,提取html网页信息 os:保存文件 import re ...

  5. 50 行代码爬取链家租房信息

    最近自己开始学习数据分析的技术,但数据分析最重要的就是数据.没有数据怎么办?那就自己爬一些数据.大家一定要记得爬虫只是获取数据的一种手段,但如果不用一系列科学的方式去分析这些数据,那么爬去下来的数据是 ...

  6. 教你用python实现34行代码爬取东方财富网信息,爬虫之路,永无止境!!

    教你用python实现34行代码爬取东方财富网信息,爬虫之路,永无止境!! 代码展示: 开发环境: windows10 python3.6 开发工具: pycharm weddriver 库: sel ...

  7. Python爬虫利用18行代码爬取虎牙上百张小姐姐图片

    Python爬虫利用18行代码爬取虎牙上百张小姐姐图片 下面开始上代码 需要用到的库 import request #页面请求 import time #用于时间延迟 import re #正则表达式 ...

  8. python爬上市公司信息_实战项目 1:5 行代码爬取国内所有上市公司信息

    实战项目 1:5 行代码爬取国内所有上市公司信息 Python入门爬虫与数据分析 在正式开始这门专栏课的学习之前,我们先来看一个简单的爬虫案例.兴趣是最好的老师,当你对爬虫产生兴趣的时候,才会更有动力 ...

  9. 简单20行代码爬取王者荣耀官网1080p壁纸

    简单20行代码爬取王者荣耀官网1080p壁纸 # -*- coding: utf-8 -*- # @Time : 2020/12/13 18:08 # @Author : ningfangcong i ...

  10. python:利用20行代码爬取网络小说

    文章目录 前言 一.爬虫是什么? 二.实现过程 总结 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 前言 今天,来给大家一个分享一下如何使用20爬虫行代码爬取网络小说(这里我们以龙 ...

最新文章

  1. 智能网联汽车到底该怎么玩?腾讯在成都放了个大招
  2. 告别Kafka Stream,让轻量级流处理更加简单
  3. C++实现tree树(附完整源码)
  4. P4593-[TJOI2018]教科书般的亵渎【拉格朗日差值】
  5. Spring Boot——@ConfigurationProperties与@Value的区别
  6. 队列处理器 WorkQueueT
  7. 数字ToString作为货币显示并且带小数
  8. 10-10-010-简介-重要概念背诵
  9. Apache设置用户权限(2个域名。一个能访问全部文件,一个只能访问指定文件)...
  10. 第十章 深度强化学习-Prioritized Replay DQN
  11. 计算机管理无法输入密码,光大网银控件已安装但无法输入密码
  12. 高德地图-根据IP定位显示当前所在城市
  13. 微信 php收藏功能,怎样使用微信小程序做出添加收藏
  14. python读取身份证照片信息_使用Python提取身份证上的信息2
  15. 从零构建神经网络-实现异或门操作
  16. ubuntu检查端口是否开启_技术|使用 nc 命令检查远程端口是否打开
  17. 【ERROR】java java.lang.NoClassDefFoundError 的解决办法(全)
  18. Nirvana为应用而生,开启公链市场新纪元
  19. 霓虹灯(light)
  20. 嵌入式硬件设计-常见处理器介绍

热门文章

  1. makefile_makefile文件编写
  2. JUC学习笔记(7)—CountDownLatch
  3. 2.9-tf2-数据增强-tf_flowers
  4. C语言 字符数组和字符串
  5. 外贸增长背后的跨境电商转型路径
  6. 经典案例:H3C校园网双出口配置
  7. wordpress下载插件RiPro网盘链接检测插件
  8. 解决wordpress下载插件,安装失败,无法创建目录问题
  9. 来看看这些BAT公司的女程序员,你还觉得都是程序猿么
  10. canal指定binlog位点启动