import requests
import re  #正则表达式
from bs4 import BeautifulSoup #爬虫bs4
import os
#爬高考校花网
def xiaohua():url="http://www.gaokao.com/gkpic/"response=requests.get(url) #get请求网址response.encoding="GBK" #编码为gbk,以免中文乱码html=response.text  #用变量接收响应的文本信息file=BeautifulSoup(html,'html.parser') #定义一个bs4方法img=file.find(name='div',attrs={'id':'imgall'})  #使用定义的方法查找出所有div标签下 的图片路径#使用正则表达式提取所有校花图片url,注意后面形参要是str格式imagelist=re.findall('src="(.*?)"/>',str(img))#print(imagelist)#定义存储图片路径,如果不存在就创建一个,os为系统命令dir='校花'if not os.path.exists(dir):os.mkdir(dir)for image in imagelist:#定义图片名为.jpg前面的字符,截取方法tpm=image.split('/')[-1]#循环请求图片urlres=requests.get(image)#with open 方法将图片写入dir目录with open (dir+'/'+tpm,'wb') as f:f.write(res.content)if __name__ == '__main__':xiaohua()

python爬校花网笔记相关推荐

  1. day01 初见python爬虫之“爬校花网”和“自动登录github”

    首先我们来解释一下几个概念: 1.什么是爬虫? 爬取数据. 2.什么是互联网? 由一堆网络设备.把一台台的计算机互联到一起称之为互联网. 3.互联网建立的目的: 数据的传递与数据的共享. 4.什么是数 ...

  2. Python 爬虫 校花网

    爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 福利来了  校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易,不会受到打击,第二呢 你懂得.... 1.第一步,需要下 ...

  3. Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片

    ####1.安装scrapy 建议:最好在新的虚拟环境里面安装scrapy 注意:博主是在 Ubuntu18.04 + Python3.6 环境下进行开发的,如果遇到安装scrapy不成功请自行百度/ ...

  4. Python爬虫:正则表达式爬取校花网

    #正则表达式爬取校花网 # 网址 url = 'http://www.xiaohuar.com' #分页爬取大学校花图片共16页640张美图 1.导入模块 import requests import ...

  5. Python爬取校花网,妈妈再也不会担心我不给她发女朋友照片了

    本文同步发表于我的微信公众号,扫一扫文章底部的二维码或在微信搜索 极客导航 即可关注,每个工作日都有文章更新. 一.概况 上一篇我们用一个表情网站入门了爬虫,爬了很多表情.今天我们继续在爬的路上,今天 ...

  6. Python之爬虫-校花网

    Python之爬虫-校花网 #!/usr/bin/env python # -*- coding:utf-8 -*-import re import requests# 拿到校花网主页的内容 resp ...

  7. pycharm 爬取校花网

    1 1:什么是爬虫 2 定义:狭义:模拟浏览器,浏览网页,保存数据的程序 3 定义:广义:自动下载网络数据(网页,游戏,qq)的程序 4 打开校花网 'www.xiaohuar.com/hua/' # ...

  8. div不占位置_Python爬取校花网,妈妈再也不会担心我不给她发女朋友照片了

    一.概况 上一篇我们用一个表情网站入门了爬虫,爬了很多表情.今天我们继续在爬的路上,今天就爬个校花吧,毕竟妹子属于稀缺资源,要不妈妈总会问,你到底找不找女朋友了,爬点校花吧,以后跟妈妈聊天,可以哭着对 ...

  9. 使用Xpath爬取校花网,致敬10年前的校花『和』我们逝去的青春

    使用xpath爬取校花网 难点: 1.各个分类栏目下的页码url不统一 2.只取前三页,或者后三页 文章代码仅使用xpath和requests,本来想用scrapy框架的,但是偷了个懒. 所以就-哈哈 ...

最新文章

  1. url充定向 html转义,html、javascript、url特殊字符的转义诠释及使用方法详解
  2. 5 交换机-direct (路由)
  3. VSTS TFS 强制删除签出锁定项 解除 锁定
  4. mp4 拍摄时间如何看_时间不多了,如何备考期末最有效?这些复习技巧,看了你就会了...
  5. StringBuilder类的对象 c#
  6. vector java 复制_面试官:关于Java性能优化,你有什么技巧
  7. 耿丹16-1第一次作业
  8. 如何禁止特定用户使用sqlplus或PL/SQL Developer等工具登陆?
  9. [转载]一个本科生在世界五大顶尖咨询公司实习心得
  10. Nacos 配置中心原理分Nacos 配置中心原理分析析
  11. 如何查询淘宝天猫的宝贝类目
  12. CM311-1a linux游戏服务器操作立马拥有我的世界私人服务器哦
  13. 打开记事本文件出现黑色方块的解决办法
  14. ScrollView嵌套Tablaout与ViewPager联动(标签)(ScrollView与ViewPager冲突)
  15. 小米手机如何在便签待办事项中输入语音?
  16. jenkins安装下载
  17. 二叉树:输出根节点到叶子的路径
  18. VLAN 、PVLAN
  19. win10任务栏,如何做到图标居中
  20. 互联网公司招聘,你需要注意这四点

热门文章

  1. 互联网大佬的“老赖”传说,前有贾跃亭、戴威,后有罗永浩、冯鑫
  2. matlab 基础函数
  3. Unity 在zSpace上使用鼠标控制相机旋转和鼠标指引式放大缩小,在触屏上手势位置为中心放大缩小
  4. php使用curl进行IP代理访问
  5. 计算机视觉——实验四-全景图像拼接
  6. AS I BEGAN TO LOVE MYSELF 当我开始爱自己 卓别林
  7. VxWorks常用命令
  8. 微信模板消息{{remark.DATA}}备注和头部小标题失效
  9. Android中apk瘦身
  10. python应用实例论文_python人人网登录应用实例