python爬校花网笔记
import requests
import re #正则表达式
from bs4 import BeautifulSoup #爬虫bs4
import os
#爬高考校花网
def xiaohua():url="http://www.gaokao.com/gkpic/"response=requests.get(url) #get请求网址response.encoding="GBK" #编码为gbk,以免中文乱码html=response.text #用变量接收响应的文本信息file=BeautifulSoup(html,'html.parser') #定义一个bs4方法img=file.find(name='div',attrs={'id':'imgall'}) #使用定义的方法查找出所有div标签下 的图片路径#使用正则表达式提取所有校花图片url,注意后面形参要是str格式imagelist=re.findall('src="(.*?)"/>',str(img))#print(imagelist)#定义存储图片路径,如果不存在就创建一个,os为系统命令dir='校花'if not os.path.exists(dir):os.mkdir(dir)for image in imagelist:#定义图片名为.jpg前面的字符,截取方法tpm=image.split('/')[-1]#循环请求图片urlres=requests.get(image)#with open 方法将图片写入dir目录with open (dir+'/'+tpm,'wb') as f:f.write(res.content)if __name__ == '__main__':xiaohua()
python爬校花网笔记相关推荐
- day01 初见python爬虫之“爬校花网”和“自动登录github”
首先我们来解释一下几个概念: 1.什么是爬虫? 爬取数据. 2.什么是互联网? 由一堆网络设备.把一台台的计算机互联到一起称之为互联网. 3.互联网建立的目的: 数据的传递与数据的共享. 4.什么是数 ...
- Python 爬虫 校花网
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 福利来了 校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易,不会受到打击,第二呢 你懂得.... 1.第一步,需要下 ...
- Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片
####1.安装scrapy 建议:最好在新的虚拟环境里面安装scrapy 注意:博主是在 Ubuntu18.04 + Python3.6 环境下进行开发的,如果遇到安装scrapy不成功请自行百度/ ...
- Python爬虫:正则表达式爬取校花网
#正则表达式爬取校花网 # 网址 url = 'http://www.xiaohuar.com' #分页爬取大学校花图片共16页640张美图 1.导入模块 import requests import ...
- Python爬取校花网,妈妈再也不会担心我不给她发女朋友照片了
本文同步发表于我的微信公众号,扫一扫文章底部的二维码或在微信搜索 极客导航 即可关注,每个工作日都有文章更新. 一.概况 上一篇我们用一个表情网站入门了爬虫,爬了很多表情.今天我们继续在爬的路上,今天 ...
- Python之爬虫-校花网
Python之爬虫-校花网 #!/usr/bin/env python # -*- coding:utf-8 -*-import re import requests# 拿到校花网主页的内容 resp ...
- pycharm 爬取校花网
1 1:什么是爬虫 2 定义:狭义:模拟浏览器,浏览网页,保存数据的程序 3 定义:广义:自动下载网络数据(网页,游戏,qq)的程序 4 打开校花网 'www.xiaohuar.com/hua/' # ...
- div不占位置_Python爬取校花网,妈妈再也不会担心我不给她发女朋友照片了
一.概况 上一篇我们用一个表情网站入门了爬虫,爬了很多表情.今天我们继续在爬的路上,今天就爬个校花吧,毕竟妹子属于稀缺资源,要不妈妈总会问,你到底找不找女朋友了,爬点校花吧,以后跟妈妈聊天,可以哭着对 ...
- 使用Xpath爬取校花网,致敬10年前的校花『和』我们逝去的青春
使用xpath爬取校花网 难点: 1.各个分类栏目下的页码url不统一 2.只取前三页,或者后三页 文章代码仅使用xpath和requests,本来想用scrapy框架的,但是偷了个懒. 所以就-哈哈 ...
最新文章
- url充定向 html转义,html、javascript、url特殊字符的转义诠释及使用方法详解
- 5 交换机-direct (路由)
- VSTS TFS 强制删除签出锁定项 解除 锁定
- mp4 拍摄时间如何看_时间不多了,如何备考期末最有效?这些复习技巧,看了你就会了...
- StringBuilder类的对象 c#
- vector java 复制_面试官:关于Java性能优化,你有什么技巧
- 耿丹16-1第一次作业
- 如何禁止特定用户使用sqlplus或PL/SQL Developer等工具登陆?
- [转载]一个本科生在世界五大顶尖咨询公司实习心得
- Nacos 配置中心原理分Nacos 配置中心原理分析析
- 如何查询淘宝天猫的宝贝类目
- CM311-1a linux游戏服务器操作立马拥有我的世界私人服务器哦
- 打开记事本文件出现黑色方块的解决办法
- ScrollView嵌套Tablaout与ViewPager联动(标签)(ScrollView与ViewPager冲突)
- 小米手机如何在便签待办事项中输入语音?
- jenkins安装下载
- 二叉树:输出根节点到叶子的路径
- VLAN 、PVLAN
- win10任务栏,如何做到图标居中
- 互联网公司招聘,你需要注意这四点
热门文章
- 互联网大佬的“老赖”传说,前有贾跃亭、戴威,后有罗永浩、冯鑫
- matlab 基础函数
- Unity 在zSpace上使用鼠标控制相机旋转和鼠标指引式放大缩小,在触屏上手势位置为中心放大缩小
- php使用curl进行IP代理访问
- 计算机视觉——实验四-全景图像拼接
- AS I BEGAN TO LOVE MYSELF 当我开始爱自己 卓别林
- VxWorks常用命令
- 微信模板消息{{remark.DATA}}备注和头部小标题失效
- Android中apk瘦身
- python应用实例论文_python人人网登录应用实例