python学习之 爬取煎蛋网美女图
用到库 os ,requests, base64
os简单介绍:点这里
requests介绍:点这里
base64介绍:点这里
其中 requests和 base64属于第三方库,需要自己安装
pip 一下就好
重点看一下requests 库的介绍,看上面那篇文章我觉得够了
其中,带参数的url请求,就是相当于打开该网页的一个子网页
然后就是煎蛋网网址:http://jandan.net/ooxx
右键,检查,点到页码看到
点到图片
ok,到时候查找地址的时候就用到这几个,简易的通过字符串查找,不过用正则也行(还不会)
还有注意到
网页的url中表示页数的数字是通过base64的方式进行编码的,所以我们需要在代码中进行转换
上代码 各模块封装
import requests as rs
import os
import base64def url_open(url):headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'}respones=rs.get(url,headers=headers)return respones.contentdef get_page(url):html = url_open(url).decode('utf-8')a = html.find('current-comment-page')+23b = html.find(']',a)return html[a:b]def get_url(page_num):targt_num = '20200101-' + str(page_num)targt_num = base64.b64encode(targt_num.encode('utf-8'))page_url = 'http://jiandan.net/ooxx/' + str(targt_num,'utf-8')+'#comments'#网页链接return page_urldef save_image(folder,image_adress):for each in image_adress:filename = each.split('/')[-1]with open(filename,'wb') as f:# 获取的文本实际上是图片的二进制文本each = 'http:' + eachimg = url_open(each)f.write(img)def find_images_address(page_url):html = url_open(page_url).decode('utf-8')img_addrs = []a = html.find('img src=')while a != -1:b = html.find('.jpg',a,a+255)if b != -1: img_addrs.append(html[a+9:b+4])else:b = a + 9a = html.find('img src=',b)return img_addrsdef downloads(folder="学习资料"):os.mkdir(folder)os.chdir(folder)url='http://jiandan.net/ooxx'page_num=int(get_page(url))for i in range(page_num):page_url=get_url(page_num)images_address=find_images_address(page_url)#找到图片的地址save_image(folder, images_address )#存到指定的文件page_num -= 1
if __name__=='__main__':downloads()
python学习之 爬取煎蛋网美女图相关推荐
- Python Scrapy 爬取煎蛋网妹子图实例(一)
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例 爬取 煎蛋网 妹子图,遗憾的是 上周煎蛋网还有妹子图了,但是这周妹子图变成了 随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...
- python3网络爬虫:爬取煎蛋网美女照片
1.1 前言 今天开学不久,课也不多,就想着来做个爬虫,看着好多老司机喜欢看美女图片,想做个爬去煎蛋网的小爬虫.哈哈,下面开车了,各位,上车记得滴卡 参考: http://blog.csdn.net/ ...
- B站小甲鱼零基础python视频P57爬取煎蛋网OOXX妹纸图代码修改
问题描述 在B站看[小甲鱼]零基础入门学习PythonP57集时遇到了一些问题,现在煎蛋网的的图片每一页的网址和视频里的不太一样,看弹幕有的说能爬,有的说不能爬,也没有标明日期,当时挺懵逼的,不知道该 ...
- python爬取煎蛋网妹子图
看了小甲鱼的python教学视频,爬取煎蛋网妹子图的代码已经不适用了,网上其它人的代码多有报错,本萌新结合其他人的方法,终于写出一个可行的,在此分享_(:з)∠)_(运行非常慢就是了) import ...
- python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- python爬图代码实例_Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- python 爬虫爬取煎蛋网妹子图,我1T的硬盘装满了!
前言 大家好,这里是「brucepk」爬虫 系列教程.此系列教程以实例项目为材料进行分析,从项目中学习 python 爬虫,跟着我一起学习,每天进步一点点. 煎蛋网站 image 很多朋友都反应学 p ...
- 利用Selenium爬取煎蛋网妹纸图原来是这么简单!!!
上期说到,下期更新爬取煎蛋网妹纸的selenium版本,它来了!!! 获取页面url信息 获取图片url信息 永久性保存图片 注释: 想要获取GeckoDriver安装包的小伙伴,可以给博主留言或者搜 ...
最新文章
- 基准分类模型、分类应用(多分类数字识别、疾病预测、欺诈检测)、监督学习总结
- 配置vtk(Win8.1 + VS2012+VTK-5.10.1)
- 认识flex中的sprite
- [Todo] 乐观悲观锁,自旋互斥锁等等
- 初步了解Redis Streams以及如何在Java中使用它们
- c++ 数组的输入遇到特定字符停止输入_C语言 第4章-字符串和格式化输入/输出
- Spring常用注解 - 使用注解来构造IoC容器
- HttpClient4.5使用RequestConfig配置连接信息
- 时间戳转中国人能看得懂的日期格式 yy-mm-dd
- NAT对数据业务的影响
- iOS8跳转到系统设置页
- 【SpringBoot_ANNOTATIONS】组件注册 01 @Configuration @Bean
- UITextField的leftView
- 正则过滤 emoji
- html项目答辩ppt范文,论文答辩ppt 论文ppt答辩模板|论文答辩ppt范文6页
- 自然语言处理结合金融专业应用,主要在于资料搜集和处理。
- Android OTA在线升级一(架构分析)【转】
- C++后台开发面试常考
- 【NOIP2014】生活大爆炸版石头剪刀布 模拟
- ESXI 7.0 安装教程
热门文章
- Pr 2020 系统兼容性报告 解决方法
- 非致命战计算机病毒战属于,“非致命战”“计算机病毒战”属于全新作战方式...
- 安卓Service绑定方式启动服务并调用服务中的方法
- 二维码营销平台|码+营销赋能企业数字化营销
- STM32单片机手机APP蓝牙高亮RGB彩灯控制板任意颜色亮度调光
- linux默认桌面环境设置,Lubuntu 18.10首次使用LXQt桌面为默认配置
- 五面拿下阿里飞猪offer,思维图+核心+架构让你一步到位,全网首发!
- 贫瘠之地手游一直显示连接服务器,《炉石传说》贫瘠之地的锤炼进入异常解决攻略 进不去如何解决...
- ipad和iphone适配_如何在iPhone和iPad上禁用Siri
- EMD-GWO-SVR基于经验模态分解和灰狼算法优化支持向量机的时间序列预测MATLAB代码。(含SVR、EMD-SVR、GWO-SVR、EMD-GWO-SVR等4个模型的对比)。