爬取站长之家第一页图片

爬虫 ————需要借助第三方库
requests   beautifulsoup4  html5lib
1.模拟浏览器发送请求 并且接收服务器的响应数据 requests
2.解析并抓取服务器响应的数据 beautifulsoup4(抓取数据) + html5lib(将接收的数据转换成HTML格式)
3.抓取对应的需求数据并且存放在对应的文件中
import os.path
import requests
from bs4 import BeautifulSoup#访问站长之家第一页图片的地址
url="https://sc.chinaz.com/tupian/"
download="img/"
#创建对应的文件夹
if not os.path.exists("img"):os.mkdir(download)
#发送请求
response=requests.get(url)
#检查请求是否成功(检查状态码为200)
if response.status_code==200:#查看请求内容#以文本的方式查看网页信息# print(response.text)#当出现乱码时 获取服务器响应的编码# print(response.encoding)#数据的编码格式# print(response.apparent_encoding)#将服务器响应编码改成数据格式编码response.encoding=response.apparent_encoding#以文本的方式查看网页信息(或出现乱码问题--编码格式不对应)# print(response.text)#在不考虑编码的情况下,可以使用二进制的方式(图片,音频,视频等资源)# print(response.content)#使用beautifulsoup去解析并且抓取数据bs=BeautifulSoup(response.content,"html5lib")# print(bs)#抓取想要的数据# 1.需要获取到图片的地址# 2.通过requests去发送请求获取图片# 3.response.content# 4.将图片保存到本地# file=open("a.jpg","wb")# file.write(response.content)# file.close()#获取存放图片的模块con=bs.select_one("#container")# print(con)#获取图片模块中的所有img标签imgs=con.select("img")# print(imgs)#获取最终的有效图片标签 返回一个listimg_list=imgs[0::2]# print(img_list)#循环遍历img列表,获取src和alt数据for img in img_list:src=img["src2"]alt=img["alt"]print(src,alt)#将数据保存到本地with open(download+alt+".jpg","wb") as file:# res=requests.get(src)# file.write(res.content)file.write(requests.get("https:"+src).content)

初试python爬虫(简单爬取站长之家第一页图片)相关推荐

  1. python爬虫下载小说_用PYTHON爬虫简单爬取网络小说

    用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...

  2. python爬虫练习--爬取站长素材中免费简历模板

    python爬虫练习--爬取站长素材中免费简历模板 一.需求 二.代码 1. 引入库 2. main() 3. saveData(div_list) 4. 收尾 结语 一.需求 此代码是为完成波波老师 ...

  3. 用PYTHON爬虫简单爬取网络小说

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  4. Pycharm + python 爬虫简单爬取网站数据

    本文主要介绍简单的写一个爬取网站图片并将图片下载的python爬虫示例. 首先,python爬虫爬取数据,需要先了解工具包requests以及BeautifulSoup requests中文文档:ht ...

  5. Python爬虫——简单爬取(从网站上爬取一本小说)

    从笔下文学网站爬取一本名为<剑来>的小说,作者为烽火戏诸侯 网站网址如下:https://www.bxwxorg.com/ ①通过查看网页源码找规律(在此之前请弄清楚网站允许爬取的部分,就 ...

  6. python爬虫简单爬取爱思助手壁纸

    # 网络安全法最高可获得刑法 print("正则爬取地址") # 访问网址的库 import urllib.request import re name = 1 for i in ...

  7. python爬虫之爬取网易云音乐的歌曲图片和歌词

    0.目录 1.分析页面 2.获取歌曲的id 3.获取歌曲信息 4.获取歌曲图片url 5.获取歌词 6.总结 7.完整代码 1.分析页面 这一次我们来爬取网易云音乐,爬取歌单内的所有歌曲的图片和歌词, ...

  8. Python爬虫:爬取某鱼颜值主播图片并保存到本地升级版!

    一.准备 1.创建scrapy项目 scrapy startproject douyucd douyuscrapy genspider spider "www.douyu.com" ...

  9. python爬取天天基金_「天天基金网每日净值」python爬虫简单爬取天天基金的基金信息和每日净值 - 金橙教程网...

    天天基金网每日净值 fROM bs4 import BeautifulSoup import Requests import JSON import js2py import time from el ...

最新文章

  1. mongoose笔记
  2. undocumented windows nt pdf_我用Python写了一个PDF转换器!
  3. csharp的几个特殊操作符
  4. 【渝粤教育】国家开放大学2018年春季 4996T水土保持技术 参考试题
  5. HTML怎么在li中加select标签,Vue.js做select下拉列表的实例(ul-li标签仿select标签)_莺语_前端开发者...
  6. 七牛HTML 上传按钮,七牛 JSSDK 配置+常见问题
  7. 《JavaScript权威指南》学习笔记 第三天 找个对象
  8. 代数拓扑笔记(1) —— 胞腔复形
  9. rpm的安装与卸载,常用命令记载
  10. 【cocos】Sprite九宫格拉伸SLICED
  11. 【爱生活】新冠 - 风寒和风热感冒的区别及措施
  12. Eclipse正版(官网下载)安装教程及如何在win7或者win10安装配置jdk1.8
  13. android中评论的删除不了,微信朋友圈可以删评论了,但尴尬的是…
  14. 好妈妈胜过好老师 书摘
  15. 微信手机网页上传图片高效率压缩(Canvas+Base64)
  16. 视频号灰度测试购物车功能,微信要扛起腾讯电商大旗了?
  17. 海尔张瑞敏的十三个观点
  18. COI实验室技能:python控制相机的方法——采集、处理、显示、实时
  19. 算法:快速排序及优化
  20. 【STM32-野火】(三)使用寄存器点亮LED

热门文章

  1. Raspberry Pi Zero:5美元的计算机
  2. 微服务架构集大成者—Spring Cloud (转载)
  3. 淡黄的炼丹炉(篇一):DELL R720深度学习Server上手熟悉
  4. 厦门哪里好玩 这几个地方必去
  5. GTS 解密 —— GTS的原理、架构与特点
  6. Android混淆规则介绍
  7. IBM BladeCenter® HC10 刀片工作站 常见问题 (2)
  8. 289、海康威视内部培训教材干货
  9. 超图学习(Hypergraph Learning)
  10. 社交电商平台是什么?社区团购怎么做?运营经验分享