初试python爬虫（简单爬取站长之家第一页图片）

爬取站长之家第一页图片

爬虫 ————需要借助第三方库
requests   beautifulsoup4  html5lib
1.模拟浏览器发送请求 并且接收服务器的响应数据 requests
2.解析并抓取服务器响应的数据 beautifulsoup4（抓取数据） + html5lib(将接收的数据转换成HTML格式)
3.抓取对应的需求数据并且存放在对应的文件中

import os.path
import requests
from bs4 import BeautifulSoup#访问站长之家第一页图片的地址
url="https://sc.chinaz.com/tupian/"
download="img/"
#创建对应的文件夹
if not os.path.exists("img"):os.mkdir(download)
#发送请求
response=requests.get(url)
#检查请求是否成功（检查状态码为200）
if response.status_code==200:#查看请求内容#以文本的方式查看网页信息# print(response.text)#当出现乱码时 获取服务器响应的编码# print(response.encoding)#数据的编码格式# print(response.apparent_encoding)#将服务器响应编码改成数据格式编码response.encoding=response.apparent_encoding#以文本的方式查看网页信息（或出现乱码问题--编码格式不对应）# print(response.text)#在不考虑编码的情况下，可以使用二进制的方式(图片，音频，视频等资源)# print(response.content)#使用beautifulsoup去解析并且抓取数据bs=BeautifulSoup(response.content,"html5lib")# print(bs)#抓取想要的数据# 1.需要获取到图片的地址# 2.通过requests去发送请求获取图片# 3.response.content# 4.将图片保存到本地# file=open("a.jpg","wb")# file.write(response.content)# file.close()#获取存放图片的模块con=bs.select_one("#container")# print(con)#获取图片模块中的所有img标签imgs=con.select("img")# print(imgs)#获取最终的有效图片标签 返回一个listimg_list=imgs[0::2]# print(img_list)#循环遍历img列表，获取src和alt数据for img in img_list:src=img["src2"]alt=img["alt"]print(src,alt)#将数据保存到本地with open(download+alt+".jpg","wb") as file:# res=requests.get(src)# file.write(res.content)file.write(requests.get("https:"+src).content)

初试python爬虫（简单爬取站长之家第一页图片）相关推荐

python爬虫下载小说_用PYTHON爬虫简单爬取网络小说
用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...
python爬虫练习--爬取站长素材中免费简历模板
python爬虫练习--爬取站长素材中免费简历模板一.需求二.代码 1. 引入库 2. main() 3. saveData(div_list) 4. 收尾结语一.需求此代码是为完成波波老师 ...
用PYTHON爬虫简单爬取网络小说
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
Pycharm + python 爬虫简单爬取网站数据
本文主要介绍简单的写一个爬取网站图片并将图片下载的python爬虫示例. 首先,python爬虫爬取数据,需要先了解工具包requests以及BeautifulSoup requests中文文档:ht ...
Python爬虫——简单爬取（从网站上爬取一本小说）
从笔下文学网站爬取一本名为<剑来>的小说,作者为烽火戏诸侯网站网址如下:https://www.bxwxorg.com/ ①通过查看网页源码找规律(在此之前请弄清楚网站允许爬取的部分,就 ...
python爬虫简单爬取爱思助手壁纸
# 网络安全法最高可获得刑法 print("正则爬取地址") # 访问网址的库 import urllib.request import re name = 1 for i in ...
python爬虫之爬取网易云音乐的歌曲图片和歌词
0.目录 1.分析页面 2.获取歌曲的id 3.获取歌曲信息 4.获取歌曲图片url 5.获取歌词 6.总结 7.完整代码 1.分析页面这一次我们来爬取网易云音乐,爬取歌单内的所有歌曲的图片和歌词, ...
Python爬虫：爬取某鱼颜值主播图片并保存到本地升级版！
一.准备 1.创建scrapy项目 scrapy startproject douyucd douyuscrapy genspider spider "www.douyu.com" ...
python爬取天天基金_「天天基金网每日净值」python爬虫简单爬取天天基金的基金信息和每日净值 - 金橙教程网...
天天基金网每日净值 fROM bs4 import BeautifulSoup import Requests import JSON import js2py import time from el ...

初试python爬虫（简单爬取站长之家第一页图片）

爬取站长之家第一页图片

初试python爬虫（简单爬取站长之家第一页图片）相关推荐

最新文章

热门文章