Educode--故宫壁纸网页图片的爬取实验
第1关:网页爬虫选择题
第2关:获取故宫壁纸网页的第一张图片的信息
实现代码:
import requests
from bs4 import BeautifulSoup
url = "https://www.dpm.org.cn/lights/royal/p/1.html"
#代码开始
r = requests.get(url)
r.encoding = "utf-8"
soup = BeautifulSoup(r.text,"html.parser")
pic=soup.find("div",class_="pic")
x=pic.find("img")
imglj=x.attrs["src"]
imgmz=x.attrs["title"].strip()
#代码结束
print(imglj)
print(imgmz)
f1=open("tpxx.txt","w")
f1.write(imglj+"\n")
f1.write(imgmz+"\n")
f1.close()
第3关:下载故宫壁纸网页的第一张图片
实现代码:
import requests
from bs4 import BeautifulSoup
url = "https://www.dpm.org.cn/lights/royal/p/1.html"
r=requests.get(url)
r.encoding = 'utf-8'
soup=BeautifulSoup(r.text,"html.parser")
pic=soup.find("div", class_="pic")
x=pic.find("img")
imglj=x.attrs["src"]
imgmz=x.attrs["title"].strip()
#代码开始
r=requests.get(imglj)
cpmc="image//"+imgmz+".jpg"
f1=open(cpmc,"bw")
f1.write(r.content)
f1.close()
#代码结束
第4关:下载故宫壁纸网页的单页的多张图片
实现代码:
import requests
from bs4 import BeautifulSoup
url = "https://www.dpm.org.cn/lights/royal/p/1.html"
#代码开始
r=requests.get(url)
r.encoding = 'utf-8'
soup=BeautifulSoup(r.text,"html.parser")
pics=soup.find_all("div", class_="pic")
i=1
for pic in pics:
x=pic.find("img")
imglj=x.attrs["src"]
imgmz=x.attrs["title"].strip()
r=requests.get(imglj)
f=open("image/"+str(i)+imgmz+".jpg","wb")
i=i+1
f.write(r.content)
f.close()
#代码结束
第5关:获取故宫壁纸前五个网页的多张图片的信息
实现代码:
import requests
from bs4 import BeautifulSoup
#代码开始
i=1
for j in range(1,6):
url = "https://www.dpm.org.cn/lights/royal/p/"+str(j)+".html"
r=requests.get(url)
r.encoding = 'utf-8'
soup=BeautifulSoup(r.text,"html.parser")
pics=soup.find_all("div", class_="pic")
for pic in pics:
x=pic.find("img")
imglj=x.attrs["src"]
imgmz=x.attrs["title"].strip()
r=requests.get(imglj)
f1=open("image/"+str(i)+imgmz+".jpg",'wb')
f1.write(r.content)
f1.close()
i=i+1
#代码结束
Educode--故宫壁纸网页图片的爬取实验相关推荐
- 【用Java爬取网页图片——爬虫爬取数据】
用Java爬取网页图片--爬虫爬取数据 1.在创建项目中导入jsoup 2.创建一个保存下载图片的路径 3.使用URL读取网页路径,jsoup读取网页内容 4.利用属性标签获取图片连接块 5.因为该路 ...
- 用Python中BeautifulSoup爬取翻页式网页图片(爬取海贼王漫画)
以爬取海贼王漫画为例 成果图: 话不多逼,开始表演 首先需要的库: import request from bs4 import BeautifulSoup import urllib.request ...
- python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
目录 前言 一.正则表达式的学习 1.正则表达式的匹配工具 2.正则表达式的样式 3.正则表达式的案例 二.爬取网页图片 1.分析网页 2.获取数据 爬取妹子网的案例 后记 前言 hello,大家好 ...
- eclipse if代码折叠_仅需一页Java代码就能实现网页源码爬取
作者|小鱼儿. yanxiao|CSDN Java代码基于Eclipse简单实现网页源码爬取 今天给大家分享我的最新java学习进程--java网页源码爬虫,废话不多说盘代码. 仅需一页代码: pac ...
- Python对网页信息进行爬取并对标题分词
本篇文章主要对新浪新闻进行python爬虫爬取. 一.主要使用的python库 requests bs4 json jieba 二.爬取网页的信息 爬取的新浪网页:关于开学,钟南山说这两点非常重要! ...
- 如何用python爬取网页数据,python爬取网页详细教程
大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...
- Python+Selenium动态网页的信息爬取
录 一.Selenium 1.1 简介 1.2 配置 二.对百度进行自动化测试 2.1 进入百度搜索界面 2.2 自动填充百度网页的查询关键字并完成自动搜索 三.爬取指定网页的名言 3.1 找到元素 ...
- python爬虫百度图片_python3爬取百度图片(2018年11月3日有效)
最终目的:能通过输入关键字进行搜索,爬取相应的图片存储到本地或者数据库 首先打开百度图片的网站,搜索任意一个关键字,比如说:水果,得到如下的界面 分析: 1.百度图片搜索结果的页面源代码不包含需要提取 ...
- 动态网页的信息爬取(Python+Selenium)
文章目录 一.Selenium 1.1 简介 1.2 配置环境 二.自动填充百度网页的查询关键字并完成自动搜索 三.爬取一个动态网页的数据 3.1 查看元素 3.2 代码 四.爬取京东网站上的感兴趣书 ...
最新文章
- jsp ajax动态添加数据,jquery Ajax实现Select动态添加数据
- 自学python推荐书籍2019-2019最全Python入门学习路线,不是我吹,绝对是最全
- VTK:图像收缩用法实战
- P1412-经营与开发【dp】
- 长沙计算机中级职称分数公布,大家所期待的2020年湖南省长沙中级职称评审公示...
- python——asyncio模块实现协程、异步编程(一)
- django处理select下拉表单(从model到前端到post到form)
- Spring Bean的生命周期自我记忆
- apt-get update 更新失败----如何清除破损而且陈旧的PPA仓库 (W: Failed to fetch http://ppa.launchpad.net/jonathonf/pyt)
- ios苹果开发者账号申请流程(公司类型)
- LaTeX插入视频示例
- 请将磁盘插入‘‘U盘(F:)‘‘的解决方法
- 设计模式初探之设计模式六大原则(3):依赖倒置原则
- uni-app视图容器之movable-view
- Javascript深克隆和浅克隆
- 高性能本地缓存Ristretto(三)——淘汰策略
- 统计学原理 离散程度的度量
- Raphael绘制流程图箭头的方法
- linux Windows双系统时间不一致的解决办法
- 基于BPM的低代码平台如何选型