Educode--故宫壁纸网页图片的爬取实验

2024-07-02 03:05:38

第1关：网页爬虫选择题

第2关：获取故宫壁纸网页的第一张图片的信息

实现代码：

import requests

from bs4 import BeautifulSoup

url = "https://www.dpm.org.cn/lights/royal/p/1.html"

#代码开始

r = requests.get(url)

r.encoding = "utf-8"

soup = BeautifulSoup(r.text,"html.parser")

pic=soup.find("div",class_="pic")

x=pic.find("img")

imglj=x.attrs["src"]

imgmz=x.attrs["title"].strip()

#代码结束

print(imglj)

print(imgmz)

f1=open("tpxx.txt","w")

f1.write(imglj+"\n")

f1.write(imgmz+"\n")

f1.close()

第3关：下载故宫壁纸网页的第一张图片

实现代码：

import requests

from bs4 import BeautifulSoup

url = "https://www.dpm.org.cn/lights/royal/p/1.html"

r=requests.get(url)

r.encoding = 'utf-8'

soup=BeautifulSoup(r.text,"html.parser")

pic=soup.find("div", class_="pic")

x=pic.find("img")

imglj=x.attrs["src"]

imgmz=x.attrs["title"].strip()

#代码开始

r=requests.get(imglj)

cpmc="image//"+imgmz+".jpg"

f1=open(cpmc,"bw")

f1.write(r.content)

f1.close()

#代码结束

第4关：下载故宫壁纸网页的单页的多张图片

实现代码：

import requests

from bs4 import BeautifulSoup

url = "https://www.dpm.org.cn/lights/royal/p/1.html"

#代码开始

r=requests.get(url)

r.encoding = 'utf-8'

soup=BeautifulSoup(r.text,"html.parser")

pics=soup.find_all("div", class_="pic")

i=1

for pic in pics:

x=pic.find("img")

imglj=x.attrs["src"]

imgmz=x.attrs["title"].strip()

r=requests.get(imglj)

f=open("image/"+str(i)+imgmz+".jpg","wb")

i=i+1

f.write(r.content)

f.close()

#代码结束

第5关：获取故宫壁纸前五个网页的多张图片的信息

实现代码：

import requests

from bs4 import BeautifulSoup

#代码开始

i=1

for j in range(1,6):

url = "https://www.dpm.org.cn/lights/royal/p/"+str(j)+".html"

r=requests.get(url)

r.encoding = 'utf-8'

soup=BeautifulSoup(r.text,"html.parser")

pics=soup.find_all("div", class_="pic")

for pic in pics:

x=pic.find("img")

imglj=x.attrs["src"]

imgmz=x.attrs["title"].strip()

r=requests.get(imglj)

f1=open("image/"+str(i)+imgmz+".jpg",'wb')

f1.write(r.content)

f1.close()

i=i+1

#代码结束

Educode--故宫壁纸网页图片的爬取实验相关推荐

【用Java爬取网页图片——爬虫爬取数据】
用Java爬取网页图片--爬虫爬取数据 1.在创建项目中导入jsoup 2.创建一个保存下载图片的路径 3.使用URL读取网页路径,jsoup读取网页内容 4.利用属性标签获取图片连接块 5.因为该路 ...
用Python中BeautifulSoup爬取翻页式网页图片（爬取海贼王漫画）
以爬取海贼王漫画为例成果图: 话不多逼,开始表演首先需要的库: import request from bs4 import BeautifulSoup import urllib.request ...
python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
目录前言一.正则表达式的学习 1.正则表达式的匹配工具 2.正则表达式的样式 3.正则表达式的案例二.爬取网页图片 1.分析网页 2.获取数据爬取妹子网的案例后记前言 hello,大家好 ...
eclipse if代码折叠_仅需一页Java代码就能实现网页源码爬取
作者|小鱼儿. yanxiao|CSDN Java代码基于Eclipse简单实现网页源码爬取今天给大家分享我的最新java学习进程--java网页源码爬虫,废话不多说盘代码. 仅需一页代码: pac ...
Python对网页信息进行爬取并对标题分词
本篇文章主要对新浪新闻进行python爬虫爬取. 一.主要使用的python库 requests bs4 json jieba 二.爬取网页的信息爬取的新浪网页:关于开学,钟南山说这两点非常重要! ...
如何用python爬取网页数据,python爬取网页详细教程
大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...
Python+Selenium动态网页的信息爬取
录一.Selenium 1.1 简介 1.2 配置二.对百度进行自动化测试 2.1 进入百度搜索界面 2.2 自动填充百度网页的查询关键字并完成自动搜索三.爬取指定网页的名言 3.1 找到元素 ...
python爬虫百度图片_python3爬取百度图片（2018年11月3日有效）
最终目的:能通过输入关键字进行搜索,爬取相应的图片存储到本地或者数据库首先打开百度图片的网站,搜索任意一个关键字,比如说:水果,得到如下的界面分析: 1.百度图片搜索结果的页面源代码不包含需要提取 ...
动态网页的信息爬取（Python+Selenium）
文章目录一.Selenium 1.1 简介 1.2 配置环境二.自动填充百度网页的查询关键字并完成自动搜索三.爬取一个动态网页的数据 3.1 查看元素 3.2 代码四.爬取京东网站上的感兴趣书 ...

最新文章

热门文章