第1关:网页爬虫选择题

第2关:获取故宫壁纸网页的第一张图片的信息

实现代码:

import requests

from bs4 import   BeautifulSoup

url = "https://www.dpm.org.cn/lights/royal/p/1.html"

#代码开始

r = requests.get(url)

r.encoding = "utf-8"

soup = BeautifulSoup(r.text,"html.parser")

pic=soup.find("div",class_="pic")

x=pic.find("img")

imglj=x.attrs["src"]

imgmz=x.attrs["title"].strip()

#代码结束

print(imglj)

print(imgmz)

f1=open("tpxx.txt","w")

f1.write(imglj+"\n")

f1.write(imgmz+"\n")

f1.close()

第3关:下载故宫壁纸网页的第一张图片

实现代码:

import requests

from bs4 import   BeautifulSoup

url = "https://www.dpm.org.cn/lights/royal/p/1.html"

r=requests.get(url)

r.encoding = 'utf-8'

soup=BeautifulSoup(r.text,"html.parser")

pic=soup.find("div", class_="pic")

x=pic.find("img")

imglj=x.attrs["src"]

imgmz=x.attrs["title"].strip()

#代码开始

r=requests.get(imglj)

cpmc="image//"+imgmz+".jpg"

f1=open(cpmc,"bw")

f1.write(r.content)

f1.close()

#代码结束

第4关:下载故宫壁纸网页的单页的多张图片

实现代码:

import requests

from bs4 import   BeautifulSoup

url = "https://www.dpm.org.cn/lights/royal/p/1.html"

#代码开始

r=requests.get(url)

r.encoding = 'utf-8'

soup=BeautifulSoup(r.text,"html.parser")

pics=soup.find_all("div", class_="pic")

i=1

for pic in pics:

x=pic.find("img")

imglj=x.attrs["src"]

imgmz=x.attrs["title"].strip()

r=requests.get(imglj)

f=open("image/"+str(i)+imgmz+".jpg","wb")

i=i+1

f.write(r.content)

f.close()

#代码结束

第5关:获取故宫壁纸前五个网页的多张图片的信息

实现代码:

import requests

from bs4 import   BeautifulSoup

#代码开始

i=1

for j in range(1,6):

url = "https://www.dpm.org.cn/lights/royal/p/"+str(j)+".html"

r=requests.get(url)

r.encoding = 'utf-8'

soup=BeautifulSoup(r.text,"html.parser")

pics=soup.find_all("div", class_="pic")

for pic in pics:

x=pic.find("img")

imglj=x.attrs["src"]

imgmz=x.attrs["title"].strip()

r=requests.get(imglj)

f1=open("image/"+str(i)+imgmz+".jpg",'wb')

f1.write(r.content)

f1.close()

i=i+1

#代码结束

Educode--故宫壁纸网页图片的爬取实验相关推荐

  1. 【用Java爬取网页图片——爬虫爬取数据】

    用Java爬取网页图片--爬虫爬取数据 1.在创建项目中导入jsoup 2.创建一个保存下载图片的路径 3.使用URL读取网页路径,jsoup读取网页内容 4.利用属性标签获取图片连接块 5.因为该路 ...

  2. 用Python中BeautifulSoup爬取翻页式网页图片(爬取海贼王漫画)

    以爬取海贼王漫画为例 成果图: 话不多逼,开始表演 首先需要的库: import request from bs4 import BeautifulSoup import urllib.request ...

  3. python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]

    目录 前言 一.正则表达式的学习 1.正则表达式的匹配工具 2.正则表达式的样式 3.正则表达式的案例 二.爬取网页图片 1.分析网页 2.获取数据 爬取妹子网的案例 后记 前言 hello,大家好 ...

  4. eclipse if代码折叠_仅需一页Java代码就能实现网页源码爬取

    作者|小鱼儿. yanxiao|CSDN Java代码基于Eclipse简单实现网页源码爬取 今天给大家分享我的最新java学习进程--java网页源码爬虫,废话不多说盘代码. 仅需一页代码: pac ...

  5. Python对网页信息进行爬取并对标题分词

    本篇文章主要对新浪新闻进行python爬虫爬取. 一.主要使用的python库 requests bs4 json jieba 二.爬取网页的信息 爬取的新浪网页:关于开学,钟南山说这两点非常重要! ...

  6. 如何用python爬取网页数据,python爬取网页详细教程

    大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...

  7. Python+Selenium动态网页的信息爬取

    录 一.Selenium 1.1 简介 1.2 配置 二.对百度进行自动化测试 2.1 进入百度搜索界面 2.2 自动填充百度网页的查询关键字并完成自动搜索 三.爬取指定网页的名言 3.1 找到元素 ...

  8. python爬虫百度图片_python3爬取百度图片(2018年11月3日有效)

    最终目的:能通过输入关键字进行搜索,爬取相应的图片存储到本地或者数据库 首先打开百度图片的网站,搜索任意一个关键字,比如说:水果,得到如下的界面 分析: 1.百度图片搜索结果的页面源代码不包含需要提取 ...

  9. 动态网页的信息爬取(Python+Selenium)

    文章目录 一.Selenium 1.1 简介 1.2 配置环境 二.自动填充百度网页的查询关键字并完成自动搜索 三.爬取一个动态网页的数据 3.1 查看元素 3.2 代码 四.爬取京东网站上的感兴趣书 ...

最新文章

  1. jsp ajax动态添加数据,jquery Ajax实现Select动态添加数据
  2. 自学python推荐书籍2019-2019最全Python入门学习路线,不是我吹,绝对是最全
  3. VTK:图像收缩用法实战
  4. P1412-经营与开发【dp】
  5. 长沙计算机中级职称分数公布,大家所期待的2020年湖南省长沙中级职称评审公示...
  6. python——asyncio模块实现协程、异步编程(一)
  7. django处理select下拉表单(从model到前端到post到form)
  8. Spring Bean的生命周期自我记忆
  9. apt-get update 更新失败----如何清除破损而且陈旧的PPA仓库 (W: Failed to fetch http://ppa.launchpad.net/jonathonf/pyt)
  10. ios苹果开发者账号申请流程(公司类型)
  11. LaTeX插入视频示例
  12. 请将磁盘插入‘‘U盘(F:)‘‘的解决方法
  13. 设计模式初探之设计模式六大原则(3):依赖倒置原则
  14. uni-app视图容器之movable-view
  15. Javascript深克隆和浅克隆
  16. 高性能本地缓存Ristretto(三)——淘汰策略
  17. 统计学原理 离散程度的度量
  18. Raphael绘制流程图箭头的方法
  19. linux Windows双系统时间不一致的解决办法
  20. 基于BPM的低代码平台如何选型

热门文章

  1. NXP推出新款UHF芯片UCODE 8,灵敏度更高
  2. ML(机器学习)神经网络,阶跃函数,sigmoid激活函数
  3. 山东省“晨星工厂”政策解读汇总需求
  4. HR 必须了解的绩效评估
  5. 深度解析与实践:运用 MATLAB 实现航天器 GPS 导航与姿态控制技术在航空航天工程中的应用与模拟--浅论
  6. _exit和exit的区别
  7. sip转webrtc的并实现网页拨打电话
  8. 二年级上生活语文7.儿子女儿
  9. 关于移动终端之WiFi测试点的总结
  10. XPath与Xquery