刚看完urlretrieve函数,想要实战一下它的效果,于是找了国家地理杂志中国官网爬一下,网站http://www.nationalgeographic.com.cn/


开发环境是Python2.7&&Pycharm

图片的src是这样的:



我们用正则&&BeautifulSoup匹配它的标签img的src属性,得到了下面代码中的正则匹配,我在Pycharm中建立了photo文件夹,来存放下载的图片。


代码如下:

# encoding: utf-8import urllib
from bs4 import BeautifulSoup
import redef graph(url):page = urllib.urlopen(url).read()soup = BeautifulSoup(page, 'html.parser', from_encoding='utf-8')result = soup.find_all('img', src=re.compile(r'http://image.nationalgeographic.com.cn/2017/08\d{2}/201708\d{11}.jpg'))return resultif __name__ == '__main__':url = 'http://www.nationalgeographic.com.cn/'result = graph(url)count = 0for photo in result:count = count+1urllib.urlretrieve(photo['src'], 'photo/%s.jpg'%count)print '下载完成总共%d张照片'%count

最后的效果:

美国8.21的大日食照片



爬取并下载国家地理杂志官网8月份照片相关推荐

  1. 正则表达式爬取贵州财经大学-信息学院官网

    在学习完正则表达式.常用网络数据爬取模块.正则表达式爬取数据常见方法等内容之后,我将操作一个简单的正则表达式爬取网站的实例.这里我以爬取贵州财经大学-信息学院官网作为实战操作, 网址"htt ...

  2. 利用aiowebsocket库爬取websocket实例:莱特币官网

    转载自公众号:FightingCoder 一.前言 作为一名爬虫工程师,在工作中常常会遇到爬取实时数据的需求,比如体育赛事实时数据.股市实时数据或币圈实时变化的数据.如下图: image image ...

  3. python爬取云顶之弈官网排名数据

    ​因为宿舍想搞个云顶之弈排名,我并没有找到腾讯官方查询战绩的网站,所以决定对云顶官网的排行榜下手,云顶官网的数据排行网页(下链接)对排名的显示是一个可以滑动的divbox https://lol.qq ...

  4. python代码示例下载-python爬取音频下载的示例代码

    抓取"xmly"鬼故事音频 import json # 在这个url,音频链接为JSON动态生成,所以用到了json模块 import requests headers = { & ...

  5. Java爬取并下载酷狗音乐

    本文方法及代码仅供学习,仅供学习. 案例: 下载酷狗TOP500歌曲,代码用到的代码库包含:Jsoup.HttpClient.fastJson等. 正文: 1.分析是否可以获取到TOP500歌单 打开 ...

  6. Python爬取De下载站相关代码

    Python爬取De下载站相关代码,因为没有设置代理,所以爬到800页左右就被干掉了,后续要加上 import urllib.request import bs4 import re import t ...

  7. python爬虫公众号音频源代码_python爬取音频下载的示例代码

    抓取"xmly"鬼故事音频 import json # 在这个url,音频链接为JSON动态生成,所以用到了json模块 import requests headers = { & ...

  8. python实战-HTML形式爬虫-批量爬取电影下载链接

    文章目录 一.前言 二.思路 1.网站返回内容 2.url分页结构 3.子页面访问形式 4.多种下载链接判断 三.具体代码的实现 四.总结 一.前言   喜欢看片的小伙伴,肯定想打造属于自己的私人影院 ...

  9. 一键ghost【onekey ghost】最新版本下载,一键ghost官网

    一键ghost[onekey ghost]最新版本下载,一键ghost官网 一键ghost[onekey ghost]最新版本下载,一键ghost官网 posted on 2013-11-09 23: ...

最新文章

  1. 操纵神经元构造后门,腾讯朱雀实验室披露AI模型新型攻击手法
  2. Google提出移动端新SOTA模型MixNets:用混合深度卷积核提升精度
  3. Linux(CentOS 7_x64位)系统下安装RDkit
  4. php基础知识(2),php基础知识学习(二)
  5. Android Intent 大全[转载]
  6. Faster R-CNN WINDOWS CPU环境搭建(详细版)
  7. 第三次学JAVA再学不好就吃翔(part84)--增强for循环
  8. 部门直推!百度大搜索招聘NLP、搜索方向算法工程师!
  9. Phoenix 关联hbase表历史数据
  10. 在oracle数据库中如何插入CLOB值
  11. python 灰度直方图_python3+opencv 使用灰度直方图来判断图片的亮暗操作
  12. Python使用reduce()函数计算多个集合的并集与交集
  13. linux 套接口文件_继上一篇,继续介绍linux 套接口
  14. python dbf 修改_在Python中将数据写入dbf时出错
  15. 菜鸟教程-maven
  16. word回车后间距太大_word换行间距调整 word换行后间距变大
  17. Leetcode-714. 买卖股票的最佳时机含手续费
  18. WebSphere如何重启服务
  19. JavaScript展示商品详情图
  20. win7变成xp风格了怎么改回_win7桌面怎么改成xp风格|win7桌面改成xp风格的方法

热门文章

  1. 维度诅咒_专职开发人员的“诅咒”
  2. draggable禁止拖动_Draggable(拖动)组件 属性、事件、方法
  3. 机器学习基础算法(2)
  4. Python+Numpy+CV2/GDAL实现对图像的Wallis匀色
  5. 计算机的组成侃侃闲谈
  6. sony电子纸触屏失灵解决办法
  7. php调扫描仪,操作篇——用扫描仪怎样才能把照片扫描清楚
  8. Oracle-存储过程ppt讲解
  9. gRPC(3)- Go使用gRPC
  10. 国网太原供电公司:数据支撑配电网优化决策,提升投入...