爬取并下载国家地理杂志官网8月份照片
刚看完urlretrieve函数,想要实战一下它的效果,于是找了国家地理杂志中国官网爬一下,网站http://www.nationalgeographic.com.cn/
开发环境是Python2.7&&Pycharm
图片的src是这样的:
我们用正则&&BeautifulSoup匹配它的标签img的src属性,得到了下面代码中的正则匹配,我在Pycharm中建立了photo文件夹,来存放下载的图片。
代码如下:
# encoding: utf-8import urllib
from bs4 import BeautifulSoup
import redef graph(url):page = urllib.urlopen(url).read()soup = BeautifulSoup(page, 'html.parser', from_encoding='utf-8')result = soup.find_all('img', src=re.compile(r'http://image.nationalgeographic.com.cn/2017/08\d{2}/201708\d{11}.jpg'))return resultif __name__ == '__main__':url = 'http://www.nationalgeographic.com.cn/'result = graph(url)count = 0for photo in result:count = count+1urllib.urlretrieve(photo['src'], 'photo/%s.jpg'%count)print '下载完成总共%d张照片'%count
最后的效果:
美国8.21的大日食照片
爬取并下载国家地理杂志官网8月份照片相关推荐
- 正则表达式爬取贵州财经大学-信息学院官网
在学习完正则表达式.常用网络数据爬取模块.正则表达式爬取数据常见方法等内容之后,我将操作一个简单的正则表达式爬取网站的实例.这里我以爬取贵州财经大学-信息学院官网作为实战操作, 网址"htt ...
- 利用aiowebsocket库爬取websocket实例:莱特币官网
转载自公众号:FightingCoder 一.前言 作为一名爬虫工程师,在工作中常常会遇到爬取实时数据的需求,比如体育赛事实时数据.股市实时数据或币圈实时变化的数据.如下图: image image ...
- python爬取云顶之弈官网排名数据
因为宿舍想搞个云顶之弈排名,我并没有找到腾讯官方查询战绩的网站,所以决定对云顶官网的排行榜下手,云顶官网的数据排行网页(下链接)对排名的显示是一个可以滑动的divbox https://lol.qq ...
- python代码示例下载-python爬取音频下载的示例代码
抓取"xmly"鬼故事音频 import json # 在这个url,音频链接为JSON动态生成,所以用到了json模块 import requests headers = { & ...
- Java爬取并下载酷狗音乐
本文方法及代码仅供学习,仅供学习. 案例: 下载酷狗TOP500歌曲,代码用到的代码库包含:Jsoup.HttpClient.fastJson等. 正文: 1.分析是否可以获取到TOP500歌单 打开 ...
- Python爬取De下载站相关代码
Python爬取De下载站相关代码,因为没有设置代理,所以爬到800页左右就被干掉了,后续要加上 import urllib.request import bs4 import re import t ...
- python爬虫公众号音频源代码_python爬取音频下载的示例代码
抓取"xmly"鬼故事音频 import json # 在这个url,音频链接为JSON动态生成,所以用到了json模块 import requests headers = { & ...
- python实战-HTML形式爬虫-批量爬取电影下载链接
文章目录 一.前言 二.思路 1.网站返回内容 2.url分页结构 3.子页面访问形式 4.多种下载链接判断 三.具体代码的实现 四.总结 一.前言 喜欢看片的小伙伴,肯定想打造属于自己的私人影院 ...
- 一键ghost【onekey ghost】最新版本下载,一键ghost官网
一键ghost[onekey ghost]最新版本下载,一键ghost官网 一键ghost[onekey ghost]最新版本下载,一键ghost官网 posted on 2013-11-09 23: ...
最新文章
- 操纵神经元构造后门,腾讯朱雀实验室披露AI模型新型攻击手法
- Google提出移动端新SOTA模型MixNets:用混合深度卷积核提升精度
- Linux(CentOS 7_x64位)系统下安装RDkit
- php基础知识(2),php基础知识学习(二)
- Android Intent 大全[转载]
- Faster R-CNN WINDOWS CPU环境搭建(详细版)
- 第三次学JAVA再学不好就吃翔(part84)--增强for循环
- 部门直推!百度大搜索招聘NLP、搜索方向算法工程师!
- Phoenix 关联hbase表历史数据
- 在oracle数据库中如何插入CLOB值
- python 灰度直方图_python3+opencv 使用灰度直方图来判断图片的亮暗操作
- Python使用reduce()函数计算多个集合的并集与交集
- linux 套接口文件_继上一篇,继续介绍linux 套接口
- python dbf 修改_在Python中将数据写入dbf时出错
- 菜鸟教程-maven
- word回车后间距太大_word换行间距调整 word换行后间距变大
- Leetcode-714. 买卖股票的最佳时机含手续费
- WebSphere如何重启服务
- JavaScript展示商品详情图
- win7变成xp风格了怎么改回_win7桌面怎么改成xp风格|win7桌面改成xp风格的方法
热门文章
- 维度诅咒_专职开发人员的“诅咒”
- draggable禁止拖动_Draggable(拖动)组件 属性、事件、方法
- 机器学习基础算法(2)
- Python+Numpy+CV2/GDAL实现对图像的Wallis匀色
- 计算机的组成侃侃闲谈
- sony电子纸触屏失灵解决办法
- php调扫描仪,操作篇——用扫描仪怎样才能把照片扫描清楚
- Oracle-存储过程ppt讲解
- gRPC(3)- Go使用gRPC
- 国网太原供电公司:数据支撑配电网优化决策,提升投入...