python小实例一:简单爬虫
本文所谓的爬虫就是通过本地远程访问url,然后将url的读成源代码形式,然后对源代码进行解析,获取自己需要的数据,相当于简单数据挖掘。本文实现的是将一个网页的图片爬出保存到本地的过程,例子很简单,用的是python 3.5.2版本,以前的版本可能导入的包的名字不一样,调用的库函数方式有些差别。代码如下:
#coding =utf-8
import urllib.request
import redef getHtml(url):page = urllib.request.urlopen(url) ##打开页面html = page.read() ##获取目标页面的源码return htmldef getImg(html):reg = 'src="(.+?\.png)"' ##正则表达式筛选目标图片格式,有些是'data-original="(.+?\.jpg)"'img = re.compile(reg)html = html.decode('utf-8') ##编码方式为utf-8imglist = re.findall(img, html) ##解析页面源码获取图片列表#print(imglist)x = 0#length = len(imglist)for i in range(6): ##取前6张图片保存imgurl = imglist[i]#imgurl = re.sub('"(.*?)"',r'\1',imgurl) #取单引号里的双引号内容#print(imgurl)urllib.request.urlretrieve(imgurl,'%s.jpg' % x) ##将图片从远程下载到本地并保存x += 1global Max_Num
Max_Num = 1
##有时候无法打开目标网页,需要尝试多次,这里设置为1次
for i in range(Max_Num):try:html = getHtml("view-source:http://www.shangxueba.com/jingyan/2438398.html")getImg(html)breakexcept:if i < Max_Num - 1:continueelse:print ('URLError: <urlopen error timed out> All times is failed ')
python小实例一:简单爬虫相关推荐
- python最简单的爬虫代码,python小实例一简单爬虫
python新手求助 关于爬虫的简单例子 #coding=utf-8from bs4 import BeautifulSoupwith open('', 'r') as file: fcontent ...
- tornado 获取html,python使用tornado实现简单爬虫
本文实例为大家分享了python使用tornado实现简单爬虫的具体代码,供大家参考,具体内容如下 代码在官方文档的示例代码中有,但是作为一个tornado新手来说阅读起来还是有点困难的,于是我在代码 ...
- [Python]小百合十大爬虫
国庆几天在家看了几篇关于使用Python来编写网络爬虫的博客,想来自己断断续续学习Python也有几个月了,但一个像样的程序都没有写过,编程能力并没有得到提高,愧对自己花费的时间.很多时候虽然知道什么 ...
- python爬虫简单实例-最简单爬虫示例(入门级)
[实例简介] [实例截图] [核心代码] from lxml import etree import requests def handle_request(url): heades = { 'Use ...
- python绘制糖葫芦_python简单爬虫(一)
学习python前纠结了下,到底是应该一个个知识点吃透,然后写些小程序.还是应该快速掌握基础语法,快速实践.思考后认为前者这么学习速度真心不高,于是花2天时间看了下python3的语法,虽然很多都不明 ...
- 爬虫软件python功能_python实现简单爬虫功能的示例
python开源工具列表[持续更新] 以下是个人在工作中整理的一些python wheel,供参考.这个列表包含与网页抓取和数据处理的Python库 网络 通用urllib -网络库(stdlib). ...
- 【Python基础】Github标星4.7k,每天推送一个python小实例的Python库
文章来源于Python与算法社区,作者zhenguo 推荐一个 python-small-examples 库,每天推送一个Python实例.时至今日,共有4700人 star 期间多次登上githu ...
- python抓取图片_Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
- Python(五)——简单爬虫学习
掌握爬虫是很有用的技能,也是python中非常受欢迎的一种应用. "学会爬虫,我们就掌握了整个世界",虽然没有这么夸张,但确实可以通过爬虫去爬取很多你所需要的数据. 本章节仅介绍轻 ...
最新文章
- JavaScript继承详解(四)
- angularjs与PHP,我应该混合AngularJS与PHP框架吗?
- 如何应对数据匮乏,试试冷启动阶段开发的风险评分
- 自学html多久能找到工作,学web前端需要多久? 自学多长时间能找到工作?
- Docker系列(一)安装
- IBM PowerAI编程大赛Q2场来袭!探秘金融语料大数据识别
- synchronized几种常见用法
- jni c java_使用JNI在C中调用java代码
- 计算机设备显示黄色感叹号,电脑没声音,设备管理器中声音出现黄色感叹号怎么办?...
- SlideShare:大话SSD (淘宝核心系统数据库组 褚霸)
- 人工智能商业实战应用:金融知识图谱构建与实战【企业内训现场实录】
- 红绿灯检测之模板匹配呸呸呸呸
- Teamview 禁用QuickConnect按钮
- 码农深耕 - 35岁的程序员何去何从?
- jQuery遍历li节点
- html怎么制作图片滚动文字效果,新手请看:网店店铺里的滚动文字效果代码是如何制作的...
- linux世界里类似source insight的工具(zz)-如梦初醒-中国教育人博客
- 网络加速_蓝汛安全CDN加速解决方案,维稳网络安全
- ORA-16032: parameter LOG_ARCHIVE_DEST_3 destination string cannot be translated问题处理过程
- 山洪灾害监测预警系统经验分享