本文所谓的爬虫就是通过本地远程访问url,然后将url的读成源代码形式,然后对源代码进行解析,获取自己需要的数据,相当于简单数据挖掘。本文实现的是将一个网页的图片爬出保存到本地的过程,例子很简单,用的是python 3.5.2版本,以前的版本可能导入的包的名字不一样,调用的库函数方式有些差别。代码如下:

#coding =utf-8
import urllib.request
import redef getHtml(url):page = urllib.request.urlopen(url)  ##打开页面html = page.read() ##获取目标页面的源码return htmldef getImg(html):reg = 'src="(.+?\.png)"'  ##正则表达式筛选目标图片格式,有些是'data-original="(.+?\.jpg)"'img = re.compile(reg)html = html.decode('utf-8')  ##编码方式为utf-8imglist = re.findall(img, html) ##解析页面源码获取图片列表#print(imglist)x = 0#length = len(imglist)for i in range(6):  ##取前6张图片保存imgurl = imglist[i]#imgurl = re.sub('"(.*?)"',r'\1',imgurl) #取单引号里的双引号内容#print(imgurl)urllib.request.urlretrieve(imgurl,'%s.jpg' % x) ##将图片从远程下载到本地并保存x += 1global Max_Num
Max_Num = 1
##有时候无法打开目标网页,需要尝试多次,这里设置为1次
for i in range(Max_Num):try:html = getHtml("view-source:http://www.shangxueba.com/jingyan/2438398.html")getImg(html)breakexcept:if i < Max_Num - 1:continueelse:print ('URLError: <urlopen error timed out> All times is failed ')

python小实例一:简单爬虫相关推荐

  1. python最简单的爬虫代码,python小实例一简单爬虫

    python新手求助 关于爬虫的简单例子 #coding=utf-8from bs4 import BeautifulSoupwith open('', 'r') as file: fcontent ...

  2. tornado 获取html,python使用tornado实现简单爬虫

    本文实例为大家分享了python使用tornado实现简单爬虫的具体代码,供大家参考,具体内容如下 代码在官方文档的示例代码中有,但是作为一个tornado新手来说阅读起来还是有点困难的,于是我在代码 ...

  3. [Python]小百合十大爬虫

    国庆几天在家看了几篇关于使用Python来编写网络爬虫的博客,想来自己断断续续学习Python也有几个月了,但一个像样的程序都没有写过,编程能力并没有得到提高,愧对自己花费的时间.很多时候虽然知道什么 ...

  4. python爬虫简单实例-最简单爬虫示例(入门级)

    [实例简介] [实例截图] [核心代码] from lxml import etree import requests def handle_request(url): heades = { 'Use ...

  5. python绘制糖葫芦_python简单爬虫(一)

    学习python前纠结了下,到底是应该一个个知识点吃透,然后写些小程序.还是应该快速掌握基础语法,快速实践.思考后认为前者这么学习速度真心不高,于是花2天时间看了下python3的语法,虽然很多都不明 ...

  6. 爬虫软件python功能_python实现简单爬虫功能的示例

    python开源工具列表[持续更新] 以下是个人在工作中整理的一些python wheel,供参考.这个列表包含与网页抓取和数据处理的Python库 网络 通用urllib -网络库(stdlib). ...

  7. 【Python基础】Github标星4.7k,每天推送一个python小实例的Python库

    文章来源于Python与算法社区,作者zhenguo 推荐一个 python-small-examples 库,每天推送一个Python实例.时至今日,共有4700人 star 期间多次登上githu ...

  8. python抓取图片_Python3简单爬虫抓取网页图片

    现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...

  9. Python(五)——简单爬虫学习

    掌握爬虫是很有用的技能,也是python中非常受欢迎的一种应用. "学会爬虫,我们就掌握了整个世界",虽然没有这么夸张,但确实可以通过爬虫去爬取很多你所需要的数据. 本章节仅介绍轻 ...

最新文章

  1. JavaScript继承详解(四)
  2. angularjs与PHP,我应该混合AngularJS与PHP框架吗?
  3. 如何应对数据匮乏,试试冷启动阶段开发的风险评分
  4. 自学html多久能找到工作,学web前端需要多久? 自学多长时间能找到工作?
  5. Docker系列(一)安装
  6. IBM PowerAI编程大赛Q2场来袭!探秘金融语料大数据识别
  7. synchronized几种常见用法
  8. jni c java_使用JNI在C中调用java代码
  9. 计算机设备显示黄色感叹号,电脑没声音,设备管理器中声音出现黄色感叹号怎么办?...
  10. SlideShare:大话SSD (淘宝核心系统数据库组 褚霸)
  11. 人工智能商业实战应用:金融知识图谱构建与实战【企业内训现场实录】
  12. 红绿灯检测之模板匹配呸呸呸呸
  13. Teamview 禁用QuickConnect按钮
  14. 码农深耕 - 35岁的程序员何去何从?
  15. jQuery遍历li节点
  16. html怎么制作图片滚动文字效果,新手请看:网店店铺里的滚动文字效果代码是如何制作的...
  17. linux世界里类似source insight的工具(zz)-如梦初醒-中国教育人博客
  18. 网络加速_蓝汛安全CDN加速解决方案,维稳网络安全
  19. ORA-16032: parameter LOG_ARCHIVE_DEST_3 destination string cannot be translated问题处理过程
  20. 山洪灾害监测预警系统经验分享

热门文章

  1. 【网单服务端】攻城掠地游戏服务端外网搭建教程+GM工具
  2. 【论文泛读80】通过滚动交互预测文本可读性
  3. 506页18万字煤矿数字化矿山技术解决方案
  4. java爬取捧腹网段子(多线程版)
  5. 六六:月薪两千也要有一万元的范儿
  6. SCAU_Linux实验5
  7. 10月5号python考试卷两套
  8. DARPA呼吁采用通信技术概念来支持Troop的丛林作战
  9. 【数据库基础】Foreign Key的使用及其优缺点
  10. App inventor小画板