网站选择桌面壁纸网站的汽车主题:

下面的两个print在调试时打开

#print tag

#print attrs

#!/usr/bin/env python

import re

import urllib2

import HTMLParser

base = "http://desk.zol.com.cn"

path = '/home/mk/cars/'

star = ''

def get_url(html):

parser = parse(False)

request = urllib2.Request(html)

response = urllib2.urlopen(request)

resp = response.read()

parser.feed(resp)

def download(url):

content = urllib2.urlopen(url).read()

format = '[0-9]*\.jpg';

res = re.search(format,url);

print 'downloading:',res.group()

filename = path+res.group()

f = open(filename,'w+')

f.write(content)

f.close()

class parse(HTMLParser.HTMLParser):

def __init__(self,Index):

self.Index = Index;

HTMLParser.HTMLParser.__init__(self)

def handle_starttag(self,tag,attrs):

#print tag

#print attrs

if(self.Index):

if not cmp(tag,'a'):

if(len(attrs) == 4):

if(attrs[0] ==('class','pic')):

#print tag

#print attrs

new = base+attrs[1][1]

print 'found a link:',new

global star

star = new

get_url(new)

else:

if not cmp(tag,'img'):

if(attrs[0] == ('id','bigImg')):

#print tag

#print attrs

Image_url = attrs[1][1]

print 'found a picture:',Image_url

download(Image_url)

if not cmp(tag,'a'):

if (len(attrs) == 4):

if (attrs[1] == ('class','next')):

#print tag

#print attrs

next = base + attrs[2][1]

print 'found a link:',next

if (star != next):

get_url(next)

Index_url = 'http://desk.zol.com.cn/qiche/'

con = urllib2.urlopen(Index_url).read()

Parser_index = parse(True)

Parser_index.feed(con)

仅仅就是抓桌面壁纸网站上的优美的壁纸 。。。

python爬虫抓图_Python 爬虫网页抓图保存相关推荐

  1. beautifulsoup网页爬虫解析_Python爬虫3步曲:5分钟学习用Python解析网页

    使用正则表达式解析网页是Python的一个擅长的领域.如果还想更加深入地学习正则表达式,或者在平时经常用到正则表达式,可以进入Regular Expression 101网站学习,网站地址为 http ...

  2. python数据入库_python爬虫(中)--数据建模与保存(入库)

    前言 前面,讲的是提取出来的数据保存进一个extracted_data,再保存进extracted_data_,变成一个list包含list的情况,当然你只提取一项,那就没有必要这么做了,可是我的项目 ...

  3. python官网学习爬虫资料_Python爬虫学习?

    1 爬虫是互联网上最常见的一种东西了吧. 爬虫这东西每天都在网上爬大量的信息,各大搜索引擎厂商每天都有上百万的爬虫在网络上活动,这些爬虫的作用就是给搜索引擎采集互联网上最新的内容,采集来的内容经过分类 ...

  4. python电影爬虫背景介绍_python爬虫-爬虫电影八佰词云

    #数据获取 importrequestsimportreimportcsvimportjiebaimportwordcloud#通过循环实现多页爬虫#观察页面链接规律#https://movie.do ...

  5. python简单爬虫手机号_Python爬虫:大家用公共的手机号干了啥?

    说明:本文所提供的思路和代码都只用于个人测试研究之用,并未对目标网站造成实质性干扰,而且全部细节已经全部告知网站开发者,也请大家不要用于恶意用途. 在我的微信公众号"免费的临时手机号,用这些 ...

  6. python爬图片_python爬虫(爬取图片)

    python爬虫爬图片 爬虫爬校花网校花的图片 第一步 载入爬虫模块#载入爬虫模块 import re #载入爬虫模块 import requests #载入爬虫模块 第二步 获得校花网的地址,获得其 ...

  7. 花一千多学python值吗_Python爬虫应该怎么学?程序猿花了一周整理的学习技巧,请收下...

    原标题:Python爬虫应该怎么学?程序猿花了一周整理的学习技巧,请收下 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多, ...

  8. python流行的爬虫框架_Python爬虫相关框架

    Python爬虫相关框架,Python的爬虫框架就是一些爬虫项目的半成品.比如我们可以将一些常见爬虫功能的实现代码写好,然后留下一些接口,在做不同的爬虫项目时,我们只需要根据实际情况,只需要写少量需要 ...

  9. python爬虫代理服务器_Python爬虫之服务器:代理IP万能

    最近很多同学租服务器用来学习爬虫,对于大部分小白来说,爬虫非常复杂.技术门槛很高.但我们可以通过爬虫获取大量的价值数据,经分析可以发挥巨大的价值,比如:豆瓣.知乎,爬取优质答案,筛选出各话题下热门内容 ...

  10. python爬虫难点_Python爬虫技巧

    ​在本文中,我们将分析几个真实网站,来看看我们在<用Python写网络爬虫(第2版)>中学过的这些技巧是如何应用的.首先我们使用Google演示一个真实的搜索表单,然后是依赖JavaScr ...

最新文章

  1. 12v小型电机型号大全_电机型号参数大全,再不怕看不懂型号了!建议收藏
  2. 什么是消息队列 RocketMQ 版?
  3. BugKuCTF 杂项 宽带信息泄露
  4. mysql update 多个字段_MySql-笔记
  5. WinCE项目-UPS电源管理系统
  6. NOIP模拟测试5「星际旅行·砍树·超级树」
  7. ArcGIS AO开发高亮显示某些要素
  8. python批量合并csv_如何在Python中通过多个列合并两个CSV文件
  9. Intel 64/x86_64/IA-32/x86处理器基本执行环境 (2) - 64位执行环境
  10. C语言从入门到精通保姆级教程(2021版上)
  11. 程序员赚的辛苦钱及好朋友借钱[借钱时你是爷爷,借出去后丢一个朋友不说还多出一个爷爷]
  12. java录入学生信息_java实现学生成绩录入系统
  13. GetKeyState和GetAsyncKeyState的区别
  14. 最大子段和(java)
  15. 光猫 DHCP服务器未响应,案例分享--光猫手工设置后死机的原因之一
  16. matlab仿真igbt,逆变器用IGBT吸收电路的Matlab仿真研究
  17. signal函数详细用法
  18. 欢迎来到天蓝零度的官方微博发布平台
  19. 已被多次定制!!“模拟微信答题的H5小游戏
  20. 数商云SCM系统订单收货场景介绍,探索采购新模式,提升汽车服务企业运营水平

热门文章

  1. #include<intrins.h>中包含的函数说明
  2. AWS 上的云原生 Jenkins
  3. vue工程展示数字动画组件vue animate-number的使用与填坑
  4. 【JDK7】新特性(4) NIO2.0 文件系统
  5. html数据复制粘贴,如何复制和粘贴 HTML (HTML)
  6. 淘宝API app版淘宝商品搜索可选参数
  7. 洛谷 P8584 探索未知 题解
  8. 苏黎世联邦理工学院计算机科学系,苏黎世联邦理工大学专业设置
  9. Python数据分析第七课:时间序列数据的处理
  10. 支持高性能计算场景,博云容器云打造智能算力引擎