【python爬虫】游民星空福利和壁纸帖图片爬虫

学习python中，写个爬虫小程序，基于2.7版本

代码源码贴在我的Github：https://github.com/qqxx6661/python/blob/master/gamerskyPic1.0.py

# -*- coding: utf-8 -*-
from __future__ import unicode_literals
import urllib
import urllib2
import re
import sys
import socketclass Tool:removeExtraTag = re.compile(r'_cke_saved_src="http.+?.jpg')def replace(self,x):x = re.sub(self.removeExtraTag,"",x)return x.strip()#strip()将前后多余内容删除class Spider:def __init__(self,siteURL):self.siteURL = siteURLdef getPage(self,pageIndex):if pageIndex == 1:url = self.siteURL + ".shtml"else:url = self.siteURL + "_" + str(pageIndex) + ".shtml" print '准备抓取：' + urlrequest = urllib2.Request(url)response = urllib2.urlopen(request)#print response.read()return response.read()def getPic(self,pageIndex):page = self.getPage(pageIndex)#imgre = re.compile(r'src="(http.+?.jpg)">')适合正常抓取imgre = re.compile(r'src="(http.+?.jpg)">')imglist = re.findall(imgre,page)print imglistimglist_clr = []for imgurl in imglist:imgurl_clr = tool.replace(imgurl)imglist_clr.append(imgurl_clr.encode('utf-8'))  #去除u'print '清洗多余字符完成'print imglist_clrx = 0for imgurl_clr in imglist_clr:print '正在保存第%s页的第%s张'%(pageIndex,x+1)urllib.urlretrieve(imgurl_clr,'picture_%s_%s.jpg' % (pageIndex,x+1))x+=1socket.setdefaulttimeout(5.0)   #设置全局超时5秒
tool=Tool()
print '请输入游民星空网址:'
inURL = raw_input()
inURL = inURL[:-6]  #去除.shtml
spider = Spider(inURL)
for x in range(1,20):try:spider.getPic(x)except urllib2.URLError,e:print e.codeprint '已经没有下一页了'break;
print '所有图片保存完毕'

之后会逐渐完善，比如保存至文件夹，超时自动重试，多线程等。

【python爬虫】游民星空福利和壁纸帖图片爬虫相关推荐

python炫酷gui界面_python+tkinter+动画图片+爬虫（查询天气）的GUI图形界面设计
importtimeimport urllib.request #发送网络请求,获取数据 import gzip #压缩和解压缩模块 import json #解析获得的数据 from tkinter ...
[Python]爬取游民星空网站每周精选壁纸（1080高清壁纸）网络爬虫
一.检查首先进入该网站的https://www.gamersky.com/robots.txt页面给出提示: 弹出错误页面注: 网络爬虫:自动或人工识别robots.txt,再进行内容爬取约束 ...
从游民星空爬取每周壁纸
从游民星空爬取每周壁纸从游民星空爬取每周壁纸 1,新建一个Maven项目 2,HttpClientUtils工具类 2,DownLoadUtils 工具类 3,GameSkySpider爬虫 4,执 ...
python如何爬取图片到指定文件夹论文_基于Python的图片爬虫程序设计
互联网中包含大量有价值的数据,网络爬虫通过既定规则可以自动地抓取互联网数据并下载至本地存储.研究网络爬虫的工作原理和基于 Python 网络信息爬取技术模块功能,基于 Requests- B ...
python爬虫（2）爬取游民星空网的图片
python 入门级别爬虫目的:爬取游民星空的图片前两天在游民星空看到几张美图,然后就想把它保存下来,但是一个一个的右键保存,太不爽了,身为一个程序源,一个码农,怎么能这么低级的保存呢? 然后最近 ...
写个python，爬行【游明星空】的壁纸（4）
前文摘要/本文内容: 在上一篇文章中,我们已经成功的把每一期的链接爬行了下来,并且以txt记事本的形式存储到了本地.那么,是时候进行收尾工作,把壁纸都下载到本地了页面分析: 首先,我们还是先打开一期 ...
写个python，爬行【游明星空】的壁纸（5）
前文摘要/本文内容: 好的,我们已经把爬虫的脚本写出来了,写完之后,我们去执行,发现,实际上,在很多细节上,它并不是很好,正所谓,先实现产品功能,再做产品优化嘛,所以这一节,我们就分析一下,脚本都有哪 ...
用Scrapy抓取游民星空每周壁纸精选的图片
很早之前就想抓一些壁纸,本人喜欢去看游民星空(一个主打游戏类的综合性网站).然后很早之前就眼馋它的每周壁纸了,所以这次就将该站的每周壁纸集合中的所有壁纸抓了一下(虽然有打包的可以下,但是还是想尝试一下 ...
python爬虫--王者荣耀高清壁纸下载（多线程）
下面的代码是采用多线程的生产者消费者模式,下载速度比之前文章的普通下载快一点. 普通下载的链接:python爬虫–王者荣耀高清壁纸下载代码在下载方面是没有问题的,可以直接运行,就是在收集打不开链接的 ...

【python爬虫】游民星空福利和壁纸帖图片爬虫

【python爬虫】游民星空福利和壁纸帖图片爬虫相关推荐

最新文章

热门文章