没得事就爬一下我喜欢的海贼王上的图片

需要在d盘下建立一个imgcache文件夹

# -*- coding: utf-8 -*-

import urllib

import urllib2

import json

from bs4 import BeautifulSoup

import threadpool

import thread

class htmlpaser:

def __init__(self):

self.url='http://1.hzfans.sinaapp.com/process.php'

#POST数据到接口

def Post(self,postdata):

# headers = {

# 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'

# }

# data = urllib.urlencode(postdata)

# req = urllib2.Request(self.url,data,headers)

# resp = urllib2.urlopen(req,None,20)

# html = resp.read()

# return html

data = urllib.urlencode(postdata)

req = urllib2.Request(url, data)

html= urllib2.urlopen(req).read()

print html

#获取html内容

def GetHtml(self,url):

headers = {

'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'

}

req = urllib2.Request(url,None,headers)

resp = urllib2.urlopen(req,None,5)

html = resp.read()

#return html.decode('utf8')

return html

def GetHtml2(self,url):

page = urllib.urlopen(url)

html = page.read()

page.close()

return html

def GetHtml3(self,url):

req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

'Accept':'text/html;q=0.9,*/*;q=0.8',

'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',

'Accept-Encoding':'gzip',

'Connection':'close',

'Referer':None #注意如果依然不能抓取的话,这里可以设置抓取网站的host

}

req_timeout = 5

req = urllib2.Request(url,None,req_header)

resp = urllib2.urlopen(req,None,req_timeout)

html = resp.read()

return html

def GetList(self,html):

soup = BeautifulSoup(''.join(html))

baseitem=soup.find('ul',{'class':'list'})

slist=baseitem.select('li a')

return slist

def DownImg(self,imgurl):

path= r"d:/imgcache/"+self.gGetFileName(imgurl)

data = urllib.urlretrieve(imgurl,path)

return data

def gGetFileName(self,url):

if url==None: return None

if url=="" : return ""

arr=url.split("/")

return arr[len(arr)-1]

def mkdir(path):

import os

path=path.strip()

path=path.rstrip("\")

# 判断路径是否存在

# 存在 True

# 不存在 False

isExists=os.path.exists(path)

# 判断结果

if not isExists:

# 如果不存在则创建目录

# 创建目录操作函数

os.makedirs(path)

return True

else:

# 如果目录存在则不创建,并提示目录已存在

return False

#返回两个值

def ParseContent(self,html):

soup = BeautifulSoup(''.join(html))

baseitem=soup.find('div',{'class':'showbox'})

title=soup.find('div',{'class':'msg'}).find('div',{'class':'m_left'}).get_text()

imglist=baseitem.find_all('img')

for img in imglist:

imgurl=img.get('src')

self.DownImg(imgurl)

content=baseitem.get_text().encode('utf8')

position=content.find('热点推荐')

return title,content[0:position]

def ParseItem(self,item):

url=item.get('href')

if url==None:

return

#print url+'

'

html=obj.GetHtml2(url)

title,content=obj.ParseContent(html)

#print title+'

'

return title

def print_result(request, result):

print str(request.requestID)+":"+result

obj=htmlpaser()

pool = threadpool.ThreadPool(10)

for i in range(1,40):

url="http://op.52pk.com/shtml/op_wz/list_2594_%d.shtml"%(i)

html=obj.GetHtml2(url)

items=obj.GetList(html)

print 'add job %d

' % (i)

requests = threadpool.makeRequests(obj.ParseItem, items, print_result)

[pool.putRequest(req) for req in requests]

pool.wait()

python海贼王logo_Python实现的下载op海贼王网的图片相关推荐

  1. python海贼王logo_Python 实现的下载op海贼王网的图片(网络爬虫)

    没得事就爬一下我喜欢的海贼王上的图片 需要在d盘下建立一个imgcache文件夹 # -*- coding: utf-8 -*- import urllib import urllib2 import ...

  2. Python 实现的下载op海贼王网的图片(网络爬虫)

    没得事就爬一下我喜欢的海贼王上的图片 须要在d盘下建立一个imgcache目录 # -*- coding: utf-8 -*-import urllib import urllib2import js ...

  3. python serial库文件下载_Pyserial python 串口驱动库pyserial - 下载 - 搜珍网

    Pyserial/ Pyserial/pyserial-2.7.win32.exe Pyserial/pyserial-2.7.win32_py3k.exe Pyserial/pyserial-2.7 ...

  4. Python爬虫实战(5)-爬取淘宝网服装图片(Selenium+Firefox)

    前言 今天我们巩固一下前面学过的知识,通过Selenium+Firefox实现模拟浏览器并自动翻页,爬取图片并写入本地文件中. 以搜索"女装"为例,自动爬取"女装&quo ...

  5. HTML5期末大作业:海贼王网站设计——代码质量好-海贼王(6页) 学生漫画网页设计模板代码 漫画网页制作模板 学生简单动漫网站设计成品

    HTML5期末大作业:海贼王网站设计--代码质量好-海贼王(6页) 学生漫画网页设计模板代码 漫画网页制作模板 学生简单动漫网站设计成品 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游. ...

  6. # HTML5期末大作业:海贼王影视网站设计——仿京东-海贼王(1页) HTML+CSS+JavaScript 学生DW网页设计作业成品 wweb前端期末大作业 网页设计实例 企业网站制作

    HTML5期末大作业:海贼王影视网站设计--仿京东-海贼王(1页) HTML+CSS+JavaScript 学生DW网页设计作业成品 wweb前端期末大作业 网页设计实例 企业网站制作 常见网页设计作 ...

  7. python教学视频下载-董付国老师Python精品教学,视频教程下载

    课程目录 Python+pillow图像编程1:pillow扩展库安装与基础用法 Python+pillow图像编程2:Image子模块用法1 Python+pillow图像编程3:Image子模块用 ...

  8. python编程案例教程答案-python编程案例教程pdf下载

    python编程案例教程pdf下载内容摘要 python编程案例教程pdf下载教程,巧妙的谋划,巧妙的计谋.娄底电脑教程,巧克力奶茶等都是理想的增肥品.巧克力麦片等等,南宁街舞教程,巧克力成为一种&q ...

  9. 从官网下载的python包如何使用-如何下载python包

    pip 是 Python 包管理工具,该工具提供了对Python 包的查找.下载.安装.卸载的功能. 一般情况 pip 对应的是 Python 2.7,pip3 对应的是 Python 3.x. 部分 ...

最新文章

  1. leetcode 202 快乐数
  2. php 多维素组添加下级,php中如何将元素添加到多维数组
  3. nhibernate many-to-one 没有匹配项时的异常
  4. 转HTML、CSS、font-family:中文字体的英文名称
  5. getmodifiers java_java – getModifiers()方法如何计算多个修饰符的值?
  6. Atom飞行手册翻译: 2.11 Atom中的版本控制
  7. oracle9i使用OMS备份数据
  8. 如果查看oracle_home是否共享_现在还有小伙伴用XP系统吗?经常会共享打印问题...
  9. XP蓝屏代码集(转)
  10. 深度探索二维码及其应用
  11. brew安装php-ffmpeg,macos安装ffmpeg以及出现问题的解决方案,一次成功
  12. 九爷带你了解 Tomcat 优化
  13. Java学习练习题11:Java习题及代码11
  14. 勒索病毒爆发波及中石油:2万座加油站断网
  15. 计算机小学期实践报告,小学期计算机实践报告
  16. python xlsx文件与csv文件转换
  17. 安卓上哔哩哔哩视频的导出
  18. 计算机集群共享gpu,GPU集群
  19. Git:git-merge的--ff和--no-ff
  20. 用C语言,职工信息管理系统

热门文章

  1. PHP各个组件或工具的安装与使用
  2. Vcenter5.5安装部署:[2]web client的安装
  3. Xcode 7中Static Cells自动计算高度失效的解决方法
  4. Throwable、Error、Exception、RuntimeException 区别 联系
  5. CentOS上使用libtld
  6. Windows登录类型知多少?
  7. ASP.NET2.0实现无刷新客户端回调
  8. 有什么类型的MPLS?
  9. 树莓派应用实例1:树莓派状态读取
  10. 图解Redis之数据结构篇——压缩列表