python爬虫之完整代码

复制粘贴，拿来直接跑就行，url之类的都不用改。（python学习群 q： 467604262 ）

import urllib.request
import urllib.parse
import re
import os
#添加header，其中Referer是必须的,否则会返回403错误，User-Agent是必须的，这样才可以伪装成浏览器进行访问
header=\
{
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
"referer":"https://image.baidu.com"
}
url = "https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord={word}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={word}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&cg=girl&pn={pageNum}&rn=30&gsm=1e00000000001e&1490169411926="
keyword = input("请输入搜索关键字：")
#转码
keyword = urllib.parse.quote(keyword,'utf-8')
n = 0
j = 0
while(n<3000):
error = 0
n+=30
#url
url1 = url.format(word=keyword,pageNum=str(n))
#获取请求
rep = urllib.request.Request(url1,headers=header)
#打开网页
rep = urllib.request.urlopen(rep)
#获取网页内容
try:
html = rep.read().decode('utf-8')
# print(html)
except:
print("出错了！")
error = 1
print("出错页数："+str(n))
if error == 1:
continue
#正则匹配
p = re.compile("thumbURL.*?\.jpg")
#获取正则匹配到的结果，返回list
s = p.findall(html)
if os.path.isdir(r"C:\Users\87419\Desktop\Pa") != True:
os.makedirs(r"C:\Users\87419\Desktop\Pa")
with open("testpic.txt","a") as f:
#获取图片
for i in s:
print(i)
i = i.replace('thumbURL":"','')
print(i)
f.write(i)
f.write("\n")
#保存图片
urllib.request.urlretrieve(i,r"C:\Users\87419\Desktop\Pa/pic{num}.jpg".format(num=j))
j+=1
f.close()
print("总共爬取图片数为："+str(j))

python爬虫之完整代码相关推荐

python爬虫爬取图片代码_Python爬虫入门：批量爬取网上图片的两种简单实现方式——基于urllib与requests...
Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...
python爬虫项目-23个Python爬虫开源项目代码
今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号 ...
23个Python爬虫开源项目代码Python爬虫开源项目代码
WechatSogou [1]– 微信公众号爬虫. 基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典. github地址: https: ...
23个Python爬虫开源项目代码
今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号 ...
2021年一个python画图的完整代码
本文作者用简单明了的语言解释了三日k线的交易原则,也分享了如何用python绘制k线图的方法和代码. 关于日本k线交易据说日本人在十七世纪就已经运用技术分析的方法进行大米交易,一位名叫本间宗久的坂田大 ...
23个Python爬虫开源项目代码：微信、淘宝、豆瓣、知乎、微博...
文末有干货 "Python高校",马上关注真爱,请置顶或星标来源:Python数据科学今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新 ...
Python爬虫开源项目代码（爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等等）...
文章目录 1.简介 2.开源项目Github 2.1.WechatSogou [1]– 微信公众号爬虫 2.2.DouBanSpider [2]– 豆瓣读书爬虫 2.3.zhihu_spider [3 ...
python爬虫知乎代码_python爬虫知乎的简单代码实现
随着时代的发展,我们很依赖网络帮助我们解决问题,遇到什么问题就会先百度.除了百度,现在大多数人还会选择通过知乎来解决问题.知乎类似于一个论坛,讨论度比百度高一些,那你知道如何用python爬虫爬知乎网 ...
Python爬虫开源项目代码（爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等等）
文章目录 1.简介 2.开源项目Github 2.1.WechatSogou [1]– 微信公众号爬虫 2.2.DouBanSpider [2]– 豆瓣读书爬虫 2.3.zhihu_spider [3 ...

python爬虫之完整代码

python爬虫之完整代码相关推荐

最新文章

热门文章

python爬虫 之 完整代码

python爬虫 之 完整代码相关推荐

最新文章

热门文章

python爬虫之完整代码

python爬虫之完整代码相关推荐