python爬虫 之 完整代码
复制粘贴,拿来直接跑就行,url之类的都不用改。(python学习群 q: 467604262 )
import urllib.request
import urllib.parse
import re
import os
#添加header,其中Referer是必须的,否则会返回403错误,User-Agent是必须的,这样才可以伪装成浏览器进行访问
header=\
{
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
"referer":"https://image.baidu.com"
}
url = "https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord={word}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={word}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&cg=girl&pn={pageNum}&rn=30&gsm=1e00000000001e&1490169411926="
keyword = input("请输入搜索关键字:")
#转码
keyword = urllib.parse.quote(keyword,'utf-8')
n = 0
j = 0
while(n<3000):
error = 0
n+=30
#url
url1 = url.format(word=keyword,pageNum=str(n))
#获取请求
rep = urllib.request.Request(url1,headers=header)
#打开网页
rep = urllib.request.urlopen(rep)
#获取网页内容
try:
html = rep.read().decode('utf-8')
# print(html)
except:
print("出错了!")
error = 1
print("出错页数:"+str(n))
if error == 1:
continue
#正则匹配
p = re.compile("thumbURL.*?\.jpg")
#获取正则匹配到的结果,返回list
s = p.findall(html)
if os.path.isdir(r"C:\Users\87419\Desktop\Pa") != True:
os.makedirs(r"C:\Users\87419\Desktop\Pa")
with open("testpic.txt","a") as f:
#获取图片
for i in s:
print(i)
i = i.replace('thumbURL":"','')
print(i)
f.write(i)
f.write("\n")
#保存图片
urllib.request.urlretrieve(i,r"C:\Users\87419\Desktop\Pa/pic{num}.jpg".format(num=j))
j+=1
f.close()
print("总共爬取图片数为:"+str(j))
python爬虫 之 完整代码相关推荐
- python爬虫爬取图片代码_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...
Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...
- python爬虫项目-23个Python爬虫开源项目代码
今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号 ...
- 23个Python爬虫开源项目代码Python爬虫开源项目代码
WechatSogou [1]– 微信公众号爬虫. 基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典. github地址: https: ...
- 23个Python爬虫开源项目代码
今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号 ...
- 2021年一个python画图的完整代码
本文作者用简单明了的语言解释了三日k线的交易原则,也分享了如何用python绘制k线图的方法和代码. 关于日本k线交易据说日本人在十七世纪就已经运用技术分析的方法进行大米交易,一位名叫本间宗久的坂田大 ...
- 23个Python爬虫开源项目代码:微信、淘宝、豆瓣、知乎、微博...
文末有干货 "Python高校",马上关注 真爱,请置顶或星标 来源:Python数据科学 今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新 ...
- Python爬虫开源项目代码(爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网 等等)...
文章目录 1.简介 2.开源项目Github 2.1.WechatSogou [1]– 微信公众号爬虫 2.2.DouBanSpider [2]– 豆瓣读书爬虫 2.3.zhihu_spider [3 ...
- python爬虫知乎代码_python爬虫知乎的简单代码实现
随着时代的发展,我们很依赖网络帮助我们解决问题,遇到什么问题就会先百度.除了百度,现在大多数人还会选择通过知乎来解决问题.知乎类似于一个论坛,讨论度比百度高一些,那你知道如何用python爬虫爬知乎网 ...
- Python爬虫开源项目代码(爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网 等等)
文章目录 1.简介 2.开源项目Github 2.1.WechatSogou [1]– 微信公众号爬虫 2.2.DouBanSpider [2]– 豆瓣读书爬虫 2.3.zhihu_spider [3 ...
最新文章
- Vcastr 3.0 - flash video(flv) player (开源 Open Source)
- shell脚本之变量的作用域
- java死锁以及解决方案
- Google Dremel 原理 - 如何能3秒分析1PB
- 技术差的程序员,90%都输在这点上!骨灰级开发:其实都是在瞎努力!
- C++之return的作用域
- 【DM642学习笔记一】关于Can't Initialize Target CPU的一种解决方法 : Error 0x80000240
- Spring Boot Admin 2.3.1 发布,轻量的图形化监控工具
- 电力监控系统的研究与应用
- ORL Face94 LFW
- Origin如何写入希腊字母
- 比Excel还简单的SQL语句查询
- java source 1.5不支持diamond运算符
- 【数字化常识】浅谈互联网企业的利器——“网络效应”
- Fourier分析入门——第1章——数学预备知识
- java中char数据类型的使用
- Windows技术文章汇集
- centos主机测磁盘读写速度极限
- 雨听 | 英语学习笔记(八)~作文范文:公务员考试的热潮
- 社会管理网格化 源码_张家口市召开市域社会治理暨全市网格化服务管理现场观摩会议...
热门文章
- 计算机网络有哪些工作组,局域网工作组有什么作用?怎么判断两台电脑是不是在一个工作组内...
- 模拟微信红包功能(一)使用“继承-extends ”
- 商城项目---day07---列表页和搜索接口的实现
- 语音后验图特征PPG(Phonetic Posteriorgram)特征简介
- 华为系统鸿蒙更省电吗,【图片】华为鸿蒙系统的厉害之处在于 你可能非用不可
!【手机吧】_百度贴吧...
- JS数值计算彻底消除多余小数,只保留小数点后面两位
- U盘容量变小了怎么恢复教程
- (算法入门)栈和队列-停车场管理系统
- ArcGIS中ArcMap时间滑块功能对长时间序列栅格遥感影像进行动态显示并生成视频或动图
- 使用iTunes恢复固件发生未知错误1013简析