爬取书法网站的草书图片

书法网站的链接为http://www.shufazidian.com/

import requests
from bs4 import BeautifulSoup
import osdef get_page(url,word):try:headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0)like Gecko Core/1.70.3704.400 QQBrowser/10.4.3587.400","referer": "http://www.shufazidian.com/","Accept": "text/html, application/xhtml+xml, image/jxr, */*","Accept-Encoding": "gzip, deflate","Accept-Language": "zh-CN","Cache-Control": "no-cache","Connection": "Keep-Alive","Content-Length": "19","Content-Type": "application/x-www-form-urlencoded","Cookie": "cookiesort=7; Hm_lvt_5ac259f575081df787744e91bb73f04e=1563974376,1564218809; Hm_lpvt_5ac259f575081df787744e91bb73f04e=1564226330","Host": "www.shufazidian.com"}data = {'wd': word,'sort': 7}r = requests.post(url, headers= headers,data= data) # post请求r.encoding = r.apparent_encodingr.raise_for_status()return r.contentexcept:return ""def parse_page(html):soup = BeautifulSoup(html ,"lxml")      #解析网页pics = soup.find_all(class_="mbpho")    #获得图片所在的标签pic_link = list()name = list()for i in range(1,len(pics)):pic = pics[i].find(name="a").find(name="img")["src"]    #获得图片的链接并存入列表pic_link.append(pic)title = pics[i].find(name="a")["title"] #获得图片的作者并存入列表name.append(title)pic_dic = dict(zip(pic_link,name))  #构造图片和作者一一对应的字典return pic_dic#print(pic_dic)def to_file(url,word):if not os.path.exists("E://shufa"): #创建书法目录os.mkdir("E://shufa")path = "E://shufa//"+word   #创建搜索图片目录if not os.path.exists(path):os.mkdir(path)os.chdir(path)              #改变当前工作目录到pathhtml = get_page(url, word)  #获得网页的htmlpic_dic = parse_page(html)  #解析网页html,返回图片链接和图片作者对应的字典#print(pic_dic)header = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0)like Gecko Core/1.70.3704.400 QQBrowser/10.4.3587.400","Cookie": "cookiesort=7; Hm_lvt_5ac259f575081df787744e91bb73f04e=1563974376,1564218809; Hm_lpvt_5ac259f575081df787744e91bb73f04e=1564226330"}for item in pic_dic:#url = itemtry:response = requests.get(item, headers=header)if response.status_code == 200:open(pic_dic.get(item) + ".jpg", 'wb').write(response.content)print("{} 保存成功".format(pic_dic.get(item)))except:return ''def main ():url = "http://www.shufazidian.com/"words = ["刘","陶","林","张","任","爱","你","我","草","书"]for word in words:to_file(url,word)"""def main():url = "http://www.shufazidian.com/"words = ["刘","陶","林"]link = list()name = list()i=0if not os.path.exists("E://shufa"):os.mkdir("E://shufa")for word in words:html = get_page(url,word)pic_dic = parse_page(html)path = "E://shufa//" + wordif not os.path.exists(path):os.mkdir(path)os.chdir(path)print(word)for item in pic_dic:#url = itemprint(str(url))header = {'User - Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ''(KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}response = requests.get(item,headers=header)if response.status_code == 200:with open(pic_dic.get(item)+".jpg",'wb') as f:f.write(response.content)print("保存成功")link.append(item)i = i+1name.append(pic_dic.get(item))print(name)"""#print(pic_dic)if __name__ == '__main__':main()

爬取书法网站的草书图片相关推荐

  1. python爬取某网站上的图片2

    """ 爬虫:模拟客户端<浏览器,app应用>批量请求服务器数据爬虫数据采集的一般步骤: 1.找数据对应的链接地址 2.发送指定地址请求,请求数据 3.数据提 ...

  2. 爬取某网站中的图片数据(爬虫案例) --原创作者

    @author: 羽兮39 @time: 2022/12/16 00: 24 憋火,火了我八成要寄. 是一个爬虫的综合案例,包含了urllib库中request的使用和lxml的使用. lxml数据解 ...

  3. python爬取某网站上的图片

    1.请求网页 import requests# 请求头,对python爬虫进行伪装 # user-agent:浏览器的身份标识 headers = {'user-agent': 'Mozilla/5. ...

  4. 【爬虫】Selenium爬取动态网页的base64图片

    文章简介 Selenium爬取动态网页的base64图片,并解决页面完整加载缓慢,base64字符串的获取和格式转码,一些页面不存在,部分照片无法加载等问题.后附源码. 目录 1,需求 2,环境和使用 ...

  5. python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例

    本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...

  6. Java爬虫之利用Jsoup+HttpClient爬取类叔叔不约匿名聊天网站的图片,未果——后爬取某网站美女图片案例

    博主最近学了一点爬虫的知识,闲着无聊,秉承学以致用的理念,于是突然想到何不挑战一下,爬取一些叔叔不约网站的图片,来巩固一下所学知识(#滑稽).说干就干,打开eclipse或idea,创建maven工程 ...

  7. 爬虫爬取二次元网站美女图片

    爬虫爬取二次元网站美女图片 前言 xpath解析 需求分析 代码编写 总代码 前言 本次需要爬取二次元网站cos板块下的图片 需要用到request模块与lxml模块,所以请提前安装好这两个模块,打开 ...

  8. 爬取起点网站图书信息(书名、作者、简介、图片url)

    # 爬取qidian网站图书信息(书名.作者.简介.图片url) import requests from lxml import etree import jsonclass BookSpider( ...

  9. python爬虫真假网址,python爬取福利网站图片完整代码,懂得人都懂

    网址需要自己替换懂的人都懂512*2,主要学习简单的爬虫,别乱用,否则后果自负! [Python] 纯文本查看 复制代码 import requests,bs4,re,os,threadingclas ...

最新文章

  1. 大数据开发hadoop核心的分布式消息系统:Apache Kafka 你知道吗
  2. 【ArcGIS风暴】ArcGIS矢量数据分层设色后导出或裁剪后颜色分类丢失完美解决办法
  3. leetcode151. 翻转字符串里的单词
  4. linux安装JDK环境,JDK6.0即java 1.6.0
  5. python输入一个假分数_腾讯内容开放平台
  6. android wear 运动程序,Android Wear 之 为通知添加动作
  7. loadrunner 11 破解
  8. vba移动文件_VBA代码如何移动文件,如何复制文件
  9. SpreadJS 2021 V14.1 Crack
  10. 【源码】基于粒子群算法的MPPT跟踪
  11. 计算机右键管理快捷键,鼠标右键菜单管理
  12. 斐讯K2P路由器设置AP模式(大部分路由器通用
  13. 51单片机红外线发射c语言,51单片机红外发射模块与红外接收模块的代码程序设计...
  14. GCTA学习8 | GCTA计算多性状遗传力和遗传相关
  15. python使用企业微信机器人发送测试报告
  16. Windows 8 自带定时关机的4种实现方法
  17. 2021年全国职业院校技能大赛:网络系统管理项目-真题-模块C-2全套视频讲解含无线地勘
  18. 【CSDN 2020年度征文】江湖路远,不说再见,不负韶光
  19. 数据结构-二叉树-详解
  20. chrome浏览器中自带input样式input:-internal-autofill-selected(修改input背景色)

热门文章

  1. 问题解决:Ubuntu 磁盘空间占满如何清理
  2. Shader-GodRay
  3. 分享一个超全的基于jedis的redis工具类
  4. RizomUV 2019基础与快捷键
  5. Tensorflow2实现像素归一化与频谱归一化
  6. 计蒜客T1301 捡石头
  7. 直播场控助手 | 为什么说直播场控比主播更重要?
  8. JavaScript–图片放大镜
  9. 闲鱼上怎么获得更多曝光量
  10. Linux基础篇学习——vi,vim交互式文本编辑工具