爬取书法网站的草书图片

书法网站的链接为http://www.shufazidian.com/

import requests
from bs4 import BeautifulSoup
import osdef get_page(url,word):try:headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0)like Gecko Core/1.70.3704.400 QQBrowser/10.4.3587.400","referer": "http://www.shufazidian.com/","Accept": "text/html, application/xhtml+xml, image/jxr, */*","Accept-Encoding": "gzip, deflate","Accept-Language": "zh-CN","Cache-Control": "no-cache","Connection": "Keep-Alive","Content-Length": "19","Content-Type": "application/x-www-form-urlencoded","Cookie": "cookiesort=7; Hm_lvt_5ac259f575081df787744e91bb73f04e=1563974376,1564218809; Hm_lpvt_5ac259f575081df787744e91bb73f04e=1564226330","Host": "www.shufazidian.com"}data = {'wd': word,'sort': 7}r = requests.post(url, headers= headers,data= data) # post请求r.encoding = r.apparent_encodingr.raise_for_status()return r.contentexcept:return ""def parse_page(html):soup = BeautifulSoup(html ,"lxml")      #解析网页pics = soup.find_all(class_="mbpho")    #获得图片所在的标签pic_link = list()name = list()for i in range(1,len(pics)):pic = pics[i].find(name="a").find(name="img")["src"]    #获得图片的链接并存入列表pic_link.append(pic)title = pics[i].find(name="a")["title"] #获得图片的作者并存入列表name.append(title)pic_dic = dict(zip(pic_link,name))  #构造图片和作者一一对应的字典return pic_dic#print(pic_dic)def to_file(url,word):if not os.path.exists("E://shufa"): #创建书法目录os.mkdir("E://shufa")path = "E://shufa//"+word   #创建搜索图片目录if not os.path.exists(path):os.mkdir(path)os.chdir(path)              #改变当前工作目录到pathhtml = get_page(url, word)  #获得网页的htmlpic_dic = parse_page(html)  #解析网页html，返回图片链接和图片作者对应的字典#print(pic_dic)header = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0)like Gecko Core/1.70.3704.400 QQBrowser/10.4.3587.400","Cookie": "cookiesort=7; Hm_lvt_5ac259f575081df787744e91bb73f04e=1563974376,1564218809; Hm_lpvt_5ac259f575081df787744e91bb73f04e=1564226330"}for item in pic_dic:#url = itemtry:response = requests.get(item, headers=header)if response.status_code == 200:open(pic_dic.get(item) + ".jpg", 'wb').write(response.content)print("{} 保存成功".format(pic_dic.get(item)))except:return ''def main ():url = "http://www.shufazidian.com/"words = ["刘","陶","林","张","任","爱","你","我","草","书"]for word in words:to_file(url,word)"""def main():url = "http://www.shufazidian.com/"words = ["刘","陶","林"]link = list()name = list()i=0if not os.path.exists("E://shufa"):os.mkdir("E://shufa")for word in words:html = get_page(url,word)pic_dic = parse_page(html)path = "E://shufa//" + wordif not os.path.exists(path):os.mkdir(path)os.chdir(path)print(word)for item in pic_dic:#url = itemprint(str(url))header = {'User - Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ''(KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}response = requests.get(item,headers=header)if response.status_code == 200:with open(pic_dic.get(item)+".jpg",'wb') as f:f.write(response.content)print("保存成功")link.append(item)i = i+1name.append(pic_dic.get(item))print(name)"""#print(pic_dic)if __name__ == '__main__':main()

爬取书法网站的草书图片相关推荐

python爬取某网站上的图片2
""" 爬虫:模拟客户端<浏览器,app应用>批量请求服务器数据爬虫数据采集的一般步骤: 1.找数据对应的链接地址 2.发送指定地址请求,请求数据 3.数据提 ...
爬取某网站中的图片数据(爬虫案例) --原创作者
@author: 羽兮39 @time: 2022/12/16 00: 24 憋火,火了我八成要寄. 是一个爬虫的综合案例,包含了urllib库中request的使用和lxml的使用. lxml数据解 ...
python爬取某网站上的图片
1.请求网页 import requests# 请求头,对python爬虫进行伪装 # user-agent:浏览器的身份标识 headers = {'user-agent': 'Mozilla/5. ...
【爬虫】Selenium爬取动态网页的base64图片
文章简介 Selenium爬取动态网页的base64图片,并解决页面完整加载缓慢,base64字符串的获取和格式转码,一些页面不存在,部分照片无法加载等问题.后附源码. 目录 1,需求 2,环境和使用 ...
python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例
本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...
Java爬虫之利用Jsoup+HttpClient爬取类叔叔不约匿名聊天网站的图片,未果——后爬取某网站美女图片案例
博主最近学了一点爬虫的知识,闲着无聊,秉承学以致用的理念,于是突然想到何不挑战一下,爬取一些叔叔不约网站的图片,来巩固一下所学知识(#滑稽).说干就干,打开eclipse或idea,创建maven工程 ...
爬虫爬取二次元网站美女图片
爬虫爬取二次元网站美女图片前言 xpath解析需求分析代码编写总代码前言本次需要爬取二次元网站cos板块下的图片需要用到request模块与lxml模块,所以请提前安装好这两个模块,打开 ...
爬取起点网站图书信息（书名、作者、简介、图片url）
# 爬取qidian网站图书信息(书名.作者.简介.图片url) import requests from lxml import etree import jsonclass BookSpider( ...
python爬虫真假网址,python爬取福利网站图片完整代码,懂得人都懂
网址需要自己替换懂的人都懂512*2,主要学习简单的爬虫,别乱用,否则后果自负! [Python] 纯文本查看复制代码 import requests,bs4,re,os,threadingclas ...

爬取书法网站的草书图片

爬取书法网站的草书图片

爬取书法网站的草书图片相关推荐

最新文章

热门文章