爬取郑州大学图书馆图书信息

图书馆链接
要在校园网情况下运行。否则没有权限

import requests
import re
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/25"
}
# sw=后是图书类别，可以自定义
url="http://fx.zzu.superlib.net/s?sw=数学&strchannel=11%2C12&size=15&isort=0&x=152_115&pages={0}"
url_list=[]
# 爬取页面的范围，这里选择2到5页
for i in range(2,6):new_url=url.format(i)response=requests.get(url=new_url,headers=headers).textresponse=etree.HTML(response)name_url_list=response.xpath('//*[@id="mainlist"]/div/div[2]/div/ul/li[1]/a[2]/@href')for name in name_url_list:new_name="http://fx.zzu.superlib.net"+nameurl_list.append(new_name)# 书名
title_list=[]
title_re='class="falv_tit" style="float: left;">\s*(.*?)\s*</h4>'
# 作者名
author_list=[]
author_re='<a target="_blank".*?author.*?>(.*?)</a>'
# 主题名
zhutici_list=[]
zhutici_re='主题词.*?target="_blank">(.*?)</a>'
# 页数
yeshu_list=[]
yeshu_re='页码.*?(\d\d\d)页'
# 出版日期
time_list=[]
time_re='出版日期.*?"(\d\d\d\d.\d\d)"'for url in url_list:res=requests.get(url=url,headers=headers).textc=re.findall(title_re,res,re.S)if(len(c)==0):continuetitle_list.append(c[0])author_list.append(','.join(re.findall(author_re, res, re.S)))zhutici_list.append(re.findall(zhutici_re,res,re.S)[0])a=re.findall(yeshu_re, res, re.S)if(len(a)):yeshu_list.append(a[0])else:yeshu_list.append("237")b=re.findall(time_re,res,re.S)if(len(b)):time_list.append(b[0])else:time_list.append('2018.07')
# 结果生成text.txt文件
fp=open("test.txt",mode="w+",encoding="utf-8")
for i in range(len(title_list)):fp.write(''.join(title_list[i].split())+' '+author_list[i]+' '+zhutici_list[i]+' '+yeshu_list[i]+' '+time_list[i]+'\n')
fp.close()

爬取郑州大学图书馆图书信息相关推荐

用python爬取交大图书馆图书信息
由于到图书馆中查找数据的时候,每个网页都需要一张一张的翻转,而同时因为每张网页中的内容十分有限,故写此爬虫,方便查找之用 # -*- coding=utf-8 -*- #@author: .Edgar ...
Python按照你的检索爬取天津大学图书馆书籍信息
Python按照你的检索爬取天津大学图书馆书籍信息爬取步骤网页解析代码完全自己手写的代码,入门级水平把.对于静态HTML网页爬取来说相对简单,现在对于动态编写JavaScript还不知道如何处 ...
爬取起点网站图书信息（书名、作者、简介、图片url）
# 爬取qidian网站图书信息(书名.作者.简介.图片url) import requests from lxml import etree import jsonclass BookSpider( ...
Python爬虫入门 | 4 爬取豆瓣TOP250图书信息
先来看看页面长啥样的:https://book.douban.com/top250 我们将要爬取哪些信息:书名.链接.评分.一句话评价-- 1. 爬取单个信息我们先来尝试爬取书名,利用之 ...
python 爬虫爬取当当网图书信息
初次系统的学习python,在学习完基本语法后,对爬虫进行学习,现在对当当网进行爬取,爬取了基本图书信息,包括图书名.作者等 import requests from time import slee ...
scrapy框架的简单使用——爬取当当网图书信息
** Scrapy爬取当当网图书信息实例 --以警察局办案为类比 ** 使用Scrapy进行信息爬取的过程看起来十分的复杂,但是他的操作方式与警局办案十分的相似,那么接下来我们就以故事的形式开始Scr ...
爬虫Scrapy框架学习（三）-爬取苏宁图书信息案例
爬取苏宁图书案例 1.项目文件架构 2.爬取数据网页页面 3.suning.py文件 # -*- coding: utf-8 -*- import scrapy from copy import de ...
Python基础之爬取某瓣图书信息
概述所谓爬虫,就是帮助我们从互联网上获取相关数据并提取有用的信息.在大数据时代,爬虫是数据采集非常重要的一种手段,比人工进行查询,采集数据更加方便,更加快捷.刚开始学爬虫时,一般从静态,结构比较规范 ...
爬虫入门经典(二十四) | 爬取当当网图书信息并进行数据清洗
大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

爬取郑州大学图书馆图书信息

爬取郑州大学图书馆图书信息相关推荐

最新文章

热门文章