图书馆链接
要在校园网情况下运行。否则没有权限

import requests
import re
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/25"
}
# sw=后是图书类别,可以自定义
url="http://fx.zzu.superlib.net/s?sw=数学&strchannel=11%2C12&size=15&isort=0&x=152_115&pages={0}"
url_list=[]
# 爬取页面的范围,这里选择2到5页
for i in range(2,6):new_url=url.format(i)response=requests.get(url=new_url,headers=headers).textresponse=etree.HTML(response)name_url_list=response.xpath('//*[@id="mainlist"]/div/div[2]/div/ul/li[1]/a[2]/@href')for name in name_url_list:new_name="http://fx.zzu.superlib.net"+nameurl_list.append(new_name)# 书名
title_list=[]
title_re='class="falv_tit" style="float: left;">\s*(.*?)\s*</h4>'
# 作者名
author_list=[]
author_re='<a target="_blank".*?author.*?>(.*?)</a>'
# 主题名
zhutici_list=[]
zhutici_re='主题词.*?target="_blank">(.*?)</a>'
# 页数
yeshu_list=[]
yeshu_re='页码.*?(\d\d\d)页'
# 出版日期
time_list=[]
time_re='出版日期.*?"(\d\d\d\d.\d\d)"'for url in url_list:res=requests.get(url=url,headers=headers).textc=re.findall(title_re,res,re.S)if(len(c)==0):continuetitle_list.append(c[0])author_list.append(','.join(re.findall(author_re, res, re.S)))zhutici_list.append(re.findall(zhutici_re,res,re.S)[0])a=re.findall(yeshu_re, res, re.S)if(len(a)):yeshu_list.append(a[0])else:yeshu_list.append("237")b=re.findall(time_re,res,re.S)if(len(b)):time_list.append(b[0])else:time_list.append('2018.07')
# 结果生成text.txt文件
fp=open("test.txt",mode="w+",encoding="utf-8")
for i in range(len(title_list)):fp.write(''.join(title_list[i].split())+' '+author_list[i]+' '+zhutici_list[i]+' '+yeshu_list[i]+' '+time_list[i]+'\n')
fp.close()

爬取郑州大学图书馆图书信息相关推荐

  1. 用python爬取交大图书馆图书信息

    由于到图书馆中查找数据的时候,每个网页都需要一张一张的翻转,而同时因为每张网页中的内容十分有限,故写此爬虫,方便查找之用 # -*- coding=utf-8 -*- #@author: .Edgar ...

  2. Python按照你的检索爬取天津大学图书馆书籍信息

    Python按照你的检索爬取天津大学图书馆书籍信息 爬取步骤 网页解析 代码 完全自己手写的代码,入门级水平把.对于静态HTML网页爬取来说相对简单,现在对于动态编写JavaScript还不知道如何处 ...

  3. 爬取起点网站图书信息(书名、作者、简介、图片url)

    # 爬取qidian网站图书信息(书名.作者.简介.图片url) import requests from lxml import etree import jsonclass BookSpider( ...

  4. Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

      先来看看页面长啥样的:https://book.douban.com/top250   我们将要爬取哪些信息:书名.链接.评分.一句话评价--   1. 爬取单个信息 我们先来尝试爬取书名,利用之 ...

  5. python 爬虫 爬取当当网图书信息

    初次系统的学习python,在学习完基本语法后,对爬虫进行学习,现在对当当网进行爬取,爬取了基本图书信息,包括图书名.作者等 import requests from time import slee ...

  6. scrapy框架的简单使用——爬取当当网图书信息

    ** Scrapy爬取当当网图书信息实例 --以警察局办案为类比 ** 使用Scrapy进行信息爬取的过程看起来十分的复杂,但是他的操作方式与警局办案十分的相似,那么接下来我们就以故事的形式开始Scr ...

  7. 爬虫Scrapy框架学习(三)-爬取苏宁图书信息案例

    爬取苏宁图书案例 1.项目文件架构 2.爬取数据网页页面 3.suning.py文件 # -*- coding: utf-8 -*- import scrapy from copy import de ...

  8. Python基础之爬取某瓣图书信息

    概述 所谓爬虫,就是帮助我们从互联网上获取相关数据并提取有用的信息.在大数据时代,爬虫是数据采集非常重要的一种手段,比人工进行查询,采集数据更加方便,更加快捷.刚开始学爬虫时,一般从静态,结构比较规范 ...

  9. 爬虫入门经典(二十四) | 爬取当当网图书信息并进行数据清洗

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

最新文章

  1. 华南理工大学计算机操作系统课程设计大作业银行家死锁避免算法模拟,2016春操作系统大作业银行家死锁避免算法模拟.doc...
  2. 前端学习(1914)vue之电商管理系统电商系统之创建right分支并把代码推到码云
  3. Java历经20年沧桑,将持续革新
  4. Mybatis学习总结(二)——Mapper代理开发
  5. Python3 多进程共享变量实现方法(亲测)
  6. python之协程函数、递归、二分法
  7. Mac OS X下安装Java 7及配置Eclipse JDK
  8. 热议 | 深圳中学教师年薪35万,有一半是博士
  9. “普通人,不要随便创业,安心拿工资过日子比啥都强”你怎么看?
  10. Ionic在Android上部署app步骤
  11. 基于核极限学习机(KELM)回归预测 -附代码
  12. 思科模拟器-单臂路由tftp配置
  13. C盘清理——借助软件TreeSizeFree【网盘分享】(亲测有效)
  14. 示波器1m和50欧姆示阻抗匹配_示波器的阻抗选择
  15. R语言小实践---云词分析
  16. VK1668 SSOP24兼用TM1668的LED数码驱动芯片
  17. UMLChina建模竞赛题大全-题目全文+分卷自测(10套100题)
  18. 专访Alasend万能登陆器创作团队
  19. .net System.Web.Mail发送邮件 (已过时)
  20. SSM优秀宿舍评选系统毕业设计-附源码221511

热门文章

  1. 手撕-------BaseDao
  2. Linux_Comand - Check disk space
  3. readxmls r语言_R语言实战(一)介绍、数据集与图形初阶
  4. JJJ-1 early_irq_init
  5. 其实,生命就是一种坚强
  6. 视频质量分析系统VC
  7. 7-6 铺设油井管道
  8. 基于JAVA车辆大全和车牌识别系统(Springboot框架+AI人工智能) 开题报告
  9. 大数据应用:双十一,阿里京东该如何利用大数据寻找突破?
  10. + 网站项目计划书 (专题)