python-爬虫-史书典籍

import requests
import os
from lxml import html
import timedef get_title_url(tree):'''一级  获取标题'''# 史书典籍# 格式：/book/sanguoyanyi.htmlHistory_book_url_list = tree.xpath("//div[@class='index-li'][3]/ul/li/a/@href")# 格式：三国演义History_book_name_list = tree.xpath("//div[@class='index-li'][3]/ul/li/a/text()")return History_book_url_list,History_book_name_listdef get_article_url(tree):'''二级  获取文章标题'''# 三国演义典籍# 格式：/book/sanguoyanyi/1.htmlbook_url_list = tree.xpath("//div[@class='book-mulu']/ul/li/a/@href")# 格式：第一回·宴桃园豪杰三结义  斩黄巾英雄首立功book_name_list = tree.xpath("//div[@class='book-mulu']/ul/li/a/text()")return book_url_list,book_name_listdef get_article(tree):'''三级  获取文章内容'''# 第一回·宴桃园豪杰三结义  斩黄巾英雄首立功# 格式：/book/sanguoyanyi/1.htmlarticle_list = tree.xpath("//div[@class='chapter_content']/p/text()")return ''.join(article_list)def get_request(url,headers):'''获取页面'''response = requests.get(url=url,headers=headers)tree = html.fromstring(response.text)return treedef save_mkdir(two):'''三级  保存文章夹'''# 一级文件夹if os.path.exists('史书典籍'):passelse:os.mkdir('史书典籍')# 二级文件夹if os.path.exists('史书典籍/'+ two):passelse:os.mkdir('史书典籍/'+ two)def police_2(a):'''二级中断检测'''b = Noneif os.path.exists('史书典籍/police_2.txt'):with open('史书典籍/police_2.txt', 'r') as f:b = f.read()f.close()if b is None:return Trueelif b is '':return Trueif a < int(b):return False# 写入并返回Truewith open('史书典籍/police_2.txt', 'w') as f:f.write(str(a))f.close()return Truedef police_3(a):'''三级中断检测'''b = Noneif os.path.exists('史书典籍/police_3.txt'):with open('史书典籍/police_3.txt', 'r') as f:b = f.read()f.close()if b is None:return Trueelif b is '':return Trueif a < int(b):return False# 写入并返回Truewith open('史书典籍/police_3.txt', 'w') as f:f.write(str(a))f.close()return Truedef main():'''主函数'''# 根路由root = 'http://www.shicimingju.com'# 头部headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36'}# 获取root页面tree1 = get_request(root,headers)# 获取一级名字和路由History_book_url_list, History_book_name_list = get_title_url(tree1)# 获取二级页面for i in range(len(History_book_url_list)):if police_2(i) is False:continue# 二级路由url2 = root + History_book_url_list[i]print("爬取>>>"+History_book_name_list[i]+'开始')tree2 = get_request(url2,headers)# 获取二级名字和路由book_url_list,book_name_list = get_article_url(tree2)# 文章夹保存
        save_mkdir(History_book_name_list[i])# 下载文章for j in range(len(book_url_list)):if police_3(j) is False:continuetime.sleep(1)# 三级路由url3 = root + book_url_list[j]print("爬取:" + book_name_list[j])# 文章tree3 = get_request(url3, headers)txt = get_article(tree3)# 文章标题txt_name = book_name_list[j]# 文章保存file_path = '史书典籍/{}/{}.txt'.format(History_book_name_list[i],(txt_name.replace(' ','')).replace('·',''))with open(file_path,'w',encoding='utf-8') as f:f.write(txt)f.close()print("爬取>>>" + History_book_name_list[i] + '结束')if __name__ == '__main__':main()

转载于:https://www.cnblogs.com/person1-0-1/p/11316076.html

python-爬虫-史书典籍相关推荐

python爬虫lxml解析爬取诗词名句
原创:仅用于学习Python爬虫,请勿商业或恶意爬取数据文件夹和文件都是程序创建,我只爬了这些数据用于测试仅用了两个for循环,并没有搞的太难(函数),适合新手操练,有大量注释易于理解 from ...
Python爬虫实战（02）—— 爬取诗词名句三国演义
目录前言一.准备工作二.爬取步骤 1. 引入库 2. 发送请求拿到页面 3.定位到章节URL 4.拼接URL拿到章节内容 5.存储各章节内容完整代码前言这次爬虫任务是从诗词名句上爬取< ...
连享会-Python爬虫与文本分析专题 (2019.5.17-19)
连享会-Python爬虫与文本分析专题研讨班文章目录连享会-Python爬虫与文本分析专题研讨班 1. 课程概览 2. 嘉宾简介 3. 授课内容 3.1 课程介绍为什么要学爬虫和文本分析? 为什 ...
关于Python爬虫原理和数据抓取1.1
为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数数据平台购买数据:数据堂.国云数据 ...
python爬虫之Scrapy框架的post请求和核心组件的工作流程
python爬虫之Scrapy框架的post请求和核心组件的工作流程一 Scrapy的post请求的实现在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...
python爬虫抓取信息_python爬虫爬取网上药品信息并且存入数据库
我最近在学习python爬虫,然后正好碰上数据库课设,我就选了一个连锁药店的,所以就把网上的药品信息爬取了下来. 1,首先分析网页 2,我想要的是评论数比较多的,毕竟好东西大概是买的人多才好.然后你会 ...
python爬虫案例_推荐上百个github上Python爬虫案例
现在学生都对爬虫感兴趣,这里发现一些好的github开源的代码,分享给各位 1.awesome-spider 该网站提供了近上百个爬虫案例代码,这是ID为facert的一个知乎工程师开源的,star6 ...
Python培训分享：python爬虫可以用来做什么?
爬虫又被称为网络蜘蛛,它可以抓取我们页面的一些相关数据,近几年Python技术的到来,让我们对爬虫有了一个新的认知,那就是Python爬虫,下面我们就来看看python爬虫可以用来做什么? Pytho ...
玩转 Python 爬虫，需要先知道这些
作者 | 叶庭云来源 | 修炼Python 头图 | 下载于视觉中国爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...
买不到口罩怎么办？Python爬虫帮你时刻盯着自动下单！| 原力计划
作者 | 菜园子哇编辑 | 唐小引来源 | CSDN 博客马上上班了,回来的路上,上班地铁上都是非常急需口罩的. 目前也非常难买到正品.发货快的口罩,许多药店都售完了. 并且,淘宝上一些新店口罩 ...

python-爬虫-史书典籍

python-爬虫-史书典籍相关推荐

最新文章

热门文章