标题:爬取古诗文网古诗

# encoding=utf-8
import requests
import re# 请求数据
def parse_page(url):headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari''/537.36 Core/1.70.3756.400 QQBrowser/10.5.4039.400'
}response = requests.get(url,headers)text = response.text# 注: . 是匹配不到 \n 的# 注: DOTALL 匹配所有的字符titles = re.findall(r'<div\sclass="cont">.*?<b>(.*?)<b>',text,re.DOTALL)print(titles)dynasties = re.findall(r'<p class="source">.*?<a.*?>(.*?)</a>',text,re.DOTALL)print(dynasties)authors = re.findall(r'<p class="source">.*?<a.*?>.*?<a.*?>(.*?)</a>',text,re.DOTALL)print(authors)content_tags = re.findall(r'<div class="contson".*?>(.*?)</div>',text,re.DOTALL)# 定义列表,储存纯净的古诗文contents = []# 内容过多,可使用遍历for content in content_tags:print(content)if __name__ == '__main__':# 去掉标签x = re.sub(r'<.*?>',"",content)# strip 将 换行 空白 删去# print(x.strip())contents.append(x.strip())# zip :将所有的列表将其组合生成 zip#a = [1,2]#b = [3,4]#c = zip(a,b)#c = [#   (1,3),(titles,dynasties,authors,contents) #将元祖组合成字典#   (2,4)#]#value = (1,2,3)#a,b,c = value# a=1 b=2 c=3poems =[]for value in zip(titles,dynasties,authors,contents):title,dynasty,author,content = value# 将其分别装入字典中poem = {'title':title,'dynasty':dynasty,'author':author,'content':content}poems.append(poem)for poem in poems:print(poem)print('='*80)def main():url = 'https://www.gushiwen.org/'for x in range(1,11):# %s 控制页数url = "https://www.gushiwen.org/default_%s.aspx" %xparse_page(url)if __name__ == '__main__':main()

python-爬取古诗文网古诗相关推荐

  1. 爬取古诗文网的推荐古诗

    爬取古诗文网的推荐古诗 思路分析 完整代码 结果展示 思路分析 本次的主要目的是练习使用正则表达式提取网页中的数据. 该网站的推荐古诗文一共有10页,页码可以在URL中进行控制,比如说,下面的URL指 ...

  2. Python真香之爬取古诗文网

    最近在学习Python相关,学习了基本的语法后想搞点事情试试,所以来爬取下古诗文网中的相关作者信息 准备资料: 爬取目标:爬取古诗文网的唐代作者的信息 目标分析: 一级页面是所有唐代作者的列表,点击名 ...

  3. Python使用网络抓包的方式,利用超级鹰平台识别验证码登录爬取古诗文网、上篇--识别验证码

    Python使用网络抓包的方式,利用超级鹰平台识别验证码登录,<爬取古诗文网>. 上篇–识别验证码 序言: 哈喽,各位小可爱们,我又来了,这次我新学习到的内容是python爬虫识别验证码. ...

  4. Python实战---使用正则表达式爬取古诗文网

    使用正则表达式爬取古诗文网 爬取目标 具体字段为: title 标题 dynasty 朝代 author 作者 content 内容 tag 标签 实现代码 ''' @Description: 使用正 ...

  5. Python爬虫(一)——爬取古诗文网,初识什么是爬虫

    首先来说下什么是爬虫,按照百度百科的说法是:是一种按照一定规则,自动抓取万维网信息的程序或者脚本:首先它是程序,需要我们定义好规则,然后程序就会按照定义好的规则抓取网络上的信息,数据抓取下来了之后,需 ...

  6. python爬取古诗文网站诗文一栏的所有诗词

    写在前面 曾经,我们都有梦,关于文学,关于爱情,关于一场穿越世界的旅行,如今我们深夜饮酒,杯子碰在一起,都是梦破碎的声音 曾经,面对诗文如痴如醉,而如今,已漠眼阑珊,风起云涌不再,呜呼哀哉,索一首诗篇 ...

  7. Python-爬虫(爬虫练习 爬取古诗文网五言绝句)

    目标网站 采用的数据解析方式:xpath.bs4.re正则 获取网站中所有的五言绝句诗词链接 from bs4 import BeautifulSoup import re# 获取五言绝句代码链接,以 ...

  8. 爬虫学习笔记:爬取古诗文网

    1.目标网站 目标网站:https://so.gushiwen.org/shiwen/default.aspx? 2.爬虫目的 爬取目标网站的文本,如古诗的内容,作者,朝代,并且保存到本地中. 3.爬 ...

  9. scrapy框架爬取古诗文网的名句

    使用scrapy框架爬取名句,在这里只爬取的了名句和出处两个字段.具体解析如下: items.py 用来存放爬虫爬取下来的数据模型,代码如下: import scrapyclass QsbkItem( ...

最新文章

  1. 自动驾驶车辆何时实现?近期不会实现的五大原因
  2. PHP网站如何搬迁,如何搬迁DedeCMS站点数据
  3. cfg桩设备型号_什么是CFG桩?带您看下CFG桩施工工艺及流程,检测项目
  4. 完善获取数据库数据的写法
  5. 钉钉日志范文100篇_钉钉的日志模板怎么修改 钉钉日志模板修改教程
  6. 写在随手记2亿美金融资之后,财务金融是伪命题还是真风口?
  7. selenium——鼠标事件
  8. lammps教程:薄膜渗透过滤模拟--平衡弛豫过程
  9. 【NFC】 NfcA/NfcB/NfcF/NfcV/IsoDep/Ndef/Mifare/Felica/Pboc/ISOxxxx 都是些什么鸟玩意?
  10. 一图看懂经典面试题——左外连接,右外连接,内连接的区别
  11. 来啦!iphone ios免越狱,个性化修改微信提示音!
  12. 分布式任务定时框架elasticjob详解
  13. Foxmail与QQ邮箱关联创建新账户
  14. Umap与 t-sne可视化CNN特征
  15. 批量转换文件编码(By notepad++)
  16. 二等水准测量记录数据_二等水准测量记录计算示例.doc
  17. Web服务器群集——LVS-DR+Keepalived高可用集群
  18. 课后练习--制作美联英语在线VIP页面——学伴
  19. git服务器搭建用账号和密码,git服务器搭建过程
  20. java 接入门禁卡_javaweb项目获取大华门禁刷卡记录

热门文章

  1. 傅里叶变换性质公式推导
  2. c语言伽马分布随机数,陈默的博客:090906伽马分布的随机数函数- 哲思
  3. 写在Nokia和微软结盟之后
  4. spring boot之maven-wrapper
  5. js系列四:内存回收机制
  6. sphereface:deep hypersphere embedding for face recognition
  7. 【天堂电影院】-人生的缩影
  8. 中国石油大学《工程力学》在线考试
  9. 媒体称中国残保金收入上百亿nbsp;支出…
  10. opengl-第8章:移动,缩放,旋转