python-爬取古诗文网古诗

标题：爬取古诗文网古诗

# encoding=utf-8
import requests
import re# 请求数据
def parse_page(url):headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari''/537.36 Core/1.70.3756.400 QQBrowser/10.5.4039.400'
}response = requests.get(url,headers)text = response.text# 注： . 是匹配不到 \n 的# 注： DOTALL 匹配所有的字符titles = re.findall(r'<div\sclass="cont">.*?<b>(.*?)<b>',text,re.DOTALL)print(titles)dynasties = re.findall(r'<p class="source">.*?<a.*?>(.*?)</a>',text,re.DOTALL)print(dynasties)authors = re.findall(r'<p class="source">.*?<a.*?>.*?<a.*?>(.*?)</a>',text,re.DOTALL)print(authors)content_tags = re.findall(r'<div class="contson".*?>(.*?)</div>',text,re.DOTALL)# 定义列表，储存纯净的古诗文contents = []# 内容过多，可使用遍历for content in content_tags:print(content)if __name__ == '__main__':# 去掉标签x = re.sub(r'<.*?>',"",content)# strip 将 换行 空白 删去# print(x.strip())contents.append(x.strip())# zip :将所有的列表将其组合生成 zip#a = [1,2]#b = [3,4]#c = zip(a,b)#c = [#   (1,3),(titles,dynasties,authors,contents) #将元祖组合成字典#   (2,4)#]#value = (1,2,3)#a,b,c = value# a=1 b=2 c=3poems =[]for value in zip(titles,dynasties,authors,contents):title,dynasty,author,content = value# 将其分别装入字典中poem = {'title':title,'dynasty':dynasty,'author':author,'content':content}poems.append(poem)for poem in poems:print(poem)print('='*80)def main():url = 'https://www.gushiwen.org/'for x in range(1,11):# %s 控制页数url = "https://www.gushiwen.org/default_%s.aspx" %xparse_page(url)if __name__ == '__main__':main()

python-爬取古诗文网古诗相关推荐

爬取古诗文网的推荐古诗
爬取古诗文网的推荐古诗思路分析完整代码结果展示思路分析本次的主要目的是练习使用正则表达式提取网页中的数据. 该网站的推荐古诗文一共有10页,页码可以在URL中进行控制,比如说,下面的URL指 ...
Python真香之爬取古诗文网
最近在学习Python相关,学习了基本的语法后想搞点事情试试,所以来爬取下古诗文网中的相关作者信息准备资料: 爬取目标:爬取古诗文网的唐代作者的信息目标分析: 一级页面是所有唐代作者的列表,点击名 ...
Python使用网络抓包的方式，利用超级鹰平台识别验证码登录爬取古诗文网、上篇--识别验证码
Python使用网络抓包的方式,利用超级鹰平台识别验证码登录,<爬取古诗文网>. 上篇–识别验证码序言: 哈喽,各位小可爱们,我又来了,这次我新学习到的内容是python爬虫识别验证码. ...
Python实战---使用正则表达式爬取古诗文网
使用正则表达式爬取古诗文网爬取目标具体字段为: title 标题 dynasty 朝代 author 作者 content 内容 tag 标签实现代码 ''' @Description: 使用正 ...
Python爬虫（一）——爬取古诗文网，初识什么是爬虫
首先来说下什么是爬虫,按照百度百科的说法是:是一种按照一定规则,自动抓取万维网信息的程序或者脚本:首先它是程序,需要我们定义好规则,然后程序就会按照定义好的规则抓取网络上的信息,数据抓取下来了之后,需 ...
python爬取古诗文网站诗文一栏的所有诗词
写在前面曾经,我们都有梦,关于文学,关于爱情,关于一场穿越世界的旅行,如今我们深夜饮酒,杯子碰在一起,都是梦破碎的声音曾经,面对诗文如痴如醉,而如今,已漠眼阑珊,风起云涌不再,呜呼哀哉,索一首诗篇 ...
Python-爬虫（爬虫练习爬取古诗文网五言绝句）
目标网站采用的数据解析方式:xpath.bs4.re正则获取网站中所有的五言绝句诗词链接 from bs4 import BeautifulSoup import re# 获取五言绝句代码链接,以 ...
爬虫学习笔记：爬取古诗文网
1.目标网站目标网站:https://so.gushiwen.org/shiwen/default.aspx? 2.爬虫目的爬取目标网站的文本,如古诗的内容,作者,朝代,并且保存到本地中. 3.爬 ...
scrapy框架爬取古诗文网的名句
使用scrapy框架爬取名句,在这里只爬取的了名句和出处两个字段.具体解析如下: items.py 用来存放爬虫爬取下来的数据模型,代码如下: import scrapyclass QsbkItem( ...

python-爬取古诗文网古诗

标题：爬取古诗文网古诗

python-爬取古诗文网古诗相关推荐

最新文章

热门文章