Python爬取起点小说并写入文档

python爬取起点免费小说

按F12查看网页源代码:

发现每一章小说链接在li中,这时可以提取每一章的链接:

def get_html(url):r=requests.get(url)html=BeautifulSoup(r.text,"html.parser")return htmldef get_url(html):url_list=[]ul_list=html.find_all("ul")  #找到li的父亲标签ulli_list=ul_list[4].contents  #这里我省事,直接从源代码看到在列表第五个,也可以通过判断找到含有li的ul标签# print(li_list[1])for i in range(1,len(li_list),2):url_list.append("https:"+li_list[i].a.attrs["href"])#将找到的li标签中的每一章的链接放入一个列表# print(url_list)return url_list

后续就是从每一章的链接中找到文本写入文本文档
不多说,上代码:

def get_text(url_list):text1=""text=" "for i in range(len(url_list)):html=get_html(url_list[i])text_list=html.find_all("p")for j in range(len(text_list)):text1=text_list[j].textif len(jin)>100:breakjia=jia+jinreturn textdef write_text(text):path="起点小说.text"with open(path,"w") as file:file.write(text)

最后完整的代码:

import requests
from bs4 import BeautifulSoupurl="https://book.qidian.com/info/1014282220#Catalog"def get_html(url):r=requests.get(url)r.encoding=r.apparent_encodinghtml=BeautifulSoup(r.text,"html.parser")return htmldef get_url(html):url_list=[]ul_list=html.find_all("ul")li_list=ul_list[4].contents# print(li_list[1])for i in range(1,len(li_list),2):url_list.append("https:"+li_list[i].a.attrs["href"])# print(url_list)return url_listdef get_text(url_list):text1=""text=" "for i in range(len(url_list)):html=get_html(url_list[i])text_list=html.find_all("p")for j in range(len(text_list)):text1=text_list[j].textif len(jin)>100:breakjia=jia+jinreturn text
def write_text(text):path="/home/jin/life/jin.text"with open(path,"w") as file:file.write(text)def main():html=get_html(url)url_list=get_url(html)text_list=get_text(url_list)write_text(text_list)main()

Python爬取起点小说并写入文档相关推荐

Python爬取起点小说并保存到本地文件夹和MongoDB数据库中
Python爬取起点小说并保存到本地MongoDB数据库中工具:Python3.7 + Mongo4.0 + Pycharm """ 爬取起点小说<诡秘之主> ...
python爬取起点小说
在看完python基础后,再看了半天的beautifulsoup源码解析后,想写一写网络爬取的小案例. 下面是源码 ```python import requests from bs4 import ...
Python 爬取起点的小说（非vip）
Python 爬取起点的小说(非vip) 起点小说网是一个小说种类比较全面的网站,当然,作为收费类网站,VIP类的小说也很多,章节是VIP的话,有一个动态加载,也就 ...
【Python从零到壹】使用XPath解析数据爬取起点小说网数据
我们已经可以从网上爬取数据了,现在我们来看看如何对数据解析文章目录 1. xpath 的介绍优点: 安装lxml库 XML的树形结构: 选取节点的表达式举例: 2. 爬取起点小说网在浏览器中获取 ...
Python爬虫期末作业 | 爬取起点小说网作者和书名，并以Excel形式存储
使用Python爬虫技术爬取起点小说网作者及书名,并且以xlsx形式保存前言随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容. 一. ...
完全小白篇-使用Python爬取网络小说
完全小白篇-使用Python爬取网络小说一.找一个你要爬取的小说二.分析网页网页的展示方式需要用到的库文件三.向网站发送请求四.正则提取五.跳转的逻辑六.后续处理七.保存信息进入do ...
java小说目录提取_完整Java爬取起点小说网小说目录以及对应链接
完整Java爬取起点小说网小说目录以及对应链接完整Java爬取起点小说网小说目录以及对应链接 (第一次使用markdown写,其中的排版很不好,望大家理解) ?? 因为最近有一个比赛的事情,故前期看 ...
使用python爬取网站数据并写入到excel中
文章目录前言一.使用python爬取网上数据并写入到excel中例子一: 例子二: 二.工具类总结前言记录一下使用python将网页上的数据写入到excel中一.使用python爬取网上 ...
爬虫项目实战二：爬取起点小说网
爬取起点小说网目标项目准备网站分析反爬分析代码实现效果显示目标爬取一本仙侠类的小说下载并保存为txt文件到本地.本例为"大周仙吏". 项目准备软件:Pycharm ...

Python爬取起点小说并写入文档

python爬取起点免费小说

Python爬取起点小说并写入文档相关推荐

最新文章

热门文章