Python爬取起点小说并写入文档
python爬取起点免费小说
按F12查看网页源代码:
发现每一章小说链接在li中,这时可以提取每一章的链接:
def get_html(url):r=requests.get(url)html=BeautifulSoup(r.text,"html.parser")return htmldef get_url(html):url_list=[]ul_list=html.find_all("ul") #找到li的父亲标签ulli_list=ul_list[4].contents #这里我省事,直接从源代码看到在列表第五个,也可以通过判断找到含有li的ul标签# print(li_list[1])for i in range(1,len(li_list),2):url_list.append("https:"+li_list[i].a.attrs["href"])#将找到的li标签中的每一章的链接放入一个列表# print(url_list)return url_list
后续就是从每一章的链接中找到文本写入文本文档
不多说,上代码:
def get_text(url_list):text1=""text=" "for i in range(len(url_list)):html=get_html(url_list[i])text_list=html.find_all("p")for j in range(len(text_list)):text1=text_list[j].textif len(jin)>100:breakjia=jia+jinreturn textdef write_text(text):path="起点小说.text"with open(path,"w") as file:file.write(text)
最后完整的代码:
import requests
from bs4 import BeautifulSoupurl="https://book.qidian.com/info/1014282220#Catalog"def get_html(url):r=requests.get(url)r.encoding=r.apparent_encodinghtml=BeautifulSoup(r.text,"html.parser")return htmldef get_url(html):url_list=[]ul_list=html.find_all("ul")li_list=ul_list[4].contents# print(li_list[1])for i in range(1,len(li_list),2):url_list.append("https:"+li_list[i].a.attrs["href"])# print(url_list)return url_listdef get_text(url_list):text1=""text=" "for i in range(len(url_list)):html=get_html(url_list[i])text_list=html.find_all("p")for j in range(len(text_list)):text1=text_list[j].textif len(jin)>100:breakjia=jia+jinreturn text
def write_text(text):path="/home/jin/life/jin.text"with open(path,"w") as file:file.write(text)def main():html=get_html(url)url_list=get_url(html)text_list=get_text(url_list)write_text(text_list)main()
Python爬取起点小说并写入文档相关推荐
- Python爬取起点小说并保存到本地文件夹和MongoDB数据库中
Python爬取起点小说并保存到本地MongoDB数据库中 工具:Python3.7 + Mongo4.0 + Pycharm """ 爬取起点小说<诡秘之主> ...
- python爬取起点小说
在看完python基础后,再看了半天的beautifulsoup源码解析后,想写一写网络爬取的小案例. 下面是源码 ```python import requests from bs4 import ...
- Python 爬取起点的小说(非vip)
Python 爬取起点的小说(非vip) 起点小说网是一个小说种类比较全面的网站,当然,作为收费类网站,VIP类的小说也很多,章节是VIP的话,有一个动态加载,也就 ...
- 【Python从零到壹】使用XPath解析数据爬取起点小说网数据
我们已经可以从网上爬取数据了,现在我们来看看如何对数据解析 文章目录 1. xpath 的介绍 优点: 安装lxml库 XML的树形结构: 选取节点的表达式举例: 2. 爬取起点小说网 在浏览器中获取 ...
- Python爬虫期末作业 | 爬取起点小说网作者和书名,并以Excel形式存储
使用Python爬虫技术爬取起点小说网作者及书名,并且以xlsx形式保存 前言 随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容. 一. ...
- 完全小白篇-使用Python爬取网络小说
完全小白篇-使用Python爬取网络小说 一.找一个你要爬取的小说 二.分析网页 网页的展示方式 需要用到的库文件 三.向网站发送请求 四.正则提取 五.跳转的逻辑 六.后续处理 七.保存信息进入do ...
- java小说目录提取_完整Java爬取起点小说网小说目录以及对应链接
完整Java爬取起点小说网小说目录以及对应链接 完整Java爬取起点小说网小说目录以及对应链接 (第一次使用markdown写,其中的排版很不好,望大家理解) ?? 因为最近有一个比赛的事情,故前期看 ...
- 使用python爬取网站数据并写入到excel中
文章目录 前言 一.使用python爬取网上数据并写入到excel中 例子一: 例子二: 二.工具类 总结 前言 记录一下使用python将网页上的数据写入到excel中 一.使用python爬取网上 ...
- 爬虫项目实战二:爬取起点小说网
爬取起点小说网 目标 项目准备 网站分析 反爬分析 代码实现 效果显示 目标 爬取一本仙侠类的小说下载并保存为txt文件到本地.本例为"大周仙吏". 项目准备 软件:Pycharm ...
最新文章
- 2018-3-14智能算法(文章--优化问题的智能算法及其哲学内涵)笔记一(什么是优化问题)
- 更改记录表CDHDR和CDPOS
- NOIP2018提高组比赛总结
- LiveVideoStack 主编观察 01
- excel匹配_Excel中的数据匹配和查找
- webpack第一节(4)
- Django syncdb mysql error on localhost - (1045, Access denied for user 'ODBC'@'
- 基于openstack的自动化测试平台设计头脑风暴
- Google开源的FlexboxLayout
- c语言中,x-y,'105',ab,7f8那个是正确的,C语言习题册
- 检查pandas是否存在一列或者多列
- 动画效果之PC端 移动端 探照灯遮罩动画
- SQL server 2008卸载后有残留及彻底卸载
- 小米手机助手linux,小米手机助手
- python给ppt表格加边框_向ppt里插入图片和表格
- 梁宁:增长思维30讲脑图笔记
- IE主页遭篡改解决方法
- Direct Rendering Manager (DRM)
- springboot+vue+安卓二手交易平台源码
- 1.2(redis)5大数据结构