python爬取起点免费小说


按F12查看网页源代码:

发现每一章小说链接在li中,这时可以提取每一章的链接:

def get_html(url):r=requests.get(url)html=BeautifulSoup(r.text,"html.parser")return htmldef get_url(html):url_list=[]ul_list=html.find_all("ul")  #找到li的父亲标签ulli_list=ul_list[4].contents  #这里我省事,直接从源代码看到在列表第五个,也可以通过判断找到含有li的ul标签# print(li_list[1])for i in range(1,len(li_list),2):url_list.append("https:"+li_list[i].a.attrs["href"])#将找到的li标签中的每一章的链接放入一个列表# print(url_list)return url_list

后续就是从每一章的链接中找到文本写入文本文档
不多说,上代码:

def get_text(url_list):text1=""text=" "for i in range(len(url_list)):html=get_html(url_list[i])text_list=html.find_all("p")for j in range(len(text_list)):text1=text_list[j].textif len(jin)>100:breakjia=jia+jinreturn textdef write_text(text):path="起点小说.text"with open(path,"w") as file:file.write(text)

最后完整的代码:

import requests
from bs4 import BeautifulSoupurl="https://book.qidian.com/info/1014282220#Catalog"def get_html(url):r=requests.get(url)r.encoding=r.apparent_encodinghtml=BeautifulSoup(r.text,"html.parser")return htmldef get_url(html):url_list=[]ul_list=html.find_all("ul")li_list=ul_list[4].contents# print(li_list[1])for i in range(1,len(li_list),2):url_list.append("https:"+li_list[i].a.attrs["href"])# print(url_list)return url_listdef get_text(url_list):text1=""text=" "for i in range(len(url_list)):html=get_html(url_list[i])text_list=html.find_all("p")for j in range(len(text_list)):text1=text_list[j].textif len(jin)>100:breakjia=jia+jinreturn text
def write_text(text):path="/home/jin/life/jin.text"with open(path,"w") as file:file.write(text)def main():html=get_html(url)url_list=get_url(html)text_list=get_text(url_list)write_text(text_list)main()

Python爬取起点小说并写入文档相关推荐

  1. Python爬取起点小说并保存到本地文件夹和MongoDB数据库中

    Python爬取起点小说并保存到本地MongoDB数据库中 工具:Python3.7 + Mongo4.0 + Pycharm """ 爬取起点小说<诡秘之主> ...

  2. python爬取起点小说

    在看完python基础后,再看了半天的beautifulsoup源码解析后,想写一写网络爬取的小案例. 下面是源码 ```python import requests from bs4 import ...

  3. Python 爬取起点的小说(非vip)

                      Python 爬取起点的小说(非vip) 起点小说网是一个小说种类比较全面的网站,当然,作为收费类网站,VIP类的小说也很多,章节是VIP的话,有一个动态加载,也就 ...

  4. 【Python从零到壹】使用XPath解析数据爬取起点小说网数据

    我们已经可以从网上爬取数据了,现在我们来看看如何对数据解析 文章目录 1. xpath 的介绍 优点: 安装lxml库 XML的树形结构: 选取节点的表达式举例: 2. 爬取起点小说网 在浏览器中获取 ...

  5. Python爬虫期末作业 | 爬取起点小说网作者和书名,并以Excel形式存储

    使用Python爬虫技术爬取起点小说网作者及书名,并且以xlsx形式保存 前言 随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容. 一. ...

  6. 完全小白篇-使用Python爬取网络小说

    完全小白篇-使用Python爬取网络小说 一.找一个你要爬取的小说 二.分析网页 网页的展示方式 需要用到的库文件 三.向网站发送请求 四.正则提取 五.跳转的逻辑 六.后续处理 七.保存信息进入do ...

  7. java小说目录提取_完整Java爬取起点小说网小说目录以及对应链接

    完整Java爬取起点小说网小说目录以及对应链接 完整Java爬取起点小说网小说目录以及对应链接 (第一次使用markdown写,其中的排版很不好,望大家理解) ?? 因为最近有一个比赛的事情,故前期看 ...

  8. 使用python爬取网站数据并写入到excel中

    文章目录 前言 一.使用python爬取网上数据并写入到excel中 例子一: 例子二: 二.工具类 总结 前言 记录一下使用python将网页上的数据写入到excel中 一.使用python爬取网上 ...

  9. 爬虫项目实战二:爬取起点小说网

    爬取起点小说网 目标 项目准备 网站分析 反爬分析 代码实现 效果显示 目标 爬取一本仙侠类的小说下载并保存为txt文件到本地.本例为"大周仙吏". 项目准备 软件:Pycharm ...

最新文章

  1. 2018-3-14智能算法(文章--优化问题的智能算法及其哲学内涵)笔记一(什么是优化问题)
  2. 更改记录表CDHDR和CDPOS
  3. NOIP2018提高组比赛总结
  4. LiveVideoStack 主编观察 01
  5. excel匹配_Excel中的数据匹配和查找
  6. webpack第一节(4)
  7. Django syncdb mysql error on localhost - (1045, Access denied for user 'ODBC'@'
  8. 基于openstack的自动化测试平台设计头脑风暴
  9. Google开源的FlexboxLayout
  10. c语言中,x-y,'105',ab,7f8那个是正确的,C语言习题册
  11. 检查pandas是否存在一列或者多列
  12. 动画效果之PC端 移动端 探照灯遮罩动画
  13. SQL server 2008卸载后有残留及彻底卸载
  14. 小米手机助手linux,小米手机助手
  15. python给ppt表格加边框_向ppt里插入图片和表格
  16. 梁宁:增长思维30讲脑图笔记
  17. IE主页遭篡改解决方法
  18. Direct Rendering Manager (DRM)
  19. springboot+vue+安卓二手交易平台源码
  20. 1.2(redis)5大数据结构

热门文章

  1. 转自 计算机硕士找offer的总结 节选
  2. 大疆笔试中的涉及矩阵最小二乘求解思路
  3. 微信小商店经验个人收集
  4. UReport2 - 套打实现
  5. java poi excel 图表_java poi导出带图表的excel表格
  6. iOS岗位招聘标准水涨船高,五年iOS程序员表示面试太难了
  7. 程旭媛产后复出的第一道坎
  8. 金融行业用户画像六大维度
  9. 21/4/25 项目二:客户信息管理软件
  10. Android6.0 蓝牙搜索不到设备原因,MIUI权限申请机制