回想当初自学Python很大一部分原因是想要自己爬数据,今天终于学会了怎么下载小说。于是搞了一波《球状闪电》。

需要用到两个库:requests 和 BeautifulSoup,用 pip 安装即可。

主要的步骤是:

  • 利用 requests.get(url) 获取网页信息。注意如果中文出现乱码,就加上 edcoding = '*',其中星号代表 html 解码方式,通常在 head 里面的 charset 可以找到。
  • 通过审查元素找到想要抓取内容的路径(右击正文部分打开检查即可)
  • 利用 find_all() 抓取有用信息,并进行过滤

但最后效果是换行有点多,格式有些乱。我用 text.replace() 也没用,可能换行符不大一样吧。

同志还需努力。

import requests, sys
from bs4 import BeautifulSoupdef get_contents(target):   # 获取章节内容req = requests.get(url = target)req.encoding = 'GB2312'html = req.textbf = BeautifulSoup(html, features = "lxml")texts = bf.find_all('div', id = 'content')texts = texts[0].text.replace('\n\n', '\n')    #去不掉多余换行?return textsdef writer(name, path, text):   # 写入 pathwrite_flag = Truewith open(path, 'a', encoding = 'utf-8') as f:f.write(name + '\n')f.writelines(text)f.write('\n\n')if __name__ == "__main__":# 获取目录names, urls = [], []req = requests.get(url = 'http://book.sbkk8.com/xiandai/liucixinzuopinji/qiuzhuangshandian')req.encoding = 'GB2312'html = req.textbf = BeautifulSoup(html, features = "lxml")content = bf.find_all('div', class_ = 'mulu')atmp = BeautifulSoup(str(content[0]), features = "lxml")a = atmp.find_all('a')  # 返回一个listnum = len(a)for u in a:     # 每章名称和链接names.append(u.string)urls.append('http://book.sbkk8.com/' + u.get('href'))print("Downloading...")for i in range(num):writer(names[i], 'Ball-lightning.txt', get_contents(urls[i]))print("%.2f%% has been downloaded" % float(100.0*i/num), end = '\r') print("100.00% has been downloaded\nFinish")

利用python爬虫下载小说相关推荐

  1. 利用Python爬虫下载王者荣耀教学视频

    前言: 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这三类人,我给 ...

  2. python爬虫下载小说_用PYTHON爬虫简单爬取网络小说

    用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...

  3. python爬虫下载小说_python 爬取小说并下载的示例

    代码 import requests import time from tqdm import tqdm from bs4 import BeautifulSoup """ ...

  4. Python 简单爬虫下载小说txt

    Python 简单爬虫下载小说txt #第一次写爬虫代码 欢迎交流指正 我们范例爬取的对象是笔趣阁的<圣墟> (最近非常火的连载小说) ##为什么选择笔趣阁# 主要是因为笔趣阁的源代码没有 ...

  5. python爬虫之小说网站--下载小说(正则表达式)

    python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...

  6. python爬虫爬取音乐_利用python爬虫实现爬取网易云音乐热歌榜

    利用python爬虫实现爬取网易云音乐热歌榜 发布时间:2020-11-09 16:12:28 来源:亿速云 阅读:102 作者:Leah 本篇文章给大家分享的是有关利用python爬虫实现爬取网易云 ...

  7. 小游戏,利用Python爬虫之制作诗歌接龙

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:数据森麟 ( 想要学习Python?Python学习交 ...

  8. 手把手教你利用 python 爬虫分析基金、股票

    手把手教你利用 python 爬虫分析基金.股票 文章目录 手把手教你利用 python 爬虫分析基金.股票 第一步:基金数据爬取 第二步:股票增持计算 第三步:好股基金选取 桌面程序 exe 从前大 ...

  9. python爬虫下载影视网站的电影

    python爬虫下载影视网站的电影 我这边选取了vip网站 F12打开调试抓包模式 搜索影片的名称, 观察看看给那个url地址发送了请求, 我看到了 这个请求需要携带发送数据 而这个数据就是我们要的影 ...

最新文章

  1. PyCharm_10个加速省时间技巧
  2. vs 输入代码时出现火花_在Visual Basic的立即窗口内输入以下语句 X=65
  3. CentOS搭建本地光盘YUM源
  4. JAVA/PHP/C#版RSA验签--转
  5. 1026 程序运行时间 (15 分)
  6. 20 PP配置-生产计划-定义计划订单计划参数
  7. 26-[Boostrap]-全局css样式,组件,控件
  8. 去掉有序数组中的重复元素 c/c++
  9. html 图片触碰有放大效果,CSS3 鼠标滑过图片突出放大效果
  10. [高项]定性风险分析VS定量风险分析
  11. 计算机网络10--路由冗余备份,缺省(静态)路由配置
  12. unbuntu 安装虚拟环境 virtualenv和virtualenvwrapper
  13. java计算机毕业设计售楼系统源码+mysql数据库+系统+lw文档+部署
  14. 【知识点】eval() 的用法
  15. win7——win server 2012 iis中使用asp程序出现Microsoft OLE DB Provider for ODBC Drivers 错误 '80004005'
  16. C#支付宝当面付扫码支付开发,包括demo代码的修改和蚂蚁金服开发平台的配置
  17. 南柯服务器压力,从纳兰性德《木兰花》中看网络暴力和舆论压力带来的抑郁现象...
  18. cordova应用兼容iOS11+和iPhoneX刘海屏
  19. 浏览器书签同步插件EverSync
  20. 2022起重机司机(限桥式起重机)特种作业证考试题库及在线模拟考试

热门文章

  1. 经典漏洞MS11_003漏洞复现(windows7IE溢出漏洞)
  2. Jenkins Role-based用户鉴权插件
  3. ROS中TF(坐标系转换)原理与使用
  4. java trackid_TrackIdUtil.java
  5. 考研卷哭了!最难调剂的七大专业!
  6. 子服务器作用,子网掩码是什么
  7. 大众点评超实用爬虫系列4
  8. Android面试:面向Android开发者的复习指南!吐血整理
  9. 帕尔默文化语言学对翻译研究的启示
  10. Linux内核配置(三) :电源,总线配置