利用python爬虫下载小说
回想当初自学Python很大一部分原因是想要自己爬数据,今天终于学会了怎么下载小说。于是搞了一波《球状闪电》。
需要用到两个库:requests 和 BeautifulSoup,用 pip 安装即可。
主要的步骤是:
- 利用
requests.get(url)
获取网页信息。注意如果中文出现乱码,就加上edcoding = '*'
,其中星号代表 html 解码方式,通常在 head 里面的 charset 可以找到。 - 通过审查元素找到想要抓取内容的路径(右击正文部分打开检查即可)
- 利用
find_all()
抓取有用信息,并进行过滤
但最后效果是换行有点多,格式有些乱。我用 text.replace()
也没用,可能换行符不大一样吧。
同志还需努力。
import requests, sys
from bs4 import BeautifulSoupdef get_contents(target): # 获取章节内容req = requests.get(url = target)req.encoding = 'GB2312'html = req.textbf = BeautifulSoup(html, features = "lxml")texts = bf.find_all('div', id = 'content')texts = texts[0].text.replace('\n\n', '\n') #去不掉多余换行?return textsdef writer(name, path, text): # 写入 pathwrite_flag = Truewith open(path, 'a', encoding = 'utf-8') as f:f.write(name + '\n')f.writelines(text)f.write('\n\n')if __name__ == "__main__":# 获取目录names, urls = [], []req = requests.get(url = 'http://book.sbkk8.com/xiandai/liucixinzuopinji/qiuzhuangshandian')req.encoding = 'GB2312'html = req.textbf = BeautifulSoup(html, features = "lxml")content = bf.find_all('div', class_ = 'mulu')atmp = BeautifulSoup(str(content[0]), features = "lxml")a = atmp.find_all('a') # 返回一个listnum = len(a)for u in a: # 每章名称和链接names.append(u.string)urls.append('http://book.sbkk8.com/' + u.get('href'))print("Downloading...")for i in range(num):writer(names[i], 'Ball-lightning.txt', get_contents(urls[i]))print("%.2f%% has been downloaded" % float(100.0*i/num), end = '\r') print("100.00% has been downloaded\nFinish")
利用python爬虫下载小说相关推荐
- 利用Python爬虫下载王者荣耀教学视频
前言: 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这三类人,我给 ...
- python爬虫下载小说_用PYTHON爬虫简单爬取网络小说
用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...
- python爬虫下载小说_python 爬取小说并下载的示例
代码 import requests import time from tqdm import tqdm from bs4 import BeautifulSoup """ ...
- Python 简单爬虫下载小说txt
Python 简单爬虫下载小说txt #第一次写爬虫代码 欢迎交流指正 我们范例爬取的对象是笔趣阁的<圣墟> (最近非常火的连载小说) ##为什么选择笔趣阁# 主要是因为笔趣阁的源代码没有 ...
- python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
- python爬虫爬取音乐_利用python爬虫实现爬取网易云音乐热歌榜
利用python爬虫实现爬取网易云音乐热歌榜 发布时间:2020-11-09 16:12:28 来源:亿速云 阅读:102 作者:Leah 本篇文章给大家分享的是有关利用python爬虫实现爬取网易云 ...
- 小游戏,利用Python爬虫之制作诗歌接龙
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:数据森麟 ( 想要学习Python?Python学习交 ...
- 手把手教你利用 python 爬虫分析基金、股票
手把手教你利用 python 爬虫分析基金.股票 文章目录 手把手教你利用 python 爬虫分析基金.股票 第一步:基金数据爬取 第二步:股票增持计算 第三步:好股基金选取 桌面程序 exe 从前大 ...
- python爬虫下载影视网站的电影
python爬虫下载影视网站的电影 我这边选取了vip网站 F12打开调试抓包模式 搜索影片的名称, 观察看看给那个url地址发送了请求, 我看到了 这个请求需要携带发送数据 而这个数据就是我们要的影 ...
最新文章
- PyCharm_10个加速省时间技巧
- vs 输入代码时出现火花_在Visual Basic的立即窗口内输入以下语句 X=65
- CentOS搭建本地光盘YUM源
- JAVA/PHP/C#版RSA验签--转
- 1026 程序运行时间 (15 分)
- 20 PP配置-生产计划-定义计划订单计划参数
- 26-[Boostrap]-全局css样式,组件,控件
- 去掉有序数组中的重复元素 c/c++
- html 图片触碰有放大效果,CSS3 鼠标滑过图片突出放大效果
- [高项]定性风险分析VS定量风险分析
- 计算机网络10--路由冗余备份,缺省(静态)路由配置
- unbuntu 安装虚拟环境 virtualenv和virtualenvwrapper
- java计算机毕业设计售楼系统源码+mysql数据库+系统+lw文档+部署
- 【知识点】eval() 的用法
- win7——win server 2012 iis中使用asp程序出现Microsoft OLE DB Provider for ODBC Drivers 错误 '80004005'
- C#支付宝当面付扫码支付开发,包括demo代码的修改和蚂蚁金服开发平台的配置
- 南柯服务器压力,从纳兰性德《木兰花》中看网络暴力和舆论压力带来的抑郁现象...
- cordova应用兼容iOS11+和iPhoneX刘海屏
- 浏览器书签同步插件EverSync
- 2022起重机司机(限桥式起重机)特种作业证考试题库及在线模拟考试